Journées internationales d'Analyse statistique des Données Textuelles
7-10 juin 2016 Nice (France)
Medialatinitas. Pour une intégration superficielle des ressources textuelles et lexicales en latin
Krzysztof Nowak  1@  , Bruno Bon  2@  , Renaud Alexandre  2, *@  
1 : Institut de la langue polonaise - Académie polonaise des sciences  (IJP-PAN)  -  Site web
al. Mickiewicza 31 31-120 Kraków -  Pologne
2 : Institut de recherche et d'histoire des textes  (IRHT)  -  Site web
CNRS : UPR841
40 avenue d'Iéna 75116 Paris -  France
* : Auteur correspondant

Dans l'histoire de l'Europe occidentale, le latin occupe une place prépondérante. Son usage n'a pas cessé pendant plus de quinze siècles sur un territoire allant de la Suède à l'Italie et du Portugal à la Pologne. L'immense quantité de textes, écrits tout au long de cette période, témoigne de cette grande variation géographique, chronologique et typologique. L'étude de ces textes a donné lieu à une importante production érudite, dont les dictionnaires représentent une part essentielle.

Ces ressources textuelles et lexicales existent aujourd'hui – du moins partiellement – sous forme numérique. Elles sont toutefois largement dispersées, et ne se prêtent pas suffisamment à une recherche intégrée. Les collections de textes disponibles ne sont pas de véritables corpus représentatifs, et ne couvrent qu'une infime partie des sources conservées ; leur consultation n'est généralement possible qu'au moyen d'applications très simples interdisant un traitement plus fin. Il en est de même des dictionnaires électroniques : chacun d'eux couvre une période et une zone géographique limitées et possède son propre style éditorial ; les définitions y sont données dans des langues différentes ; bref, on ne peut pas considérer qu'ils rendent compte de manière cohérente du latin dans toute sa diversité.

Le portail Medialatinitas est un projet en cours de développement destiné à incorporer, au sein d'une application web unique, différentes ressources textuelles et lexicales hétérogènes au moyen de technologies diverses. Notre but est de rassembler des données éparses et leurs outils d'analyse (logiciels ou scripts) dans un environnement de recherche destiné à tous ceux qui s'intéressent au latin : linguistes, historiens, étudiants, enseignants. Il ne s'agit pas simplement d'amasser des données, mais de permettre à l'utilisateur d'utiliser simultanément plusieurs outils d'interrogation. C'est au niveau de l'interface web – donc en surface – que se construit l'intégration. Cette interface sert à la fois de couche de présentation et de point d'accès vers des services en arrière-plan.

Sur la page d'accueil, l'utilisateur est invité à remplir un champ de recherche simple à auto-complétion. Sa requête est transmise à différents outils tournant sur le serveur, et les résultats sont présentés sous la forme de modules (widgets) juxtaposés dans une grille. Conçus comme un tout cohérent, ils offrent la description la plus complète possible des caractéristiques du mot (sens, morphologie, répartition géographique, chronologique, typologique, etc.). Pour cela, plusieurs outils sont mis en place sur le serveur : ‘eXist-db' pour l'interrogation des dictionnaires électroniques, ‘CQP' pour des textes traités et structurés localement, ‘Lucene' pour des textes bruts océrisés, ‘Mediawiki' pour des données lexicographiques et encyclopédiques. Les différents modules affichent les résultats du traitement de ces données au moyen d'un ensemble de scripts R et d'outils de visualisation. Après cette étape de synthèse, l'utilisateur peut passer à une analyse plus poussée en cliquant sur le module qui l'intéresse, pour obtenir une description détaillée des propriétés d'un mot, puis, le cas échéant, écrire lui-même ses requêtes dans une session CQPWeb, eXist-db ou shinyApp.


Personnes connectées : 1