Journées internationales d'Analyse statistique des Données Textuelles
7-10 juin 2016 Nice (France)
Analyse statistique des données textuelles et traitement automatique des langues. Une etude comparée.
Mathieu Valette  1@  
1 : Équipe de Recherche en Textes, Informatique, Multilinguisme  (ERTIM)  -  Site web
INALCO
2 rue de Lille, 75007 Paris -  France

Notre propos est de caractériser les sous-disciplines que sont l'analyse statistique des données textuelles (ADT) et le traitement automatique des langues (TAL) selon des points de vue gnoséologique, méthodologique et applicatif d'une part, et du point de vue des objets d'étude (texte, corpus) d'autre part. L'étude s'appuie notamment sur une analyse textométrique d'un corpus diachronique de textes académiques : la totalité des actes de deux conférences communautaires francophones emblématiques : les Conférences en Traitement Automatique de la Langue Naturelles et les Journées internationales d'Analyses statistiques des Données Textuelles, de 1998 à 2015. En dépit de quelques traits communs liés au substrat numérique et d'affinités intercommunautaires ponctuelles, elles se distinguent à maintes égards, nous proposons de dresser un tableau de leurs divergences afin d'identifier leurs vertus et leurs faiblesses dans la perspective d'un dialogue que nous souhaitons interfécond. Nous résumons ci-dessous les points de discussion qui seront abordés dans l'article. 

(i) Automatisation vs herméneutique : le TAL vise l'automatisation des processus tandis que l'ADT repose sur une itération entre l'analyse des sorties logicielles et la consultation des textes ou de fragments ; en cela, il s'agit davantage d'une linguistique assistée par ordinateur.

(ii) Tekhnè vs épistémè : le TAL est aujourd'hui essentiellement utilitariste et a pour finalité la production d'applications, ce qui implique une recherche de performance et d'optimisation ; la textométrie a des objectifs épistémiques : accroître les connaissances et participer à l'interprétation d'un corpus.

(iii) Evaluation vs jugement d'acceptabilité : à la différence du TAL où la mise en place d'un protocole de test est indispensable, l'évaluation et la reproductibilité ne sont pas problématisées par la textométrie. Les études textométriques sont validées par homologation, c'est-à-dire par l'assentiment d'une communauté.

(iv) Algorithmique vs ergonomie : les praticiens de l'ADT ne sont pas des informaticiens mais des utilisateurs finaux de logiciels dotés d'interface graphique permettant souvent la manipulations des outils que les talistes développent ou utilisent pour leurs propres tâches. L'essentiel des efforts en matière de création d'outils d'ADT porte actuellement sur l'ergonomie logicielle. Les méthodes mathématiques spécifiques, qui satisfont le plus grand nombre, évoluent peu depuis 30 ans mais les heuristiques et les savoir-faire analytiques sont déterminants. 

(v) Corpus comme ressources vs corpus comme sources : l'ADT porte un soin particulier à la description philologique des corpus de textes entiers tandis que le TAL identifie le plus souvent des ressources générales (Web, Facebook, etc.) permettant de produire des corpus considérés comme des réservoirs d'objets linguistiques infratextuels (termes, structures prédicatives, etc.). Par ailleurs, le corpus en textométrie est conçu comme un mode de contextualisation à échelle multiple des phénomènes observables, de la cooccurrence au corpus intégral qui objective l'intertexte. Les sous-corpus ayant souvent une fonction différentielle, on distinguera le corpus de référence et le corpus de travail. Les pratique expérimentales du TAL imposent l'utilisation a minima de deux types de corpus qui ne recoupent en rien la typologie de l'ADT : un corpus d'apprentissage, à partir duquel est élaboré un modèle reproduisant la configuration optimale des données du corpus et un corpus de test destiné à évaluer la performance du modèle produit.


Personnes connectées : 1