Journées internationales d'Analyse statistique des Données Textuelles
7-10 juin 2016 Nice (France)
Conception d'un outil de visualisation et d'exploration de chaînes de coréférences
Frédéric Landragin  1@  
1 : Langues, Textes, Traitements Informatiques, Cognition  (LaTTICe)  -  Site web
Université de la Sorbonne nouvelle - Paris III, Ecole Normale Supérieure de Paris - ENS Paris, CNRS : UMR8094, Université Sorbonne Paris Cité (USPC), PSL Research University
LaTTICe - ENS 1, rue Maurice Arnoux 92120 Montrouge -  France

Une chaîne de coréférences regroupe toutes les mentions désignant un même référent extra-linguistique. Des projets comme le projet ANR DEMOCRAT étudient ces chaînes de coréférences. La méthodologie commence par l'annotation d'expressions référentielles (mentions) et leur regroupement en chaînes, chaque référent important - par exemple les personnages humains d'un texte narratif - faisant l'objet d'une chaîne. L'analyse des données ainsi annotées se confronte à deux enjeux pour lesquels les outils actuels d'avèrent insuffisants : premièrement la visualisation ergonomique des chaînes, sachant qu'une chaîne couvre potentiellement toute la longueur du texte ; deuxièmement l'analyse quantitative de ces chaînes : quels décomptes effectuer ? A quels indicateurs numériques et statistiques faire appel ? Dans cet article, nous décrivons un premier travail de conception d'un outil de visualisation et d'exploration de chaînes de coréférences, ainsi qu'une expérience d'utilisation de cet outil avec le corpus MC4 annoté en chaînes, corpus diffusé sur la plateforme Ortolang.

La solution de visualisation la plus élaborée est probablement celle de l'outil GLOZZ : dans la zone de l'interface dédiée à l'affichage du texte, les expressions référentielles sont emboîtées et les chaînes de coréférences (si elles ont été annotées à l'aide de relations entre mentions) s'affichent en suivant plusieurs choix graphiques, l'un d'entre eux correspondant exactement à l'image que l'on se fait d'une "chaîne". En complément de cette solution, notre choix est celui de l'extraction - hors du texte - des mentions, pour en faire des unités graphiques (noeuds colorés) sur lesquels il est possible d'agir : affecter un code couleur selon les valeurs d'une des propriétés annotées, ou encore affecter un code de taille et de forme géométrique, afin de diversifier les types de visualisation et de faciliter la détection de phénomènes remarquables. Exploitée pour l'étude de nouvelles de Maupassant, cette technique permet d'avoir un regard complémentaire de celui du lecteur "naïf", qui parcourt le texte avec une attention particulière pour les mentions. Cette expérience souligne la complémentarité : l'outil de visualisation ne permet pas l'émergence "magique" d'analyses ; elle apporte des confirmations à des tendances observées à la lecture et des illustrations graphiques de ces tendances.

La solution retenue pour l'analyse quantitative des chaînes de coréférences est d'une part le calcul d'un ensemble de décomptes, ceux-ci se choisissant et se paramétrant via une interface graphique simple, qui se veut accessible, et d'autre part le calcul de bi-grammes et tri-grammes en utilisant l'une des propriétés annotées : la succession des annotations dans le texte est considérée comme un message utilisant un alphabet particulier, celui des valeurs possibles pour la propriété retenue, et l'outil affiche les fréquences d'apparitions de l'ensemble des bi- ou tri-grammes observés. Exploitée là aussi pour l'étude de textes narratifs, cette technique apporte des arguments chiffrés à des questions de continuité référentielle. Entre autres exemples, on peut ainsi quantifier le fait qu'un paragraphe commence avec le même référent que le dernier cité dans le paragraphe précédent. Là aussi, analyse linguistique classique et analyse outillée s'enrichissent l'une l'autre.



  • Image
Personnes connectées : 1