Journées internationales d'Analyse statistique des Données Textuelles
7-10 juin 2016 Nice (France)
Disambiguation of occurrences of reformulation markers c'est-à-dire, disons, ça veut dire
Natalia Grabar  1@  , Iris Eshkol-Taravella  2, *@  
1 : UMR8163 Savoir, Textes, Langage  (STL)  -  Site web
CNRS : UMR8163, Université Lille III - Sciences humaines et sociales
Université Lille 3 rue du Barreau F-59000 Lille -  France
2 : Laboratoire Ligérien de Linguistique  (LLL)
CNRS : UMR7270, Université d'Orléans
Université d'Orléans -  France
* : Auteur correspondant

 

La reformulation est un processus qui consiste à dire à nouveau une information qui a déjà été dite, mais en effectuant un ensemble de modifications formelles et/ou sémantiques. Parfois, les reformulations sont signalées par des marquers spécifiques, comme par exemple c'est-à-dire, disons, ça veut dire. Nous proposons d'étudier le phénomène de reformulation. Plus particulièrement, nous nous concentrons sur la structure syntagmatique S1 marker S2, formée autour d'un marqueur de reformulation, et dans laquelle le premier segment S1 est reformulé par le deuxième segment S2. L'objectif de notre étude est de différencier automatiquement les occurrences reformulatives et non reformulatives des marqueurs étudiés. Nous créons un système basé sur des règles, qui repose sur un ensemble d'indices pour prendre la décision. Deux types de corpus en français sont traités : corpus oral ESLO et corpus de discussion de forum. L'évaluation du système est effectuée grâce à une comparaison avec un ensemble de référence consensuel annoté manuellement. Notre système a été créé sur un sous-ensemble du corpus oral et ensuite appliqué au reste de corpus. Les résultats obtenus atteignent jusqu'à 0,75 de précision et sont comparables dans les corpus analysés, bien que les corpus oraux soient plus difficiles à traiter.


Personnes connectées : 1