Journées internationales d'Analyse statistique des Données Textuelles
7-10 juin 2016 Nice (France)
Analyse sémantique distributionnelle dans un corpus technique : les enjeux sémantiques dans un jeu de statistiques
Ann Bertels  1, 2, *@  , Dirk Speelman  2, *@  
1 : ILT - K.U.Leuven
2 : QLVL - K.U.Leuven
* : Auteur correspondant

Cette communication présente la méthodologie d'une analyse sémantique distributionnelle dans un corpus de taille modeste relevant d'un domaine très spécialisé. Le but est de montrer les enjeux sémantiques dans un ensemble d'analyses statistiques. En affinant les analyses statistiques et en enrichissant les données distributionnelles, nous essayons d'aboutir à des interprétations sémantiques plus intéressantes et plus pertinentes.

Dans un corpus technique de petite taille, nous procédons au regroupement des cooccurrents de premier ordre d'un mot-pôle polysémique et homonymique (tour), en fonction des cooccurrents de deuxième et troisième ordre partagés. L'analyse statistique de positionnement multidimensionnel (Multidimensional Scaling ou MDS) permet de positionner les cooccurrents de premier ordre les uns par rapport aux autres, pour ainsi visualiser en 2D des groupes de cooccurrents sémantiquement liés. Nous présentons plusieurs expérimentations pour la mise au point du paramétrage des configurations, prenant en compte notamment la catégorie grammaticale des cooccurrents et les lemmes des coocccurrents de premier ordre. Dans un souci d'enrichir la matrice des données cooccurrentielles, nous recourons également à un facteur de pondération en fonction des cooccurrents sémantiquement plus pertinents. Finalement, nous discutons quelques analyses statistiques de regroupement et de visualisation alternatives.

Dans ce corpus technique, avec ses particularités sémantiques, nous sommes à la recherche des combinaisons de paramètres performantes du point de vue statistique et pertinentes du point de vue sémantique.


Personnes connectées : 1