Journées internationales d'Analyse statistique des Données Textuelles
7-10 juin 2016 Nice (France)
L'environnement vu par ses documents : utilisation de techniques de fouille de textes dans un contexte de description linguistique
Dominic Forest  1, *@  , Hélène Brousseau, Patrick Drouin, Gabriel Bernier-Colborne@
1 : Université de Montréal  -  Site web
* : Auteur correspondant

Nous présentons l'utilisation d'une approche de fouille de textes dans le cadre d'un projet regroupant des chercheurs en sciences de l'information et en linguistique. L'objectif du projet est la description du domaine de l'environnement à partir d'un important corpus Web de 23 514 documents moissonnés à partir de 1 969 sites Web totalisant 47 364 125 occurrences. L'étape dont nous rendons compte dans cette communication est une première étape de fouille de textes visant à extraire la structure thématique d'un échantillon du corpus en appliquant de façon itérative un algorithme de classification non supervisée afin d'identifier une structure hiérarchique de documents partageant des thématiques communes. En outre, notre approche est novatrice, puisqu'elle permet de traiter un corpus complexe composé de différents genres textuels, dont des documents de multiples domaines et de plusieurs types incluant des rapports d'experts, des articles de journaux, des pamphlets idéologiques et des travaux de vulgarisation. À partir de nos résultats, nous sommes à même d'alimenter le travail de linguistes par la possibilité de visualiser les principaux thèmes sous la forme d'un dendrogramme interactif de thèmes et par la création de sous-corpus spécialisés. Au final, nos résultats démontrent que l'utilisation de cette approche basée sura fouille de textes comme première étape exploratoire pour appréhender les corpus massifs et bruités du Web améliore la précision des étapes subséquente menant à la description linguistique d'un domaine.


Personnes connectées : 1