Journées internationales d'Analyse statistique des Données Textuelles
7-10 juin 2016 Nice (France)
Mercredi 8
Classification des textes

› 9:30 - 10:00 (30min)
› salle Cézanne - Le Saint Paul
L'analyse de similitude pour modéliser les CHD
Lucie Loubere  1@  
1 : Laboratoire d'Etudes et de Recherches Appliquées en Sciences Sociales  (LERASS)  -  Site web
Université Paul Sabatier (UPS) - Toulouse III : EA827
Laboratoire d'Etudes et de Recherches Appliquées en Sciences Sociales -  France

Les classifications hiérarchiques descendantes de type Reinert permettent de mettre en évidence les différents types de mondes lexicaux (Reinert, 1993) présents dans un corpus. Ce processus, basé sur un rapprochement de segments de texte par homogénéité de cooccurrence, permet de connaître les contenus spécifiques, et les différences entre les discours composant le corpus.

Les analyses de similitudes effectuées sur ces classes mettent en évidence la structure de ces unités lexicales, en se centrant uniquement sur les formes présentes dans les profils. Cette association méthodologique, si elle permet d'étudier les thématiques dans leur contenu et leur organisation, néglige cependant les liens existant entre les classes.

L'étude que nous proposons consiste à partir du logiciel iramuteq, à fusionner des analyses de similitude de classe d'une même CHD, ou de CHD différentes mais portant la même thématique.

 

Le corpus étudié est constitué de contributions sur le forum de la concertation nationale sur le numérique pour l'éducation (http://ecolenumerique.education.gouv.fr/). Ce projet, proposait (entre autre) de participer sur un forum à une réflexion sur cinq thématiques différentes dont nous avons extrait les contenus (à l'aide du logiciel Gromoteur) :

  • apprentissage et réussite

  • pratique pédagogique et éducative

  • compétence de demain

  • réduction des inégalités

  • ouverture de l'école.

Notre travail a ensuite consisté à partir des CHD de chaque corpus, à éditer un graphe de similitude en pourcentage de cooccurrence de chaque classe, puis à fusionner ces dernières, en assignant à chaque forme une couleur selon sa prédominance dans une des thématiques.

Les résultats ainsi obtenus, montrent que si une analyse de similitude sur l'ensemble du corpus avec une coloration par variable « classe », est trop générale et contient trop de formes pour être lisible, la fusion des graphes de classe (uniquement sur les formes présentes dans le profil) marque une répartition spatiale des classes proche du découpage du dendrogramme tout en permettant de visualiser les formes présentes sur plusieurs classes, mettant ainsi en relief les liens entre ces dernières.

 

Au delà du complément de l'étude d'une CHD, ce procédé, permet à partir de la sélection thématique des segments par CHD (Loubère, 2013, Marchan & Ratinaud, 2015) de mettre en perspective plusieurs classes traitant de la même thématique mais appartenant à différents corpus.

Ainsi sur 4 des 5 axes de réflexions proposés par la concertation nationale, nous retrouvons une classe traitant des logiciels libres, et/ou de leur oppositions aux solutions propriétaires. La fusion de ces classes marque également la répartition du discours sur les outils open source en fonction de la thématique inductrice des messages.

 

 

 


Personnes connectées : 1