Journées internationales d'Analyse statistique des Données Textuelles
7-10 juin 2016 Nice (France)
Mettre en évidence le temps lexical dans un corpus de grandes dimensions : l'exemple des débats du Parlement européen
Sascha Diwersy  1@  , Giancarlo Luxardo  1@  
1 : PRAXILING UMR5267  (Praxiling)  -  Site web
CNRS : UMR5267, Université Paul Valéry - Montpellier III
Université Paul-Valéry Route de Mende 34199 Montpellier Cedex 5 -  France

L'École française d'analyse du discours a appliqué au traitement des corpus textuels deux principales méthodes empruntées à l'analyse de données multivariée : l'analyse des spécificités lexicales et l'analyse factorielle des correspondances (AFC). Dans une perspective complémentaire, nous présentons un procédé de classification spécificiquement adapté aux corpus ordonnés suivant une variable chronologique : la classification ascendante hiérarchique par contiguïtés (CAHC), introduite par Gries & Hilpert (variablility-based neighbour clustering, 2008 ; 2012) comme outil de périodisation dans le domaine de la linguistique de corpus diachronique. Cette méthode de classification est appliquée au traitement d'un corpus volumineux, celui des interventions en séance plénière au Parlement européen entre 1996 et 2011. A titre d'exemple, nous étudions la variation chronologique concernant l'usage du mot civilisation, tel qu'il se manifeste à travers ses inventaires collocationnels partitionnés par année.



  • Autre
Personnes connectées : 1