Journées internationales d'Analyse statistique des Données Textuelles
7-10 juin 2016 Nice (France)
Cooccurrences, contrastes et caractérisation textuels. Applications à un corpus de professions de foi électorales (1958 – 2007)
Magali Guaresi  1@  
1 : Bases, Corpus, Langage  (BCL)  -  Site web
CNRS : UMR7320, Université Nice Sophia Antipolis (UNS)
Laboratoire BCL - UMR 6039 Université de Nice - Campus Saint-Jean d'Angely 3 24, avenue des Diables bleus 06357 Nice Cedex 4 -  France

Enjeu des débuts de la lexicométrie (Tournier 1980), réaffirmé avec force ces dernières années comme programme d'avenir de l'analyse de données textuelles (ADT), la statistique co-occurrentielle constitue une avancée dans l'appréhension et l'interprétation des textes comme des entités réticulaires organisées. 

 Dans la posture contextualiste forte de l'ADT (Rastier 2011), le repérage de la co-occurrence apparaît comme l'une des voies de la formalisation de co(n)textes porteurs du sens des textes. En effet, le repérage de la co-présence matérielle et statistiquement significative de deux unités textuelles au sein des paragraphes constitue déjà un pas vers la détection de noyaux sémantiques, là où le mot seul demeurait presque toujours ambigu (Mayaffre 2008). Généralisée à l'ensemble des relations des mots d'un corpus (Viprey 1997, 2006), la statistique co-occurrentielle vise, ainsi, à révéler la structure sous-jacente sémantique des textes qui le composent.

 A partir de l'analyse d'un corpus de professions de foi électorales de député-e-s élu-e-s entre 1958 et 2007 (environ 700 textes - 500 000 occurrences), cette contribution propose d'éprouver et d'illustrer la plus-value des méthodes - implémentées dans les logiciels de logométrie (Hyperbase, Iramuteq, Gephi) ces dernières années (Brunet 2012, Ratinaud et Marchand 2012) – dans l'établissement de parcours interprétatifs fondés sur la co-occurrence.

 Prise comme unité textuelle pour la statistique contrastive, la co-occurrence permettra de rendre compte des caractéristiques politiques, chronologiques et genrées des professions de foi selon les propriétés (sexuées ou partisanes) des locuteurs/trices ou selon le contexte historique de leur production. Prise comme l'une des unités fondamentales de la texture (Halliday et Hassan 1976) d'un texte, la co-occurrence dans sa dimension généralisée sera utilisée pour décrire les principaux profils associatifs des substantifs du corpus et ainsi baliser l'architecture isotropique, si ce n'est thématique (Mots 2015), essentielle du discours électoral sous la Cinquième République. Une visualisation du corpus sous forme de réseau, permise par le logiciel Gephi, sera également proposée.

Références

Brunet E. (2012). « Nouveau traitement des cooccurrences dans Hyperbase », Corpus, 11, pp. 219-248.

Halliday M. A. K. and Hasan R. (1976). Cohesion in English. London : Longman.

Mayaffre D. (2008). « Quand “travail”, “famille”, “patrie” co-occurrent dans le discours de Nicolas Sarkozy. Etude de cas et réflexion théorique sur la co-occurrence », JADT 2008, édité par S. Heiden et B. Pincemin, Lyon : PUL, vol. 2, pp. 811-822.

Mots. Les langages du politique. (2015). « Thèmes et Thématiques dans le discours politique », 108, 180 p.

Rastier F. (2011). La mesure et le grain. Sémantique de corpus. Paris : Champion.

Ratinaud P. et Marchand P. (2012). « Application de la méthode ALCESTE aux « gros » corpus et stabilité des « mondes lexicaux » : analyse du « CableGate » avec IRAMUTEQ », JADT 2012, édité par A. Dister, D. Longrée, G. Purnelle. Bruxelles : Université de Liège, pp. 835-844.

Tournier M. (1980). « En souvenir de Lagado », Mots, 1, pp. 5-9.

Viprey J.-M. (1997). Dynamique du vocabulaire des Fleurs du mal. Paris : Champion.

Viprey J.-M. (2006). « Structure non-séquentielle des textes », Langages, 163, pp. 71-85.


Personnes connectées : 1