Journées internationales d'Analyse statistique des Données Textuelles
7-10 juin 2016 Nice (France)
Mise en correspondance de données textométriques et comportementales : segments répétés et jets textuels
Georgeta Cislaru  1@  , Thierry Olive  2, *@  
1 : CLESTHIA
Université Sorbonne nouvelle
2 : Cerca
CNRS : UMR7295
* : Auteur correspondant

Le traitement automatique de la dynamique textuelle a bénéficié dernièrement d'avancées importantes (Bourdaillet et al. 2008 ; Mahrer et al. 2015). La textométrie, réservée au traitement des textes finis mis en série par ordre chronologique, générique ou thématique, gagne un nouveau terrain, qui est celui du texte au travers ses versions de rédaction. Depuis quelques années, des logiciels d'alignement textuel – destinés initialement aux versions multilingues, pour certains (cf. Fleury & Zimina 2008) – prennent en charge l'alignement des versions chronologiques des textes (Fenoglio et Ganascia 2007, Lardilleux et al. 2013). Ce grand pas en avant laisse cependant de côté le temps réel de l'écriture, et la part des spéculations « après-coup » reste importante. En même temps, s'il existe des logiciels et des méthodes d'analyse du processus de configuration du texte en temps réel (Alamargot, Chesnet, Dansac et Ros, 2006 ; Caporossi et Leblay, 2011 ; Leijten et Van Waes, 2013 ; Wengelin, Torrance, Holmqvist, Simpson, Galbraith, Johansson, et Johansson, 2009 ; pour une revue, voir Olive, 2011), ils ne prennent que très peu en compte la dimension linguistique à proprement parler (voir cependant les derniers développements d'Inputlog, Leijten, Van Horenbeeck, et Van Waes, 2015).

Nous avons tenté une articulation des approches du texte fini et des dynamiques textuelles, grâce à un outil qui permet de mettre en regard des séquences textuelles des deux bords. Le logiciel compare ainsi les segments répétés de discours (Lafon & Salem 1983), tels qu'identifiés dans les versions finales des textes, et les séquences de texte produites d'un seul jet (Chenoweth & Hayes, 2001 ; Olive & Cislaru, 2015 ; Alves, Branco, Castro & Olive, 2011). Ce choix de comparaison se justifie par des hypothèses d'enracinement cognitif et de reproduction idiomatique du langage, issues respectivement de la linguistique cognitive, et notamment la grammaire des constructions (Langacker 1987, Schmid 2010), et des courants de la linguistique de corpus (Sinclair 1991 ; Wray 2002), de la linguistique des usages (Bybee 2007 & 2010). Les recherches dans ces courants théoriques s'appuyant généralement sur l'étude de corpus de textes, il nous a semblé intéressant d'interroger, par ce biais, un ensemble de méthodologies d'analyse textuelle (voir aussi Blumenthal-Dramé 2013). Notre approche donne accès à un nouvel angle de vue sur les données textuelles et apporte quelques éléments de réponse quant aux stratégies de configuration textuelle.

Les questions que nous nous posons, et les résultats que nous détaillerons, concernent plus particulièrement les aspects suivants :

  • Le choix des catégories d'analyse pour une approche de l'interface processus/produit du texte ;
  • Les allers-retours entre les deux versants de l'interface, processus et version finale du texte ;
  • Les problématiques d'annotation multi-niveaux des données textuelles et celles soulevées par le temps réel de l'écriture ;
  • Les allers-retours entre forme (syntaxique) et contenu (lexical ou sémantique) et l'intérêt méthodologique des patrons constructionnels (Legallois & Tutin eds 2013) ;
  • Le traitement des fréquences et la place des statistiques.

 


Personnes connectées : 1