Journées internationales d'Analyse statistique des Données Textuelles
7-10 juin 2016 Nice (France)
Sine nomine vulgus : étude contrastive des profils combinatoires des noms de la foule à partir d'un corpus arboré latin
Louis Autin  1@  , Kamel Bouzidi  2@  , Olivier Kraif  2, *@  , Julie Sorba  2, *@  
1 : LITT&ARTS. Arts et pratiques du texte, de l'image, de l'écran et de la scène  (LITT&ARTS)  -  Site web
Université Grenoble Alpes, Litt&Arts
BP25 - 38040 Grenoble cedex 9 -  France
2 : LInguistique et DIdactique des Langues Étrangères et Maternelles  (LIDILEM)  -  Site web
Université Grenoble Alpes, Lidilem
BP 25 - 38040 Grenoble cedex 9 -  France
* : Auteur correspondant

Notre contribution s'inscrit dans le cadre du développement des humanités numériques et du text mining. Elle présente (1) les premiers résultats d'un travail d'annotation de corpus latin visant à intégrer celui-ci dans le Lexicoscope et (2) une étude pilote destinée à montrer les apports de l'outil à l'étude du lexique latin.

(1) Le Lexicoscope (Kraif, Diwersy 2014) est un outil destiné à l'étude des profils combinatoires des unités lexicales. Il permet d'extraire pour un pivot donné l'ensemble de ses cooccurrents syntaxiques les plus significatifs ainsi que les relations syntaxiques mises en jeu. Outre l'extraction de tableaux de cooccurrents, le Lexicoscope possède des fonctionnalités intéressantes pour l'étude des profils combinatoires, comme l'extraction automatique d'expressions polylexicales. Pour intégrer les corpus à cet outil, la première étape a été de se doter d'un analyseur syntaxique en dépendance. Nous avons utilisé Treetagger (Schmid 1995) pour l'étiquetage morphosyntaxique, avant d'entraîner un parseur stochastique, Malt Parser (Nivre et al. 2006), sur un corpus arboré, l'Index Thomisticus (McGillivray et al. 2009). Les résultats obtenus avec ce modèle, bien qu'encore imparfaits, sont cependant exploitables pour l'extraction des profils combinatoires, qui ne s'appuient que sur les relations les plus stables et récurrentes. Les corpus analysés sont composés de deux genres littéraires en prose unis par leur caractère oratoire (les rhéteurs Cicéron et Sénèque le Père ; les historiens Salluste, César, Tite-Live et Tacite). Nous avons obtenu un corpus analysé en dépendance de 3246233 tokens (http://phraseotext.u-grenoble3.fr/lexicoscope/).

(2) Notre étude pilote s'intéresse aux noms de la foule en latin. Ils relèvent de la catégorie des noms collectifs (Ncoll), mais leur classement au sein de cette catégorie est discuté (‘Ncoll non décomposable' Jespersen 1924 ; ‘ordinary group nouns' Copestake 1995 ; ‘Ncoll catégorisateur' Lecolle 1998 ; Ncoll ne constituant pas une sous-classe grammaticale distincte pour Flaux 1999 ; ‘Ncoll de regroupement spatial' Lammert 2010). Les trois lexies de l'étude, uulgus (n), turba (f), multitudo (f), présentées comme des quasi-synonymes (« foule, multitude » dans Gaffiot ; « crowd » dans Lewis & Short), ont, jusqu'à présent, fait l'objet de très peu d'études linguistiques. L'objectif de ce travail est ainsi double : proposer une esquisse de typologie pour ces Ncoll de la foule en latin et décrire le traitement de la synonymie dans une perspective contrastive. Pour ce faire, nous appuyons nos analyses sur des approches lexico-statistiques (Blumenthal 2012, Kraif & Diwersy 2013) et allions l'étude de la combinatoire syntaxique et lexicale (Blumenthal 2007, Novakova & Tutin 2009) à celle des phénomènes discursifs et textuels (Hoey 2005, Rastier 2011). Le fonctionnement de chacune des lexies est décrit au moyen d'un profil discursif qui s'appuie sur des analyses micro- et macro-structurelles. On fait l'hypothèse que le sémantisme différent de ces lexies a des répercussions sur la structuration lexicale, syntagmatique et textuelle. En effet, multitudo, terme à polarité neutre indiquant le simple grand nombre, apparaît bien moins fréquemment dans des structures à valeur idéologique forte – tels l'infinitif de narration ou le fréquentatif – que uulgus et turba, substantifs à polarité négative (initialement « troupeau » et « désordre »).


Personnes connectées : 1