Ce travail s'intéresse à l'établissement et l'exploration d'un corpus représentant un genre particulier et une époque particulière de l'histoire de France. Il s'agit de la naissance de l'opéra français, sous le régime de Louis XIV.
La constitution de ce genre de corpus est loin d'être aisée. En effet l'automatisation de la saisie et un traitement d'océrisation se sont avérés presqu'impossibles. Une large partie des textes a par conséquent été saisie manuellement. Dans les textes du XVIIe et de la première moitié du XVIIIe siècle, on est en effet confronté à une graphie non encore stable et à des variations orthographiques importantes, même à l'intérieur d'un seul livret. La typographie ancienne rend elle-aussi l'automatisation peu fiable.
Le corpus rassemblé englobant soixante-quinze livrets s'étend du 1673 au 1732, et représente la totalité de la production des tragédies en musique de la période de Lully à Rameau, données sur la scène de l'Académie Royale de musique durant cette période. La constitution de la base de données a été faite dans l'environnement de la plateforme TXM, à partir du fonds numérisé de l'intégralité des livrets d'opéra, permettant la consultation simultanée d'une base de fac-similés, d'une base numérisée respectant scrupuleusement le texte original et une base normalisée plein-texte, conforme aux standards XML-TEI, permettant ainsi l'exploration hypertextuelle et textométrique.
Le codage, structuré selon les recommandations TEI P5-Drama, permet une accessibilité aisée et la possibilité d'une hiérarchisation en adéquation avec la spécificité du genre, pour ainsi extraire des parties distinctes, par exemple les didascalies ou les approbations du roi.
Un parser dédié à la semi-automatisation de la conversion des textes source vers les bases du format XML TEI P5-Drama a été développé. Le parser tente de maximiser la détection des diverses entités, puis produit les fichiers XML. Ces fichiers peuvent ensuite être importé dans TXM Desktop ou TXM Web. L'interface permet ici une navigation « hiérarchique », l'accès aux applications textométriques de TXM ainsi que le retour au texte original à tout moment.
Une étude textométrique fine exige de plus une normalisation des formes. Afin de détecter les items lexicaux « étrangers » à la langue française d'aujourd'hui, le corpus a été confronté à un dictionnaire de référence, strictement dédié au français contemporain. L'application et l'analyse de DiaTag permet l'identification initiale des items inconnus ainsi que des noms propres, en se référant au dictionnaire.
Hyperbase intègre une technique qui tient compte de la versification. Le traitement du texte en vers est en effet relativement contraignant car il ne faut pas, comme dans l'analyse du texte en prose, tenir compte des limitations selon les paragraphes (pour lesquelles sont généralement conçus les logiciels textométriques), mais des vers et des strophes.
L'exploration et l'analyse de ce corpus par différents logiciels permet ici d'optimiser l'analyse textométrique et d'approfondir l'étude des constellations thématiques dans ce genre naissant qu'est l'opéra baroque dans une perspective comparative – grâce aux corpus de référence – aussi bien que dans une perspective d'évolution à l'intérieur du genre.