Abstract:
In bag-of-words approaches textual data are organized in words×texts contingency tables. Diachronic corpora include texts which have a chronological order and produce words×time-points contingency tables, i.e. the frequencies of each word in the text (or in the set of texts) that refers to each time-point. The temporal evolution of word frequencies is crucial to highlight the distinctive features of time spans as well as to cluster words portraying a similar temporal pattern. However, to take into account the fluctuating size of available texts for each time-point, the strong asymmetry of word frequencies and the general problem of data sparsity, a transformation of data is necessary. This study aims at examining how different data transformations affect curve clustering in terms of number and composition of word groups. A functional data approach that envisages a smoothing procedure (B-splines) combined with a distance-based curve clustering has been adopted. Examples are taken from the corpus of titles of scientific papers published by the Journal of the American Statistical Association (and its predecessors) in the time-span 1888-2012 and consist in the analysis of the life-cycle of 900 keywords through the timeline of 107 volumes.
Riassunto:
Negli approcci di tipo bag-of-words i dati testuali sono organizzati in tabelle di contingenza parole×testi.
I corpora diacronici sono formati da testi in ordine cronologico e producono tabelle di contingenza parole×tempi, cioè frequenze di ogni parola nel testo (o nell'insieme di testi) che fa riferimento a ciascun periodo di tempo. L'evoluzione temporale delle frequenze di una parola è indispensabile per evidenziare le peculiarità dei diversi periodi e anche per raggruppare parole che mostrano un andamento simile. Tuttavia, per tenere in considerazione la diversa dimensione dei testi a disposizione per ciascun periodo di tempo, la forte asimmetria presente nella frequenza delle parole e la generale sparsità dei dati, non si può prescindere dal sottoporre i dati ad una trasformazione preliminare. Lo scopo di questo studio è esaminare come diverse trasformazioni agiscono sui risultati del curve clustering in termini di quantità e composizione dei gruppi di parole. Si è scelto di usare un approccio per dati funzionali che combina una procedura di lisciamento (B-splines) delle traiettorie con una di raggruppamento di tipo distance-based,. L'esempio riguarda un corpus di titoli di articoli scientifici pubblicati dal Journal of the American Statistical Association (e predecessori) nel periodo 1888-2012 e consiste nell'analisi del ciclo di vita di 900 parole chiave attraverso la linea temporale dei 107 volumi.