Collatinus propose deux outils rudimentaires pour
mesurer les fréquences d'un lemme dans un texte ou
faire des statistiques sur les schémas métriques des
vers. Cet outil est accessible dans le menu Lexiques
(Fréquences) ou par le bouton représentant un boulier.
Il s'applique lorsque les onglets "Lexiques" ou
"Scansion" sont actifs et effectue des opérations
différentes détaillées ci-dessous.

Dans l'onglet "Lexiques", la fonction "Fréquences"
essaie d'estimer le nombre d'occurrences de chaque
lemme rencontré dans le texte et établit une liste
ordonnée des lemmes (le plus fréquent d'abord). En
réalité, on ne sait mesurer que le nombre d'occurrences
des formes et certaines formes peuvent venir de
plusieurs lemmes différents. On ne peut donc pas
espérer avoir un décompte exact sans une étape de
désambiguïsation, essentiellement manuelle car c'est
souvent le sens qui permet de décider des attributions.
Collatinus n'étant pas encore doté d'un outil de
désambiguïsation, il applique une méthode simple. Il
procèd en trois temps. Une première étape, exacte,
consiste à relever toutes les formes et à les compter.
Puis, il lemmatise les formes et considère les deux cas
possibles. Si la forme n'est liée qu'à un seul lemme
connu de Collatinus, son nombre d'occurrences sera
comptabilisé pour ce lemme dans la catégorie "valeur
sûre". Si la forme peut venir de divers lemmes, son
nombre d'occurrences sera comptabilisé dans une
deuxième catégorie "valeur possible" de tous les lemmes
associés. Enfin, suivant le vieil adage, "on ne prête
qu'aux riches", Collatinus répartit à nouveau le nombre
d'occurrences de chaque forme ambiguë entre chaque
lemme possible au prorata de la fréquence de ce lemme.
On obtient ainsi une "valeur probable" pour le nombre
d'occurrences de chaque lemme.

Comme il ne s'agit que d'estimations, la fonction
"Fréquences" donne plusieurs éléménts qui permettent à
l'utilisateur de juger de la pertinence du résultat. Il
s'agit de 4 entiers : n (a, b, c)

n = a+c
a = nombre de formes rattachées seulement à ce lemme
b = nombre de formes ambiguës (partagées par plusieurs lemmes)
c = nombre probable de formes ambiguës rattachées à ce lemme

a est donc le nombre d'occurrences sûres du lemme,
alors que b est le nombre d'occurrences qui pourraient
être associées à ce lemme (en excluant évidemment celle
comptées dans a). Ces deux nombres sont exacts, dans la
limite des connaissances de Collatinus (une forme
pouvant venir d'un deuxième lemme que Collatinus ne
connaît pas ne sera pas vue comme ambiguë). Le nombre c
représente la partie de b qui vient vraissemblablement
du lemme (en principe, c ≤ b). Ce dernier nombre n'est
qu'une estimation au prorata des fréquences observées
dans le texte. Le nombre n = a+c est donc le nombre
total d'occurrences que l'on peut associer au lemme.

limites et exemples

Cette méthode ne permettra jamais de départager des
homonymes stricts comme les deux populus. Qu'il
s'agisse d'un discours politique ou d'un traité de
botanique, Collatinus attribuera toujours la moitié des
occurrences de populus au peuple et l'autre moitié au
peuplier. L'utilisateur ayant accès au sens du texte
devra rétablir les attributions.

Si un texte contient la forme "esse" mais aucune autre
forme fléchie du verbe "edo" (et, comme c'est
vraissemblable, beaucoup de formes de "sum"), le lemme
"edo" apparaîtra dans la liste mais avec un nombre
d'occurrences probables nul.

Dans l'onglet "Scansion", la fonction "Fréquences"
scande le texte et retient dans chaque ligne le schéma
métrique. J'entends par là que Collatinus ne retient
que la longueur des syllabes et oublie les mots. Quelle
que soit la voyelle, elle sera repérée par u si elle
est brève, par - si elle est longue et par -̆ si elle
est commune ou ambiguë. Pour laisser une porte ouverte
sur l'étude du rythme, on garde, dans un premier temps,
une trace de la séparation des mots (avec un espace) et
des voyelles élidées (repérées par `). Ce schéma
métrique est reporté en dessous de chaque ligne
scandée. Ces schémas, nettoyés de leurs espaces et
d'éventuels signes ` ( trace des élisions), sont alors
comptés et rangés par ordre décroissant de leur
fréquence. Les schémas n'apparaissant qu'une fois dans
le texte ne sont pas affichés dans la liste, mais
figureront quand même sous la ligne correspondante. Si
dans le texte un mot n'est pas reconnu, il sera recopié
dans le schéma métrique avec un @ (signifiant
attention !) devant. De même, si une forme peut être
scandée en mots de longueurs différentes (par exemple,
uoluit) le signe @ apparaîtra dans le schéma métrique.

Ainsi les 10 premiers schémas métriques pour "Arma
virumque cano,…" seront

21 : -uu-------uu-u
18 : ---------uu--
13 : -uu-uu-----uu-u
13 : -uu-------uu--
10 : -uu---uu---uu-u
10 : -uu---uu---uu--
7 : -----uu---uu-u
7 : -------uu-uu-u
6 : -uu-uu-----uu--
6 : ---------uu-u

Cela met bien en évidence la structure des hexamètres
avec les dactyles (-uu) et les spondées (--).
