Les coulisses de la Dicothèque : plongée dans les statistiques et problématiques

Le 10 mars dernier, j’ai publié mon tout premier billet concernant la Dicothèque. Dans ce dernier, j’indiquais que sa nouvelle architecture technique me permettra de réaliser des statistiques sur les différents dictionnaires qui y sont disponibles.

Ces statistiques sont un outil utile pour comprendre les limites actuelles de la Dicothèque, tout en apportant des pistes pour l’améliorer, et perfectionner le traitement des dictionnaires sur Wikisource et Wikidata.

Ces dernières semaines…

Je souhaite démarrer ce billet en revenant sur les quelques évènements qui ont marqué la Dicothèque ces dernières semaines.

D’abord, il y a eu le week-end du 23 et 24 mars, une réunion de wiktionnaristes francophones passionné·es à Paris pour célébrer les 20 ans du Wiktionnaire !

Photo de groupe lors des 20 ans du Wiktionnaire à Paris (je suis dessus !), Lyokoï, CC BY-SA 4.0.

Ce week-end a été l’occasion de présenter la Dicothèque aux wiktionnaristes présent·es, et, surtout, de rendre sa nouvelle version enfin disponible en ligne.

Oui, la Dicothèque est désormais accessible sur son propre site Internet à l’adresse dicotheque.org !

Ensuite : deux gazettes wikimédiennes, les Regards sur l’actualité de la Wikimedia et les Actualités du Wiktionnaire se sont fait l’écho de mon premier billet de blog sur la Dicothèque et de l’existence de cette dernière !

Enfin, avant d’entamer l’exploration des statistiques, un seul mot s’impose : « merci ».

C’est un mot simple mais que l’on se dit trop rarement dans la communauté wikimédienne (et dans la vie de tous les jours, au passage). Donc : merci aux rédacteur·ices des gazettes wikimédiennes qui fournissent cet inlassable travail de veille ; merci aux contributeur·ices qui consacrent ou ont consacré des heures à la relecture des dictionnaires sur Wikisource aujourd’hui valorisés par la Dicothèque ; et merci à vous, qui vous intéressez de près ou de loin à ce projet.

Quelques statistiques générales et explications afférentes

Les données sont toutes fraîches : les différents scripts de la Dicothèque ont digéré les tous derniers dumps de la Wikisource en français, rendus disponibles le 3 avril.

Commençons par le plus évident : la Dicothèque agrège 29 dictionnaires, sur une période allant de 1606 (avec le Thresor de la langue françoise de Jean Nicot) à 1926 (avec le Dictionnaire pratique et historique de la musique de Marie Bobillier sous le nom de plume Michel Brenet), soit une amplitude de 320 ans.

Sur la totalité de ces dictionnaires, la Dicothèque a extrait 98 576 entrées.

Pour rappel, une « entrée » est une association graphie et dictionnaire menant à une page. Par exemple, ces deux éléments sont des entrées :

(Cet exemple n’est pas choisi au hasard : je vous invite à rechercher le mot « piscine » dans la Dicothèque, les résultats ne sont probablement pas ce à quoi vous vous attendriez.)

Des dictionnaires de tailles variées, ou à l’état de complétude variable ?

Explorons un peu plus en détail ces différentes entrées, en commençant par observer combien chaque dictionnaire en contient.

Qid Wikidata Titre Nombre d’entrées
Q24230258 Encyclopédie, ou dictionnaire raisonné des sciences, des arts et des métiers 46299
Q54099419 Dictionnaire de Trévoux 21091
Q105176431 Le Littré de la Grand'Côte 4202
Q20961706 Dictionnaire infernal 3804
Q117206256 Thresor de la langue françoise 3335
Q19151100 Cours complet d'agriculture théorique, pratique, économique, et de médecine rurale et vétérinaire 3227
Q20617358 Dictionnaire walon-françois, ou Recueil de mots et de proverbes françois extraits des meilleurs dictionnaires 2581
Q117168334 Dictionnaire pratique et historique de la musique 2394
Q42122780 Dictionnaire administratif et historique des rues de Paris et de ses monuments 2061
Q106167910 Dictionnaire des patois romans de la Moselle 1861
Q19164492 Dictionnaire érotique moderne 1724
Q120720219 Dictionnaire liégeois-français 1378
Q60379293 Dictionnaire étymologique, historique et anecdotique des proverbes et des locutions proverbiales de la langue française 929
Q15641561 Dictionnaire raisonné de l’architecture française du XIe au XVIe siècle 535
Q19164883 Dictionnaire portatif de cuisine, d'office, et de distillation 501
Q117206147 Dictionnaire d’architecture civile et hydraulique 441
Q121502026 Supplément au Dictionnaire argotique 369
Q19164385 Dictionnaire de l’argot des typographes 314
Q84768893 Dictionnaire de l’administration française 285
Q19164501 Dictionnaire français illustré 248
Q118744882 Petit dictionnaire d'argot parisien 223
Q117275279 Dictionnaire des Arts et des Sciences 213
Q118779837 Petit Dictionnaire libéral 198
Q19164851 Dictionnaire national et anecdotique 175
Q19164846 Dictionnaire mythologique universel ou biographie mythique 58
Q118424016 Petit dictionnaire des accidents 57
Q19164898 Dictionnaire raisonné du mobilier français 29
Q19216625 Lexique étymologique du breton moderne 27
Q117197922 Dictionnaire portatif de peinture, sculpture et gravure 17

L’Encyclopédie de Diderot et d’Alembert (première édition), ainsi que le Dictionnaire de Trévoux (sixième édition), trônent en véritables mastodontes par rapport aux autres dictionnaires de la liste : ils représentent à eux deux plus des deux tiers (≈ 68 %) des entrées que compte la Dicothèque.

Mais en allant consulter l’état d’avancement de chacun sur Wikisource, on constate que si la 1ʳᵉ édition de l’Encyclopédie est achevée, ce n’est pas le cas pour la 6ᵉ édition du Trévoux pour laquelle il manque encore les tomes 4 à 8…

Malgré cela, le nombre d’entrées n’est pas un indicateur fiable de l’état de complétude d’un dictionnaire sur Wikisource : le Petit dictionnaire des accidents (1879) — dont je vous recommande la lecture — porte bien son nom : il s’agit d’un petit dictionnaire, qui, du haut de ses 57 entrées, est tout de même bel est bien complet et validé sur Wikisource.

C’est là une limite et une force du travail bénévole : le contributorat (et je m’inclus dedans !) a tendance à « butiner ». Alors que j’ai commencé le travail sur le Dictionnaire des patois romans de la Moselle de Zéliqzon en mars 2021, seules 1861 entrées sont disponibles là où ce dictionnaire en contient (au doigt mouillé) 20 000. En revanche, j’ai à plusieurs reprises travaillé sur des petits dictionnaires, dont le Petit dictionnaire des accidents, qui agissent comme des pauses, histoire de changer un peu d’air…

Cela soulève la question : comment indiquer l’état d’avancement des dictionnaires ? et, en amont de celle-ci : faut-il accepter uniquement les dictionnaires « terminés » dans la Dicothèque ?

Avec la situation actuelle, il y a trois moyens d’améliorer les données :

  1. Ajouter un nouveau dictionnaire ;
  2. Compléter un dictionnaire déjà listé (tel que le Trévoux) ;
  3. Procéder à la validation d’un dictionnaire déjà listé (dans le jargon wikisourcien, « valider » signifie « relire les pages déclarées conformes au fac-similé pour en assurer l’exacte conformité »).

Selon la taille du dictionnaire, ces trois types de contributions peuvent représenter une montagne de travail, seul·e comme à plusieurs ! Les dictionnaires qu’on pourrait considérer comme les plus valeureux sont édités en plusieurs volumes, imprimés en petits caractères sur plusieurs colonnes…

Il y a donc une réflexion à avoir sur l’éditorialisation de la Dicothèque : acceptons-nous d’avoir un corpus qui peut évoluer non-seulement en largeur (nombre de dictionnaires) et en fidélité (validation des dictionnaires), mais également en profondeur (dictionnaires partiels progressivement complétés) ?

Un problème de « ou »

98 576 entrées !

Le chiffre est énorme ; surprenant même, si l’on rappelle que la Dicothèque s’appuie uniquement sur des données placées en licence libre et créées, mises à jour et validées par des bénévoles.

Ayant moi-même consacré de longues heures à relire et recopier soigneusement des centaines de pages de dictionnaires ; et étant également la personne qui a conçu l’algorithme qui se charge de l’extraction desdites données, je sais pourtant qu’il y a un grain de sable qui fausse ce résultat.

Laissez-moi vous présenter, avec les approximations d’un informaticien qui n’a que peu de connaissances de l’art de la lexicographie et de la dictionnairique : les « entrées multiples » !

Les dictionnaires papier ont un problème : le papier, ça coûte cher. Donc on cherche à l’économiser le plus possible, et pour ça, on vient regrouper plusieurs mots similaires. Et on se retrouve alors avec des entrées telles que « ABLE, ABLET ou ABLETTE », « ACHÉES, LAICHES ou VERS DE TERRE », « ALPHITOMANCE ou ALPHITOMANTIE »…

Or, si vous activez le mode « recherche stricte » de la Dicothèque et que vous recherchez « ablette », l’entrée « ABLE, ABLET ou ABLETTE » ne vous sera pas montrée, car elle ne correspond pas exactement à ce que vous cherchez (la recherche n’est cependant pas sensible à la casse). Alors que, pour un humain, c’est assez évident que c’est pourtant bien le cas !

En tout, des entrées qui contiennent un « ou » et sont donc potentiellement problématiques, il y en a 2 875 (soit ≈ 2 % du total, ce qui n’est donc pas négligeable).

Couper le nom de l’entrée s’il y a un « ou », vous dites ?

Ingénieuse idée (ce n’est pas du sarcasme) ! Mais vous êtes tombé·es tout droit dans un piège : considérez donc les entrées suivantes, qui m’ont fait faire machine arrière :

Et certains dictionnaires ont eu la même indélicatesse avec l’emploi des virgules (p. ex. : « GUEULE, fleur en »)… Un sacré casse-tête !

Mais qui, une fois corrigé, ferait augmenter significativement la quantité d’entrées disponibles dans la Dicothèque : c’est déjà le cas de 2 359 entrées, qui utilisent, elles, la combinaison de la virgule et du « ou » (p. ex. : « A, ou B »), et pour lesquelles je n’ai pas remarqué de résultats étranges après découpage.

Un problème de pages « méta »

Certains de mes amis, dont mon cher Lyokoï — à l’origine de ce pharaonique projet, et passionné de dictionnaires (allez donc voir ses lives Wiktionnaire sur sa chaîne YouTube !) —, font preuve, de mon point de vue, d’une étrange attirance non pas pour le contenu du dictionnaire en lui-même, mais pour les pages « méta » qui l’entourent : préfaces et autres annexes qui expliquent les choix réalisés pour ce dictionnaire, son histoire…

Pourquoi j’en parle ?

Regardez donc ce tableau qui présente les 25 entrées présentes dans le plus grand nombre de dictionnaires de la Dicothèque :

Graphie Nombre de dictionnaires la comprenant
Préface 9
B 9
D 8
O 7
H 7
A 7
Z 6
V 6
Tome 1 6
T 6
S 6
R 6
P 6
N 6
M 6
I 6
G 6
F 6
E 6
C 6
Bassin 6
Barbe 6
W 5
Vache 5
Tome 2 5

Là encore, si vous n’avez pas beaucoup d’expérience avec les dictionnaires, et en particulier sur Wikisource, vous n’avez peut-être pas l’intuition de ce qui est problématique.

« Tome 1 » et « Tome 2 » vous paraissent-ils être des mots qu’un dictionnaire définirait ? Que cinq dictionnaires ou plus sur 29 définiraient ?

En enquêtant davantage, j’ai aussi remarqué que les « Préface » sont rarement une définition de ce que sont des préfaces, mais plutôt les préfaces des dictionnaires eux-mêmes. Et pour les lettres de l’alphabet, là encore, peu de description, et beaucoup de pages qui regroupent toutes les entrées commençant par les lettres concernées…

Cette indifférenciation entre les entrées du dictionnaire et ses pages « méta » perd complètement mon algorithme d’import, dont l’objectif est la rapidité et l’efficacité (ne pas devoir télécharger des gigaoctets de données, faire des milliers de requêtes ou prendre des heures à s’exécuter…). Et elle pose problème également sur Wikisource, où certains dictionnaires, comme le Dictionnaire des patois romans de la Moselle, proposent une barre de recherche qui, elle aussi, ne sait pas faire la différence entre les entrées véritables et les pages « méta » (essayez : « Système de transcription »)…

Il y a donc une réflexion à avoir, directement sur Wikisource, pour corriger ce problème à la source.

Un problème de casse

Si, à la vue du tableau de la section précédente, vous avez essayé le mot « Bassin » dans la Dicothèque en mode « recherche stricte », vous aurez remarqué que vous n’obtenez pas 6 résultats, mais 10 !

Graphie Nombre de dictionnaires la comprenant
Bassin 6
BASSIN 3
bassin 1

L’explication est simple : le « sectionnement » des dictionnaires a été réalisé avec une casse différente, et l’algorithme d’import des données de la Dicothèque y est sensible, mais pas celui qui se charge de la recherche.

Le sectionnement des dictionnaires, qui fait référence au découpage, sur Wikisource, d’une page physique d’un dictionnaire en chacune des entrées individuelles qui la composent, s’est longtemps réalisé sans standardisation particulière, notamment en ce qui concerne la casse ; il y a donc là encore une réflexion à avoir sur Wikisource, mais il y a aussi des adaptations techniques à intégrer à la Dicothèque elle-même.

La Dicothèque comme outil de consultation… et de comparaison statistique !

J’ai envie de conclure ce billet avec une note un peu plus positive : malgré ses défauts et imperfections, la Dicothèque reste un outil puissant, (presque) unique en son genre, et qui promet de valoriser comme jamais auparavant l’implication acharnée de dizaines de contributeur·ices bénévoles !

Mais si j’ai, jusqu’ici, considéré la Dicothèque uniquement comme un outil de consultation et de comparaison de dictionnaires entre eux, je n’avais jamais envisagé l’intérêt de l’aspect « statistique » de cette comparaison. Or, pendant le week-end d’anniversaire du Wiktionnaire, et dans les jours qui ont suivi, j’ai exploré les données que j’avais désormais à ma disposition. Et avant de consacrer quelques heures à la réalisation d’une page qui vous permettrait vous aussi de faire joujou avec les statistiques, je me garde la primeur de ces dernières pour ce billet de blog.

Bien sûr, ces statistiques souffrent de tous les problèmes que j’ai exposés dans les sections précédentes. Il faut donc les considérer avec précaution. C’est notamment pour cela que je ne vais pas faire d’analyse très poussée — ce n’est, de toute façon, pas ce que j’aime faire le plus : émerveillons-nous plutôt face à ce que ces nombres semblent nous indiquer, et rêvons du jour où les données seront assez solides pour pouvoir faire des « vraies » statistiques !

Commençons avec deux nombres :

Poursuivons avec un tableau montrant la répartition des graphies dans les différents dictionnaires :

N Nombre de graphies présentes dans exactement N dictionnaires Pourcentage / total
1 76986 88,412 %
2 8930 10,255 %
3 987 1,133 %
4 129 0,148 %
5 22 0,025 %
6 16 0,018 %
7 3 0,003 %
8 1 0,001 %
9 2 0,002 %

Au regard des tableaux donnés dans les sections précédentes, il est évident que les résultats pour les N ≥ 5 sont peu pertinents. En revanche, la moyenne et la médiane (clairement visible dans le tableau : N = 1), indiquent un faible recouvrement des dictionnaires entre-eux.

Ainsi, en mode « recherche stricte », vous avez vraisemblablement peu de chance de tomber sur un mot qui vous donnera au moins 2 résultats (un peu plus d’une chance sur dix !).

Sur un tout autre aspect des dictionnaires, on m’a souvent dit que les mots commençant par la lettre « A » sont ceux décrits par le plus de dictionnaires de français. Pourquoi ? Parce que les auteurs et éditeurs commencent par cette lettre, puis, par faillite ou tout autre évènement malheureux, la suite du dictionnaire ne paraît jamais ! Étant wikisourcien dans l’âme, je ne peux que faire le rapprochement : un point de départ logique pour le travail de transcription sur un dictionnaire, c’est la lettre A !

Y a-t-il donc un « double biais » envers la lettre A dans la Dicothèque ?

Lettre Nombre de graphies commençant par cette lettre Pourcentage / total
A 11206 12,869 %
B 9464 10,869 %
C 12994 14,923 %
D 4447 5,107 %
E 2707 3,109 %
F 2368 2,719 %
G 2334 2,680 %
H 2636 3,027 %
I 1501 1,724 %
J 871 1,000 %
K 629 0,722 %
L 2557 2,937 %
M 4615 5,300 %
N 1346 1,546 %
O 1531 1,758 %
P 6426 7,380 %
Q 517 0,594 %
R 3592 4,125 %
S 5956 6,840 %
T 4718 5,418 %
U 315 0,362 %
V 2180 2,504 %
W 641 0,736 %
X 193 0,222 %
Y 129 0,148 %
Z 496 0,570 %

Au premier coup d’œil, il semblerait que non : les trois premières lettres de l’alphabet comptent chacune parmi les plus représentées.

Conclusion

Voilà qui conclut ce long billet de blog, que je suis particulièrement heureux de rendre disponible et de vous partager.

Je vous rappelle que la Dicothèque est désormais disponible au grand public sur dicotheque.org. Il y a des bugs, oui, et je travaille dessus. Il y a du potentiel, absolument ! Essayez les mots qui sont suggérés sur l’interface, ou un autre : « chaton », par exemple.

Si vous trouvez des résultats drôles, amusants ou étonnants, utilisez le hashtag #Dicothèque sur le Fédiverse, et je créerai peut-être une « liste des mots à tester » qui tournera au lieu d’afficher toujours les trois même.

Si vous voulez discuter de la Dicothèque, vous pouvez discuter avec moi sur la page de discussion dédiée sur Wikisource, ou directement sur le Fédiverse : @Poslovitch@wikis.world !

Et puis encore un grand merci à tous les wikisourciens, les wikisourciennes, les wikidatiens et wikidatiennes qui, en travaillant sur les dictionnaires, amélioreront directement la Dicothèque pour tout le monde !


Ce billet est rendu disponible sous licence CC BY-SA 4.0. Vous pouvez soutenir financièrement mon travail avec LiberaPay. Abonnez-vous à ce blog sur le Fédivers avec le handle @Poslovitch@blog.poslovitch.fr. Flux RSS : blog.poslovitch.fr/feed/. Jetez un œil à cette liste de blogs francophones qui valent la peine d'être découverts.