Début d’année 2024, j’ai publié deux billets à propos de mon travail sur la Dicothèque : le premier explique le fonctionnement actuel et le second analyse quelques statistiques.

Je n’ai pas pris le temps de rédiger de nouveaux billets concernant la Dicothèque durant le reste de l’année ; pour autant, les derniers mois de 2024 (et ce mois de janvier 2025) ont été chargés !

Pour revenir sur les évolutions de la Dicothèque, sur son environnement (wikimédien et académique), sur son développement et sur ses perspectives, je vous propose ce billet-fleuve que j’ai souhaité exhaustif mais digeste.

La Dicothèque, c’est quoi déjà ?#

La Dicothèque est un site web (https://dicotheque.org) permettant de consulter plusieurs dictionnaires historiques en parallèle. Ces dictionnaires sont tous issus de Wikisource (https://fr.wikisource.org). C’est un projet lancé en 2022 par Florian Cuny (oui c’est bien moi, Poslovitch !) et Lucas Lévêque (Lyokoï), deux contributeurs aux projets Wikimedia et passionnés par les dictionnaires. Nous sommes épaulés par Noé Gasparini, notre « conseiller de l’ombre » sur tout ce qui concerne la linguistique et lexicographie.

Si vous voulez en savoir un peu plus avant de plonger dans la lecture de ce billet, je vous invite à consulter notre « À propos ».

Le lancement officiel de la Dicothèque : de la capitale de la Nouvelle-France à la capitale des Gaules#

Si les wikimédien·nes entendaient parler de la Dicothèque depuis 2023, Lucas et moi-même ne la considérions pas vraiment comme « officiellement » lancée : la faute aux itérations successives, aux prototypes aux fonctionnalités assez brutes de décoffrage… Chacun étant occupé par nos vies respectives, le développement restait et reste lent. Mais plusieurs occasions de présenter à la Dicothèque au public se sont présentées à partir de mai 2024 : tout d’abord, la Wikiconvention francophone à Québec ; mais également Concordial 2024, un colloque scientifique à l’ENS de Lyon, dont le thème (« La constitution de corpus en diachronie longue, entre tradition philologique et analyse quantitative ») offraient une occasion parfaite de tenter notre chance.

Nos deux propositions de communication ont été retenues. Le mois de novembre s’annonçait dès lors chargé, mais représentait un horizon raisonnable pour rendre la Dicothèque présentable. Un horizon parsemé de « premières fois » également.

Je reprends ici ce que j’avais noté dans un brouillon d’article compte-rendu de la Wikiconvention que je n’ai finalement pas publié :

29 octobre 2024, après six longues heures de vol, casque antibruit vissé sur les oreilles, je voyais pour la première fois de ma vie un bout de terre du continent américain. Un œil par le hublot, l’autre fixé sur la tablette du siège montrant les paramètres du vol et la position de l’avion, j’étais enthousiaste comme un gamin. La mer de nuages s’estompait par endroit sous les rayons du soleil couchant, révélant et les pics enneigés de Terre-Neuve, et l’immense estuaire du Saint-Laurent. Encore quelques heures plus tard : la descente, et l’arrière-pays canadien se dévoilait puis s’effaçait pour laisser place à Montréal, ou plutôt, comme je l’avais dit sur le moment : « à une grande ville de Cities Skylines dans la vraie vie ». Bref, pour un Européen, les autoroutes de dix voies qui traversent la banlieue de part en part et aussi visibles depuis le ciel, ça choque.

Bien installé à l’hôtel de la Wikiconvention, j’en profite pour récupérer du voyage et pour peaufiner un peu la Dicothèque. J’y ai consacré plusieurs heures, en réalité : corriger quelques bugs, améliorer (au moins un peu) le design, et m’assurer qu’elle ne me lâcherait pas pendant la démonstration (ami·es informaticien·nes, je pense que vous connaissez comme moi la malédiction de la démo…).

Un bâtiment d'une trentaine d'étages, d'architecture brutaliste et surmonté par une sorte de soucoupe de béton et de verre, se tient au milieu de la photo, au loin. Le premier plan est occupé par une pelouse vert vivace recouverte de feuilles mortes, et quelques arbres aux couleurs automnales.
Hôtel Le Concorde, lieu de la Wikiconvention, depuis les Plaines d’Abraham.
Nattes à chat, CC BY-SA 4.0, via Wikimedia Commons.

La présentation a eu lieu le vendredi 1er novembre, dans une petite salle bien conviviale, et a rassemblé une vingtaine de personnes. Des personnes connaissant la Dicothèque, bien sûr (notamment Lucas et Noé, présents pour me soutenir !) mais aussi des personnes la découvrant à l’occasion de son pré-lancement officiel. Les retours ont été encourageants dans l’ensemble, et cette Wikiconvention a été une riche et intense expérience, à l’autre bout du monde et bien au-delà de ma zone de confort.

Retour en Europe, à Nancy, le lundi 4 novembre, avec une conserve de sirop d’érable dans les bagages (bien sûr !). À peine le temps de récupérer un peu, de suivre une journée de cours le mardi avant de prendre le TGV mercredi à destination de la capitale des Gaules pour participer au colloque Concordial et faire un peu de tourisme le samedi.

Participer à un colloque scientifique était là aussi une grande première pour moi. Mais c’était, là encore et avec le recul, une expérience moins impressionnante que cela ne semblait l’être.

Ce colloque, dont vous pouvez consulter le programme, a eu lieu les 7 et 8 novembre à l’ENS de Lyon, et marque donc la date de naissance officielle de la Dicothèque. Ça a été l’occasion pour nous (Lucas et Noé ont pu y participer à mes côtés, malgré une rentrée plus tardive que moi en France) de recueillir les opinions de scientifiques habitué·es des problématiques face auxquelles nous débarquions un peu comme des ovnis avec nos gros sabots de wikimédiens. Leurs remarques très constructives et leur intérêt pour notre travail et notre démarche nous ont tous réjouis.

J’ai aussi été décontenancé par les réactions de plusieurs étudiant·es, qui assistaient au colloque dans l’auditoire, et qui sont venu·es me parler pour exprimer leur admiration face au potentiel du projet. C’était inattendu, et l’une m’a décrit la possibilité d’utiliser la Dicothèque comme outil pédagogique pour les élèves de collège qu’elle encadrait, pour leur faire découvrir et comprendre que « le » dictionnaire, comme entité universelle et immuable dans la description du français, n’existait pas.

Concordial a aussi été l’occasion de faire connaissance avec les chercheurs et chercheuses présent·es, et, pour l’étudiant en traitement automatique du langage que je suis, de découvrir plein de champs d’application de mon domaine d’études dans la recherche.

Mon déplacement à Lyon s’est conclu avec une visite au musée Lugdunum. Outre l’exposition permanente qui est passionnante à visiter, et la Mosaïque aux Poissons (que nous avons passé au moins une bonne demi-heure à explorer dans les moindres détails avec Delphine Montagne, la wikimédienne en résidence de l’URFIST de Lyon), je vous en parle en raison de l’excellente muséographie qu’a déployé le musée à la fois pour son exposition permanente et son exposition temporaire « Un Empire, des peuples ». Et si la Dicothèque, finalement, pouvait servir d’outil de médiation ?

Photographie d'une mosaïque gallo-romaine. Elle porte des motifs de coquillages, poissons, anguilles et dauphins.
Vue générale de la Mosaïque aux Poissons, au musée Lugdunum de Lyon.
DMontagne en résidence, CC BY-SA 2.5, via Wikimedia Commons.

Former à la Dicothèque pour former à Wikisource et au Wiktionnaire ?#

En décembre, Mickaël Schauli, wikimédien en résidence de l’URFIST de Strasbourg, m’a proposé de l’assister dans une formation qu’il donne aux universitaires du Grand Est à propos de Wikisource et du Wiktionnaire. Il est question de se servir de la Dicothèque comme d’un tremplin pour aborder ce qu’on peut trouver dans ces deux projets Wikimedia.

La formation a eu lieu le 10 décembre, et les slides sont disponibles sur Zenodo :

Formation de découverte de la Dicothèque : Wikisource et Wiktionnaire

Cette formation de deux heures a été suivie par une quinzaine de personnes, et, puisqu’il fallait bien que la malédiction de la démo me tombe finalement dessus, certains participants n’ont pas pu se connecter à la Dicothèque. Cela dit, cela m’a permis de corriger (j’espère) un problème de politique CSP du proxy. Fingers crossed, puisque je n’ai pas de moyens de tester ça chez moi.

J’en profite donc pour faire un message ici : si vous souhaitez consulter la Dicothèque et qu’elle ne se charge pas (notamment en restant bloqué sur « Chargement… »), ouvrez la console de votre navigateur web, screenez l’erreur qui y apparaît, et transmettez-la-moi, soit via le fédivers, ou via le mail de contact de la Dicothèque.

Début de la collaboration avec le Wiktionnaire#

La formation de Mickaël Schauli m’offre une transition idéale pour parler du Wiktionnaire. Le titre de la section pourrait d’ailleurs surprendre certains lecteurs : ne collaborons-nous pas déjà avec le Wiktionnaire ? Les Actualités du Wiktionnaire se font régulièrement l’écho des avancées de la Dicothèque, et nous sommes tous les trois (moi, Lucas et Noé) des contributeurs assidus de ce projet.

Ce que j’entends ici par « collaboration » se réfère à ce qu’on pourrait appeler une forme de formalisation des liens de la Dicothèque vers le Wiktionnaire, et inversement. Il y a désormais la page Projet:Coopération/Dicothèque sur le Wiktionnaire, qui vise à rassembler les discussions et pistes de réflexion à ce sujet.

Et grâce au travail de Danÿa, contributrice du Wiktionnaire et magicienne des gadgets, le contributorat du Wikt a désormais accès à un gadget au doux nom de « Lien Dicothèque » qui affiche dans la section « Outils » de l’interface un lien vers la Dicothèque s’il y a des résultats disponibles pour la page visitée.

En substance, cela vient poser les premières pierres pour intégrer la Dicothèque dans l’écosystème wikimédien comme outil d’aide à la contribution, au lieu de simplement réutiliser les données de Wikisource.

Les changements sur la Dicothèque d’octobre à janvier#

Dans une coquille de noix (in a nutshell, pour parler la langue de la perfide Albion), le fonctionnement de la Dicothèque n’a pas été modifié en profondeur ces derniers mois. Les modifications se sont concentrées sur des correctifs et des améliorations de l’interface.

Il faut toutefois noter que la Dicothèque s’est retrouvée amputée d’une fonctionnalité « phare » en prévision des refontes à venir : la « timeline des dictionnaires » a été désactivée car peu fonctionnelle hors de conditions matérielles très particulières (en gros : Firefox sur mon ordinateur portable sous Pop!_OS). Son retour est prévu en 2025, en même temps que l’implémentation du nouveau système de filtres et de sélection des dictionnaires.

La période étudiée (fin octobre à fin janvier) compte environ 100 commits sur le repository de la Dicothèque, et je ne vais pas passer en détails sur toutes les modifications. Je vais juste signaler quelques points saillants :

  • Ajout d’une page d’aide/à propos, et d’une page listant les nouveautés
  • Choix d’une police d’écriture élégante pour le titre du site
  • Affichage de l’état d’avancement de la relecture des dictionnaires
  • Affichage de toutes les graphies trouvées quand la recherche n’est pas en mode strict
  • Troncature des entrées quand elles sont très longues
  • Optimisation des performances sur Google Chrome
  • Correctifs de champs de formulaires non accessibles

Un dernier point notable cependant : le repository Git de la Dicothèque est désormais hébergé sur Codeberg : https://codeberg.org/Poslovitch/dicotheque.

Analyse de l’évolution des contenus#

Dans mon billet d’avril 2024 sur les statistiques de la Dicothèque, j’avais écrit ceci :

Mais si j’ai, jusqu’ici, considéré la Dicothèque uniquement comme un outil de consultation et de comparaison de dictionnaires entre eux, je n’avais jamais envisagé l’intérêt de l’aspect « statistique » de cette comparaison.

Ces statistiques ayant désormais une page dédiée sur la Dicothèque qui est automatiquement mise à jour, elles sont devenues, au moins pour Lyokoï et moi, un encouragement à la contribution à Wikisource. Voir les nombres évoluer est un carburant puissant, un élixir irrésistible. Une sorte de ludification sérendipiteuse, en quelque sorte !

Ainsi, entre avril 2024 et février 2025, l’évolution a été remarquable (à noter toutefois que les évolutions des statistiques ne sont stockées que depuis décembre) :

Date 2024-04-01 2024-12-01 2025-01-01 2025-02-01
Dictionnaires 29 42 42 41
Entrées 98576 107193 126583 131627
Graphies uniques 87076 86322 93857 95600

En moins d’un an, nous sommes passés de 29 à 41 dictionnaires (nous avons dû retirer le Thrésor de la langue françois de Jean Nicot, 1606, puisque plusieurs éditions avaient été mélangées en une seule sur Wikisource).

Mais l’évolution la plus remarquable est sans doute celle du ratio Entrées / Graphies uniques : il passe de 1,132 en avril à 1,377 en février. Ce ratio est le reflet du nombre d’entrées que l’on peut espérer obtenir lors d’une recherche si la graphie est présente dans la Dicothèque. Plus il est élevé, plus les résultats obtenus seront diversifiés pour une même graphie : ce qui est tout de même l’objectif de la Dicothèque.

On peut objectiver cette évolution autrement, en regardant le nombre de graphies présentes dans exactement N dictionnaires :

Nb dictionnaires 2024-04-01 2025-02-01
1 76986 73016
2 8930 14567
3 987 4870
4 129 1840
5 22 747
6 16 332
7 3 119
8 1 63
9 2 28
10 0 13
11 0 2
12 0 2
13 0 0
14 0 0
15 0 1
Graphique en barres reprenant les résultats du tableau.
Graphique en barres reprenant les données du tableau.

Ces deux séries de données sont, au passage, assez bien modélisées par des courbes de tendance exponentielles décroissantes.

S’il est facile d’attribuer une partie de cette évolution à l’expansion « en largeur » des données de la Dicothèque au vu de l’augmentation du nombre de dictionnaires, il ne faut pas oublier que des contributeurices de Wikisource continuent de travailler sur des dictionnaires déjà intégrés à la Dicothèque mais pas encore complètement relus, comme le Dictionnaire de Trévoux ou le Dictionnaire liégeois-français (une expansion « en profondeur »). Cette multi-dimensionnalité des évolutions de la Dicothèque suit donc ce que j’avais pu théoriser en avril 2024 :

Il y a donc une réflexion à avoir sur l’éditorialisation de la Dicothèque : acceptons-nous d’avoir un corpus qui peut évoluer non-seulement en largeur (nombre de dictionnaires) et en fidélité (validation des dictionnaires), mais également en profondeur (dictionnaires partiels progressivement complétés) ?

Analyse des statistiques de consultation#

Passons maintenant à un tout autre type de statistiques — un peu plus difficile à obtenir celui-ci, puisqu’il n’y a aucun système de traçage intégré à la Dicothèque — les statistiques de consultation ! Je m’appuie donc sur l’analyse des logs du serveur réalisés avec GoAccess.

Ces statistiques s’étalent du 23 mars 2024 au 16 janvier 2025, date à laquelle la Dicothèque a été déménagée sur un nouveau serveur plus puissant.

En moyenne sur la période, le site web de la Dicothèque a été consulté par 21 visiteurs uniques par jour (visiteur = IP unique). Cependant, cette moyenne est de 15/jour entre mars et octobre, et augmente à environ 30/jour à partir du mois de novembre.

Les différents crawlers comptent pour 37 % des visites (pour majorité Googlebot, mais on notera des visites très régulières de GPTbot), le reste (donc le trafic humain ou simili-humain) est partagé entre Chrome (27 %), Firefox (10 %), Safari (8 %).

Le site de la Dicothèque est le plus consulté entre 11h UTC et 22h UTC. Les robots, eux, préfèrent consulter la Dicothèque à 4h UTC.

Pour ce qui est de l’API de la Dicothèque, les chiffres sont peu ou prou similaires (à l’exception de la « disparition » des crawlers dans les comptes) : on peut toutefois constater que, malgré une période d’activité restreinte, le gadget Lien Dicothèque, mis en place le 14 décembre, a généré en un mois près de 22 % de toutes les requêtes à l’API de la période mai-janvier.

Les 10 graphies les plus recherchées sur la Dicothèque sont, par ordre décroissant de fréquence :

  1. boutisse (présent dans les suggestions)
  2. piscine (présent dans les suggestions)
  3. poisson
  4. retard (présent dans les suggestions)
  5. amour
  6. bassin
  7. partage
  8. pluie
  9. pomme
  10. boier

On observe globalement un effet de longue traîne dans ces statistiques des recherches : les 3 mots les plus consultés le sont beaucoup plus que les autres, mais ces autres sont bien plus nombreux en quantité.

Perspectives pour 2025#

Maintenant que nous avons regardé un peu derrière nous, il est temps de replacer notre regard sur ce qui nous attend pour cette année 2025 !

L’Agenda des Conférences#

Plusieurs membres de l’équipe se déplacent cette année pour présenter la Dicothèque :

La Grande Refonte#

Avec l’augmentation du nombre de dictionnaires dans la Dicothèque, des optimisations ont déjà été mises en place, dont les billets de mars et avril 2024 rendent compte. Cependant, la maquette initiale de la Dicothèque n’avait pas envisagé que nous dépasserions aussi rapidement la quarantaine de dictionnaires disponibles, et il est nécessaire aujourd’hui de repenser l’interface pour faciliter le tri et la sélection des dictionnaires. Les démonstrations au public, quant à elles, nous ont remonté plusieurs besoins que nous n’avions pas considérés jusqu’ici : une meilleure gestion du format mobile, la possibilité d’exporter les résultats, voire, comme cela nous a été suggéré au colloque Concordial 2024, « sémantiser » les entrées des dictionnaires, de sorte que nous puissions faire des requêtes sur leur contenu (à l’instar du Dictionnaire des Francophones, par exemple).

Enfin, mes cours en première année de master traitement automatique du langage m’ont appris que la notion de « mot » est une notion floue en sciences du langage, et qu’il est donc primordial de bien choisir le vocabulaire et de bien concevoir l’interface pour éviter toute confusion.

Tout ceci appelle une refonte de l’interface, une « Grande Refonte », où le temps n’est plus au prototypage mais à la conception d’une interface propre et claire, à la hauteur de l’objectif de valorisation des dictionnaires de Wikisource que nous nous sommes fixés à l’origine.

Je souhaite accompagner ce « pas en avant » d’une véritable évolution organisationnelle : je prévois donc de rédiger une documentation technique et un guide utilisateur complets, de mettre à disposition la spec OpenAPI de l’API de la Dicothèque, et de clarifier les objectifs de la Dicothèque — la doter d’une véritable « stratégie », en somme.

Et après ?#

Comme l’a relaté Noé dans un post sur LinkedIn à propos de la Dicothèque il y a deux semaines :

La qualité principale de [la démarche participative de la Dicothèque] est que vous pouvez participer à ce grand œuvre en relisant quelques lignes ou quelques pages d’un dictionnaire, ou en suggérant l’ajout d’une ressource qui n’est pas encore intégrée. C’est une œuvre au long cours, car chaque ouvrage est long à relire, avec des mises en page denses et pleine d’abréviations désuètes.

Ces dernières semaines, l’initiateur de la Dicothèque, Florian Cuny, s’est lancé dans la relecture du Petit dictionnaire de la langue française à l’usage des écoles primaires, de Théodore Soulice, édité en 1836. Je l’ai modestement aidé sur une quinzaine de pages, et le chantier a fini par aboutir hier et tout le dictionnaire est en ligne ! https://w.wiki/CqxP

Noé Gasparini

Ce dictionnaire de 577 pages par Théodore Soulice, qui représente aujourd’hui 27 116 entrées sur les 131 627 que compte la Dicothèque, a en effet été intégralement relu par mes soins, avec l’aide de Noé, en l’espace de trois mois.

Cela souligne que la croissance de la Dicothèque peut être rapide, et même facilitée par un élargissement du contributorat.

Plusieurs pistes s’ouvrent alors pour intéresser de nouvelles personnes à ce genre de contributions souvent répétitives et parfois rébarbatives, motivées seulement par le but quelque peu intangible d’agrandir le corpus disponible dans la Dicothèque. L’une d’elles, que je découvre dans le cadre d’un projet supervisé par des chercheurs et chercheuses pour mon master, pourrait être prometteuse : la ludification.

Que ce soit en transformant la contribution sur Wikisource en jeu, ou du moins en y apportant des éléments de ludification ; ou que ce soit en ajoutant à la Dicothèque tout un aspect de contribution ludique ; il y a là matière à pouvoir faire participer un public non-wikimédien, en améliorant la qualité de données entrant dans la composition d’un bien commun : Wikisource et la Dicothèque.

Je me sais très bon public de ce genre de choses : l’application StreetComplete m’a fait passer des heures le nez dehors, à mettre à jour les horaires de commerces de Saint-Dié-des-Vosges et de Nancy ; les incitations éditoriales, qu’a théorisées Noé à la Wikiconvention à Québec (et dont vous pouvez trouver les slides de son intervention ici), m’ont invité à plonger des heures à la découverte du vocabulaire ichthyique du lorrain roman ou de la plus ancienne forme de grec attestée (le mycénien) pour contribuer au Wiktionnaire.

Et si, pour se bonifier, la Dicothèque devait devenir un jeu ?

Crédits photos#