Avec un nom pareil, on pense à un dinosaure disparu depuis longtemps. Et effectivement, le Thésaurus est un dinosaure de l’informatique. Et pourtant, son influence dans nos algorithmes modernes est immense. Ce survivant de la préhistoire informatique permet de consolider la quantité astronomique d’informations disponibles aujourd’hui sur les réseaux. Et pourtant, il est totalement inconnu du grand public.
Souvent confondu avec son lointain cousin le dictionnaire, le thésaurus a été domestiqué par l’homme pour réaliser des tâches simples et répétitives. Il permet d’indexer un texte et ainsi de le parcourir plus vite ou de le rapprocher à d’autres textes. Il permet aussi de rapprocher des termes entre eux et facilite la recherche dans des bibliothèques de documents. Il classifie les documents suivant les termes présents. Le thésaurus est l’ancêtre de Google.
À sa glorieuse époque, il était l’ouvrage le plus consulté. Compréhensible uniquement par les bibliothécaires et les chercheurs, il permettait de retrouver les textes attendus dans les plus grandes bibliothèques. Le thésaurus était ce livre qui listait les termes d’autres livres : une suite de mots et de chiffres dont les références renvoyaient vers plusieurs ouvrages dans les rayons de l’édifice.
Vous ne le savez pas mais le thésaurus a aussi été présent pour vous. L’index situé à la fin des livres de cours que vous manipuliez au collège et au lycée est une version simplifiée d’un thésaurus. Dans les livres de langues étrangères, il donne la traduction d’un mot et renvoie vers un numéro de page où le terme est employé. Souvenez-vous de ces listes à la fin du livre et triées par ordre alphabétiques, l’index.
Informatique oblige, sa version moderne a rendu ses services accessibles au plus grand nombre. Tel un dieu oublié, son nom a disparu de la mémoire des gens alors que ses bienfaits se répandaient sur l’humanité. Les ordinateurs l’ont décortiqué et automatisé.
L’algorithme de calcul du thésaurus d’un document est simple. Il liste les mots et leurs occurrences dans un texte. Un texte est donc résumé à une occurrence de termes. On écarte ensuite de cette liste les termes ‘génériques’ : les articles, les conjonctions, … Un texte est ainsi résumé en une liste de termes et le nombre d’apparition de ces termes. Plus un terme est répété et plus il représente le sujet du document.
En parallèle, les termes employés ont été catégorisés et hiérarchisés. Un chien est un canidé. Un canidé est un mammifère. Il existe de nombreuses relations entre les mots d’une langue. La hiérarchie est un de ces liens. La synonymie aussi. Je vous renvoie vers l’article de Wikipedia pour découvrir les différents types de relation. Un thésaurus va se baser sur un ou plusieurs types de relation.
Le thésaurus est désormais une simple application. Il a une entrée : une interface avec un champ de saisie et un bouton ‘Rechercher’. Un traitement : une recherche sur les mots clés saisis en entrée dans une base. La recherche peut s’effectuer suivant différents types de relation. Une sortie : une interface qui liste les ouvrages liés à la recherche. En parallèle, un autre traitement en arrière plan enregistre les documents nouvellement soumis..
Quelque soit le domaine, des thésaurus sont construits numériquement. Vous connaissez Google, le plus célèbre. Je trouve qu’il n’a pas le charme de ces immenses listes de chiffres et de lettres, mais il est bien plus efficace.
Tel un arbre généalogique, le Thésaurus primaire à offert à l’informatique son organisation et les branches les plus hautes sont nos outils actuels pour naviguer sur Internet. Il est l’origine de toutes nos recherches sur le Web car en simplifiant et normalisant les innombrables ressources documentaires d’Internet, il permet de répondre rapidement et automatiquement à toutes nos question. Le dinosaure se porte bien.