Pour mieux comprendre le fonctionnement d'un index de moteur de recherche nous proposons un peu d'histoire 1.
Travailler sur les textes : du manuel à l’automatisé
Quelques exemples historiques
- La concordance de Shakespeare
En 1828 la femme d’un éditeur et spécialiste de Shakespeare, Mary Novello, s’embarque dans une tâche monumentale : produire une concordance de l’œuvre écrite de Shakespeare.
Elle va mettre 12 ans pour extraire et ordonner les données et encore 4 ans pour faire les vérifications avec différentes éditions et la préparation pour l’impression.
La concordance comportait 310 000 entrées. Elle était la première concordance faite d’une œuvre littéraire de la littérature séculière en anglais.
Comment ça fonctionnait ?
Chaque mot était rangé par ordre alphabétique accompagné par l’indication de la pièce (de théâtre), de la scène et du n° de la ligne dans lesquels le mot apparaissait.
“to furnish a faithful guide to this rich mine of intellectual treasure... has been the ambition of a life; and it is hoped that the sixteen years’ assiduous labour... may be found to have accomplished that ambition.”
Comment était-ce utilisé ?
Une économie de temps pour ceux qui :
- recherchaient une citation exacte ;
- produisaient des études sur des thèmes choisis ;
- faisaient des études systématiques de l’écriture de Shakespeare.
Aujourd'hui on trouve une concordance de Shakespeare sur Internet : http://www.opensourceshakespeare.org/concordance/.
- Les autres textes dont il a été produit une concordance manuelle à cette époque était la bible (voir un exemple sur Internet à cette adresse : http://www.lueur.org/bible/bible_rechercher.php.
- L’entrée en scène de la technologie, mais avant ça des techniques (des cartes de petit format (7x12cm), des ciseaux, de la colle et des cachets), permettra à une équipe de 67 personnes de produire une concordance des poèmes de William Wordsworth en 7 mois, proposant 211 000 mots signifiants.
La signification du mot concordance : unité (originaire des concordances bibliques cherchant à démontrer l’unité entre l’ancien et le nouveau testament). Dans Wikipédia on peut lire que "Dans son sens philologique, une concordance donne pour chaque mot (souvent présenté dans l'ordre alphabétique) l'ensemble des passages d'un texte (ou d'un ensemble de textes) le contenant." (http://fr.wikipedia.org/wiki/Concordance_(livre))
Aujourd'hui avec un PC la concordance d'une oeuvre peut être créée en quelque minutes à partir de la version électronique du document.
Une concordance s'apparente aujourd'hui à ce qui est appelée un "index en texte intégral" ou en "plein texte" (full-text index).
Quelles recherches peut-on faire concernant un texte pour lequel on dispose d’un index en
texte intégral ?
- examiner tous les contextes dans lesquels un mot apparaît ;
- chercher une partie de texte contenant une série de mots ;
- chercher des phrases ;
- préciser quels mots doivent être inclus et lesquels doivent exclus de la recherche ;
- préciser à quelle distance les mots doivent se trouver l'un de l'autre ;
- limiter la recherche à une oeuvre ou un site en particulier ;
- contrôler l'ordre de présentation des résultats de la recherche : par auteur, par date, par pertinence.
Voir aussi la l'entrée "indexation" par exemple ici : indexation sur le Wiki de l'Université Paris Descartes.
Haut de page
1. Voir à ce sujet le livre : Witten, I. H., Gori, M. & Numerico, T. (2006). Web Dragons. Inside the Myths of Search Engine Technology. San Francisco : Morgan Kaufmann.
Module suivant : Comment faire ?
Haut de page