Pubblicato su Le Monde Interactif mercoledì 6 marzo 2002
Les laboratoires en informatique et les éditeurs de logiciels travaillent pour conférer aux outils de recherche d’information sur la Toile l’aptitude à comprendre le langage naturel. A la clé, une simplification de l’utilisation et une amélioration des résultats obtenus.
“Qui fut le premier président des Etats-Unis ?” Formulée en ces termes, une requête lancée sur le réseau via un moteur de recherche classique, fût-il très performant, n’a que peu de chances d’aboutir. Interrogé de cette manière, Google, actuellement le plus populaire des outils de recherche sur la Toile, renvoie l’intégralité des documents contenant tous les termes de la question. L’internaute doit ainsi dénicher la réponse à sa question parmi les milliers de documents jugés pertinents.
Rapprocher le fonctionnement des moteurs de recherche du langage naturel est le nouvel horizon pour les laboratoires en informatique et les éditeurs de logiciels. Il ne s’agit plus seulement d’ajouter de nouveaux types de documents à des index de plus en plus importants. L’enjeu est maintenant de donner de l’intelligence aux résultats de recherche sur le Net.
Les chercheurs les plus en pointe dans ce domaine se retrouvent chaque année dans une compétition mondiale, la Text Retrieval Conference (TREC, http ://trec.nist.gov/), organisée par le National Institute of Standards and Technology américain, où le meilleur se distingue par sa capacité à répondre à des questions simples (quelle est la taille de l’Empire State Building ?) formulées en langage naturel. Un concours auquel participent notamment les chercheurs d’IBM, de Microsoft ou de Sun Microsystems. Donner des capacités d’analyse sémantique aux moteurs de recherche est plus délicat qu’il n’y paraît. Dans le cadre du concours de la TREC, par exemple, une masse importante de documents – l’équivalent d’environ 3 000 romans de 200 pages – est fournie aux candidats. Les algorithmes engagés dans l’épreuve doivent y débusquer les réponses à la centaine de questions posées. A chaque interrogation, le modus operandi est identique. “La première étape consiste à effectuer une recherche classique sur les mots contenus dans la question, ainsi que sur leurs synonymes, explique Brigitte Grau, chercheur au Laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur (Limsi). On récupère ainsi une première sélection de documents susceptibles de contenir la réponse.”
En analysant le vocabulaire et la syntaxe de la requête, l’algorithme doit être, en outre, en mesure de savoir ce qu’il recherche. “Si la question est par exemple : quelle est la taille de la tour Eiffel, l’algorithme va sélectionner les documents contenant “tour”, “Eiffel” et un nombre associé à une unité de longueur”, illustre Mme Grau, dont le laboratoire participe chaque année à la TREC. Le système identifie ensuite les phrases dont la forme laisse supposer qu’elles peuvent contenir l’information recherchée. Car la difficulté de l’exercice repose également sur le fait que l’outil doit pouvoir s’avouer vaincu lorsque la réponse à la question posée n’existe pas. La prochaine étape de développement, selon Mme Grau, sera de concevoir des systèmes capables de raisonner, c’est-à-dire de combiner des éléments de documents différents pour construire une réponse pertinente.
L’application à Internet des outils de recherche à base d’analyse sémantique reste, aujourd’hui, peu envisageable. Trop gourmande en puissance de calcul, la phase d’analyse de la base documentaire ne peut être opérée sur une bibliothèque aussi vaste qu’Internet. Et les outils de recherche comprenant des modules d’analyse sémantique, comme AnswerChase ou DigOut, impliquent pour l’heure l’emploi de logiciels installés sur l’ordinateur personnel de l’internaute (lire ci-dessous). AskJeeves.com (anglophone) et InfoClic.fr (francophone) contournent toutefois cet écueil.
Ces deux moteurs de recherche, dont l’interface est semblable à celle d’Altavista ou de Google, ébauchent de nouvelles formes de recherche sur le Web. Les questions, ici, ne s’effectuent pas par mots-clés, mais via le décryptage du sens général d’une question formulée dans la langue courante et sa comparaison avec des requêtes prédéfinies. Lancé voilà un an, InfoClic s’appuie sur un dictionnaire développé par la société Sinequa, auquel 800 concepts viennent donner sens. “L’idée est de représenter le sens d’un texte par un point dans un espace mathématique”, explique Philippe Laval, PDG de Sinequa. De même que la position d’un point dans l’espace physique peut être décrite par trois coordonnées, la position d’un mot dans cet espace sémantique est défini par 800 coordonnées selon qu’il a ou non un sens dans les 800 concepts prédéfinis. “Par exemple, le mot “avocat” est associé à deux concepts : droit et agriculture”, illustre Philippe Laval. Ce double sens confère au mot “avocat” une signature mathématique particulière. Toute succession de mots peut ainsi être traduite en un objet mathématique complexe dont la forme est porteuse de sens.
Après avoir été ainsi transcrite, une question formulée sur InfoClic peut être comparée à des requêtes-type préalablement définies. “Nous avons construit une base de données d’environ un million de questions-réponses, explique Frédéric Plais, PDG d’InfoClic. La requête de l’internaute est analysée puis comparée à celles qui sont dans nos bases de données. Au final, nous donnons le choix à l’internaute entre les questions les plus proches de celle qui a été posée.” Chaque question proposée est liée à une page censée en contenir la réponse. Un lien à chaque fois préétabli, comme l’explique Frédéric Plais, de façon presque manuelle, “par une équipe de documentalistes ” et uniquement vers des “sites partenaires”. La recherche ne s’effectue donc pas sur la totalité d’Internet mais sur une restriction de celui-ci, choisie sur des critères commerciaux.
Face à la croissance constante du nombre de documents accessibles en ligne et devant l’arrivée massive d’internautes néophytes, peu rompus aux techniques de recherche par mots-clés, faire le pari de la pertinence des réponses au détriment de l’exhaustivité est tentant. Cela conduit les moteurs de recherche classiques à ordonner la Toile en sous-catégories pour restreindre les recherches à des pans bien précis du Web.
Un avenir comparable se dessine pour les outils de recherche capables d’analyse sémantique. Ceux-ci sont de plus en plus prisés par des sites pour exploiter des bases de données documentaires limitées. Ainsi, la chambre de commerce et d’industrie de Marseille devait doté courant février son site d’un moteur de recherche “intelligent”, développé par la société Semantia.
Stéphane Foucart
Pubblicato su mercoledì 6 marzo 2002