La planète Web est-elle ronde ?

Un groupe de chercheurs d’Alta Vista, IBM et Compaq viennent de dresser une carte duWeb, représentant la qualité et la quantité des connexions hypertextes à l’intérieur du réseau. Les applications de ces recherches concernent les modes de référencement utilisés par les moteurs de recherche, ainsi que la mise au point d’agents intelligents pour le commerce électronique.

En septembre dernier, trois chercheurs américains de l’université Notre-Dame (Indiana) publiaient dans la revue Nature une étude scientifique accréditant l’idée d’un réseau tellement dense que 19 clics en moyenne suffiraient à relier deux documents pris au hasard sur la Toile. « Alors que l’auteur d’une page a toute liberté pour choisir le nombre de liens et d’adresses pointant vers d’autres sites, expliquaient-ils, l’ensemble du système obéit à des lois d’échelles caractéristiques d’ensembles hautement auto-organisés ». Selon eux, même si le nombre de sites Web étaient à l’avenir multiplié par dix, comme c’est actuellement prévu, le « diamètre » du Net resterait raisonnable, de l’ordre de 21 clics. Autrement dit, malgré ses apparences de réseau inextricable, condamné à une croissance exponentielle et anarchique, la toile tentaculaire ne serait en fait « qu’un tout petit monde ».

Noeud papillon effiloché

Cette vision vient d’être remise en cause par une étude menée par un groupe de chercheurs d’Alta Vista, IBM et Compaq, qui privilégient un autre modèle. D’après eux, la carte du Web ressemblerait à une sorte de noeud papillon effiloché, composé de 4 parties distinctes. Il existerait d’abord un noeud hyperconnecté, sorte de centre ville du net, qui regrouperait environ le tiers des sites Web. La distance moyenne entre deux pages situées à l’intérieur de ce cœur est évaluée à 16 clics, c’est-à-dire moins que la valeur annoncée l’an dernier par les chercheurs de l’université de l’Indiana. Une première boucle, que les chercheurs décrivent comme l’aile gauche du papillon, est composée de pages ou sites d’entrée qui mènent vers le noeud, mais auxquelles on n’a pas, ou peu, accès à partir du cœur du réseau. Une seconde boucle, l’aile droite du papillon, rassemble les sites de sortie, auxquels on peut accéder à partir du cœur, mais sans retour possible. Ces deux boucles (entrées et terminaisons) représenteraient environ 50% du contenu disponible sur le Web. Reste enfin une multitude de « filaments » épars, qui décrivent les sites déconnectés du noeud et représentent environ 20% du Web. Accessibles uniquement à partir des ailes du papillon, ces filaments forment parfois des micro-univers totalement déconnectés du reste de la Toile.

A priori, cette cartographie du Net est beaucoup plus fiable que celle imaginée l’an dernier par les chercheurs de Notre-Dame, dans la mesure où elle se fonde sur une analyse du Web en grandeur réelle, et non sur une simple simulation à partir d’un site universitaire doté de plusieurs centaines de milliers de pages. Les chercheurs de Compaq, Alta Vista et IBM contestent d’ailleurs l’idée même d’un « diamètre » du Net. « Quand on regarde l’ensemble des paires de documents prises au hasard, on s’aperçoit que pour les trois quarts d’entre elles, la distance est infinie, expliquent-ils. Tout simplement parce qu’il n’existe, dans ce cas, aucun chemin permettant de passer d’un document à l’autre ».

Vers une meilleure indexation des sites

Ces recherches ne relèvent pas de la pure abstraction mathématique. Elles ouvrent de nouvelles perspectives, notamment pour l’indexation des sites Web. On se souvient qu’en juillet dernier, une étude du NEC Research Institute indiquait que collectivement, les moteurs de recherche ne répertorient que 42% du contenu disponible sur le Web. Des progrès sensibles pourraient être obtenus en tenant compte de cette nouvelle cartographie de la Toile. Pour l’instant, les robots chargés d’élaborer les index s’appuient sur une « graine », une liste de quelques centaines de documents, servant de point de départ à toute exploration. Certains spéculaient même sur la possibilité de parcourir l’ensemble de la Toile, à partir d’une poignée de liens, voire d’un seul. On sait désormais qu’une telle exhaustivité est impossible et que des méthodes plus sophistiquées de collecte de pages devront être mises au point, en particulier pour toucher l’aile d’entrée du papillon et les filaments. Faute de tels outils, la proportion de documents visités par les moteurs de recherche risque de diminuer, provoquant une sur-représentation des premiers sites créés.

Edité en septembre 1999