L'espace web du sénégal : étude de son degré d'ouverture ´ travers l'analyse des liens hypertextes

( Télécharger le fichier original )
par El Hadji Malick GUEYE
Université Paris 10 Nanterre - Master de Recherche 2005

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

II.3. Place des moteurs de recherche dans les études wébométriques

Si dans les études bibliométriques les banques de données bibliographiques (ex. ISI Thomson) et autres bases dédiées à la compilation des écrits scientifiques fournissent les corpus et les échantillons de traitement, en wébométrie c'est les moteurs de recherche qui jouent, à quelques différences prés, ce rôle. Mais qu'est-ce qu'un moteur de recherche ?

Un moteur de recherche est un programme qui indexe automatiquement les pages Web. En suivant les hyperliens, il repère et collecte les pages, extrait tous les mots (sauf les mots vides) contenus dans ces pages et en fait une base de données. Il lie ainsi, à travers un système d'appariement, cette base de données ainsi constituée et les utilisateurs. Mais répondent-ils vraiment aux attentes des wébomètres ?

II.3.1 Utilisation et limites des moteurs

Les modes de recherches avancées des moteurs permettent aux wébomètres des opérations booléennes plus complexes, donc des recherches plus ciblées. Citons par exemple les opérations : link, domain, site, host, title, ... L'utilisation des moteurs de recherche de première génération comme Alta Vista, Nothern Light, HotBot en wébométrie ont montré très vite les limites de ces outils.

Et même si les algorithmes de ces moteurs sont devenus de plus en plus développés, comme abordé plus haut, leur couverture du Web est très limitée (Lawrence et Giles, 1998). D'autres problèmes concernent le flou qui règne dans la fréquence des mises à jour, des règles d'indexation, des algorithmes de classement. Sur ce dernier point, notons l'innovation du moteur Google, (Brin & Page, 1998), avec son algorithme Page Rank qui prend en compte la dimension structurelle du Web et classe ainsi les pages en fonction du nombre de liens qui pointent vers elles. Ce qui n'est rien d'autre que l'application du facteur d'influence adapté au graphe du Web (voir page 41).

Par ailleur, Rostaing dénote d'autres faiblesses et erreurs des moteurs de recherche comme : des pages supprimées dans les sites mais maintenues dans l'index, des pages modifiées dans les sites et toujours caractérisées par les mots de l'ancienne version dans l'index, des pages de grandes tailles indexées uniquement avec un ensemble restreint de premiers mots, la disparition de pages de l'index alors qu'elles sont toujours présentes dans les sites, la disparition de mots caractérisant une page sans que la page ait été modifiée^70(*).

Enfin, l'utilisation des moteurs comporte aussi d'autres problèmes. En plus de la limitation causée par leur incapacité à couvrir la totalité du Web, il y a une autre limitation qui est cette fois-ci volontaire et relève de la part des concepteurs de ne pas dévoiler la totalité de leurs informations (Prime-Claverie, 2004). Par exemple, avec une recherche sur Google avec la fonction site, il est impossible d'extraire plus de 300 références quel que soit le nombre de résultat trouvé par le moteur.

Ainsi devenons-nous faire avec ces limites et nous contenter de ces outils au risque de produire des travaux de qualité moindre ? Ou bien, devenons-nous développer des outils alternatifs mieux adaptés au domaine des sciences de l'information et qui seront à même de répondre aux attentes des wébomètres ?

* ⁷⁰ Ibib

précédent sommaire suivant

"Nous voulons explorer la bonté contrée énorme où tout se tait" Appolinaire