Une rubrique qui regroupe tous les bruits et rumeurs dans le (petit) monde des outils de recherche mondiaux et francophones. Rien n'est obligatoirement vérifié, mais toutes les infos sont données... de source sûre 😉
-> Altavista.com donnerait encore un meilleur classement aux pages anciennes (dont la date de dernière modification est plus ancienne qu'une autre). Ce critère de pertinence semblait avoir disparu, mais il semble qu'il soit revenu "à la mode" du côté de Palo Alto si l'on en croît cette url (http://www.lirux.com/article.php?sid=14) et d'autres rumeurs concordantes.
-> Le site Canada.com utilisant maintenant Dogpile pour ses résultats à la place d'Inktomi, l'étau se resserre autour de Hotbot et Hotbot France pour soumettre vos pages à Inktomi. Rappelons qu'Inktomi propose de nombreuses solutions payantes pour l'indexation de sites web. Il y a fort à parier - relation de cause à effet ? - que l'indexation gratuite par le biais du lien "Add URL" de Hotbot devienne de plus en plus anecdotique. Autre solution pour soumettre sur Inktomi : le site japonais Goo (c'est en japonais : premier champ = url du site, deuxième champ = e-mail) : http://www.goo.ne.jp/help/info/url.html
-> Le site Wordtracker (http://www.wordtracker.com/) comprendrait à l'heure actuelle 350 millions de mots clés et expressions.
-> Google recevrait quotidiennement 29 millions de requêtes. Ses critères de pertinences principaux seraient (en dehors de l'algorithme PageRank, basé sur l'indice de popularité à deux niveaux des pages indexées) : l'indice de densité des mots, la proximité des termes demandés (pour des requêtes de deux mots et plus), la mise en exergue (début ou fin de texte, mise en gras, taille de la police de caractère, texte d'un lien). L'option ALT des images est également prise en compte. Point important : le texte d'un lien pointant vers vos pages peut également avoir une importance. Pas bête, car dans le texte de ce lien, un résumé du contenu de la page peut effectivement être présent... L'outil ne prendrait pas en compte la taille du site web lui-même comme critère de pertinence. Toutes les pages sont traitées de la même façon , qu'elles soient issues d'un "petit" site comme d'un "gros". Les balises Meta ne sont pas prises en compte. Les pages dynamiques sont en train d'être prises en compte, petit à petit (on trouve, effectivement, certaines pages avec des urls "exotiques" dans l'index du moteur), mais avec prudence. Les index de Google seraient remis à jour tous les mois. Toutes les pages d'un site ne sont pas obligatoirement crawlées, mais il n'y a pas de limite officielle au nombre de documents indexés pour un site unique. Selon Craig Silverstein, l'un des responsables techniques de Google, les sociétés utilisant des technologies de cloaking sont exclues de l'index et mises sur liste noire. On peut difficilement être plus clair...
Fichier PDF téléchargeable ici (la lettre Réacteur n'était à cette époque-là disponible que sous cette forme).