Des comptes étranges chez Google ?
Le célèbre moteur a passé il y a quelque temps la barre des 8 milliards de ...
Le célèbre moteur a passé il y a quelque temps la barre des 8 milliards de pages indexées ("©2005 Google - Nombre de pages Web recensées par Google : 8 058 044 651."). Un blogger s'interroge : qu'en est-il exactement de la réalité des chiffres avancés par le moteur et particulièrement après chaque recherche ?
Si vous saisissez l’expression « The » dans le champ dédié tout en optant pour « Rechercher sur le Web », Google annonce exactement 8 milliards de réponses. Si vous saisissez maintenant « The » en vous concentrant uniquement sur les pages anglophones, les réponses tombent à moins de 100 millions, soit environ 1% du résultat total. Selon Google donc, 99% des pages contenant « The » se situent sur des pages autres qu'en Anglais. Normal ?
Problème : chez Yahoo!, la vapeur s’inverse puisque 91% des occurrences de « the » se situent dans des pages en anglais. « Ce qui est tout de même plus conforme à nos intuitions » rapporte un bloggeur.
«Je ne suis pas prêt à accepter la réponse standard de Google ("nos chiffres ne sont que des estimations, des approximations, etc."). Lorsqu'on atteint des différences de cette ampleur, il ne s'agit plus d'approximation, et quelque chose d'autre de plus profond doit se cacher derrière les chiffres. J'ai donc essayé de déterminer la proportion exacte des pages en anglais dans l'index Google. Pour cela, j'ai choisi 50 "mots" qui sont selon toute vraisemblance relativement indépendants des langues: nombres, extensions de fichiers, protocoles (http, etc.), marques informatiques, etc. Ces mots apparaissent certainement dans d'autres langues que l'anglais, et bien qu'il puisse y avoir des variations individuelles, je ne m'attendrais pas à observer une relation systématique entre leur fréquence et leur présence dans des pages anglaises. Ou alors, s'il y en a une, elle sera intéressante à expliquer.»
La suite, passionnante, est ici.
Si vous saisissez l’expression « The » dans le champ dédié tout en optant pour « Rechercher sur le Web », Google annonce exactement 8 milliards de réponses. Si vous saisissez maintenant « The » en vous concentrant uniquement sur les pages anglophones, les réponses tombent à moins de 100 millions, soit environ 1% du résultat total. Selon Google donc, 99% des pages contenant « The » se situent sur des pages autres qu'en Anglais. Normal ?
Problème : chez Yahoo!, la vapeur s’inverse puisque 91% des occurrences de « the » se situent dans des pages en anglais. « Ce qui est tout de même plus conforme à nos intuitions » rapporte un bloggeur.
«Je ne suis pas prêt à accepter la réponse standard de Google ("nos chiffres ne sont que des estimations, des approximations, etc."). Lorsqu'on atteint des différences de cette ampleur, il ne s'agit plus d'approximation, et quelque chose d'autre de plus profond doit se cacher derrière les chiffres. J'ai donc essayé de déterminer la proportion exacte des pages en anglais dans l'index Google. Pour cela, j'ai choisi 50 "mots" qui sont selon toute vraisemblance relativement indépendants des langues: nombres, extensions de fichiers, protocoles (http, etc.), marques informatiques, etc. Ces mots apparaissent certainement dans d'autres langues que l'anglais, et bien qu'il puisse y avoir des variations individuelles, je ne m'attendrais pas à observer une relation systématique entre leur fréquence et leur présence dans des pages anglaises. Ou alors, s'il y en a une, elle sera intéressante à expliquer.»
La suite, passionnante, est ici.
Marc Rees
le 3 février 2005 à 15:58
(5 719
lectures)
Actualités et brèves relatives
- 02 / 02 / 2005 : Google devient vendeur de noms de domaine
- 01 / 02 / 2005 : Quand les pages jaunes d'Amazon rient jaunes
- 01 / 02 / 2005 : "googletv.fr" et "googlevideo.fr" : domaines enregistrés
- 25 / 01 / 2005 : Google TV recherche vos programmes télé
- 19 / 01 / 2005 : Google condamné pour ses Adwords
- 06 / 01 / 2005 : Et Google devient moteur à caméras...
- 06 / 01 / 2005 : Microsoft, Google, Apple, etc. : Avec quoi surfent-ils ?
- 22 / 12 / 2004 : Une faille dans Google Desktop
- 19 / 12 / 2004 : Google Suggest arrive doucement, mais sûrement








