64px_Speech Bubble

Googleusercontent.com : nouveau domaine, nouveaux problèmes

dans Techniques et outils WebAnalytics
Le 8 avril 2010 par Sébastien Monnier

Depuis deux jours, un changement passé presque inaperçu dans les serp a eu lieu. Auparavant, quand on visualisait une page du cache de Google, le host qui nous permettait de visualiser le page en cache était une adresse ip. Aucun nom de domaine n’était associé (http://209.85.229.132/search). J’ai toujours trouvé cela un peu amateur et brouillon de la part de Google et j’avais supposé qu’il devait y avoir une bonne raison (soulager les serveurs DNS ?). Depuis deux jours cela a changé. Désormais l’url de cache a un vrai nom de domaine http://webcache.googleusercontent.com/search

Googleusercontent.com ou comment Google s’auto-spamme?

Avec un petit Whois, on apprend que ce domaine est enregistré depuis seulement 2008 et appartient logiquement à Google. A en croire l‘index de Yahoo, ce domaine est principalement utilisé pour héberger des PDF. Etrangement, beaucoup de ces pdf ne se retrouvent pas dans Google. Regardons de plus près ce que Google connaît de ce nouveau domaine. Faisons un simple site:googleusercontent.com

Et nous apercevons plein de résultats de recherches indéxés ! Or, Google précise bien qu’il faut faire désindexer ces résultats de recherche en utilisant le robots.txt. Google est donc, encore une fois, pris en plein flagrant délit d’auto-spam.

Désormais, le robots.txt semble comprendre cette interdiction désormais, mais il reste encore beaucoup de mauvaises pages : des pages de résultats, des vraies pages de cache. Oui, on peut même voir le cache de pages de cache. Voila un amateurisme qui ne m’étonne pas vraiment. Google aurait besoin de conseils SEO parfois 😉

Des conséquences sur Analytics

Woptimo-Google analytics formationPlus grave et plus intéressant, ces changements de domaine ont un impact sur les données Analytics. Auparavant, les visites en provenance du cache de Google était marquées comme venant d’un lien référent . Désormais, les pages en cache sont considérées comme venant de Google ! C’est plus logique mais ça booste légèrement les stats (environ 0.2% pour mon principal site). Le plus énervant, c’est surtout de retrouver désormais dans les keywords des mots-clés commençant par cache:-i2chypzkq4j:www . Les vrais mots-clés se situent après votre url; il y a donc moyen de les récupérer avec un filtre avancé ou avec un script javascript installé sur vos pages. Mais, pour cela, je ferai un autre post !