Depuis quelques mois de nombreux sites référents sont apparus dans mes statistiques Google Analytics. Ces sites aux noms étranges comme darodar.com, social-buttons.com, iloveitaly.com, etc… ne sont en fait que des robots qui visitent nos sites et polluent les statistiques de Google Analytics avec des données disproportionnées.
Je tenais à partager une méthode (qui n’est pas infaillible malheureusement) pour se débarrasser de ces crawlers.

Modifiez votre .htaccess

Il est possible de bloquer le traffic venant de certains sites via des règles entrées dans le fichier .htaccess.
Ce fichier se trouve dans le dossier /www/ de votre serveur Apache.
Pour commencer, il est nécessaire d’identifier les sites « référents« .
Pour cela il faut vous rendre dans votre profil Google Analytics, Acquisition -> Tout le traffic -> Sites référents.
crawlers_1
Une liste de sites aux noms louches s’affiche sûrement, ce sont eux qui polluent vos statistiques.
Une fois ces domaines identifiés nous allons créer des règles htaccess permettant de bloquer le traffic venant de ces domaines.
Pour cela rendez vous sur ce site, onglet Site Refferer Ban.
Entrez les domaines à bloquer et cliquez sur Generate Code.
Il ne vous reste plus qu’à copier coller ce code dans votre fichier .htaccess
crawlers_2
Cependant il faudra refaire la manipulation lors de l’apparition d’un nouveau site dans vos statistiques. Pensez donc à vérifier régulièrement les sites référents.

Créer des filtres dans Google Analytics

Dans un second temps (et parce que la méthode précédente ne marche pas avec tous les robots), nous allons créer des filtres pour demander à Google de ne pas afficher les visites venant de ces crawlers.
Pour cela il faut se rendre sur la page Admin de Google Analytics, puis sur l’onglet Filtres.
crawlers_3
Il faut désormais créer un nouveau filtre avec les informations suivantes :
Nom : le domaine à bloquer
Type de filtre : prédéfini – Exclure
Sélection de la source ou destination : Trafic vers le nom d’hôte
Expression : contenant
Nom d’hôte : le domaine à bloquer
crawlers_4
Bien sur vous allez devoir entrer les sites les un après les autres, et ajouter les nouveaux au fur et à mesure…

Vous l’aurez bien compris il n’existe pas de méthode infaillible ou encore automatique pour bloquer ce traffic polluant. Il faut vérifier régulièrement les sites référents et bloquer ceux qui vous gênent à l’aide de ces deux méthodes.
N’hésitez pas à faire part de vos retours dans les commentaires.