Duplication de contenu : problèmes, solutions et outils …

Il y a duplicate content lorsque 2 contenus identiques se trouvent sur 2 sites différents donc 2 URL différentes.
D’après Google, le Duplicate content s’applique à des contenus identiques sur 2 domaines différents ou sur le même domaine.

“Duplicate content generally refers to substantive blocks of content within or across domains that either completely match other content or are appreciably similar”.

1. Le cas de duplicate content le plus fréquent :

– Les sites d’actualités où les actualités sont reprises par beaucoup de sites et donc démultipliées
– Les annuaires

A partir de quelle quantité de contenu dupliqué peut on parler de duplicate content ?

A partir de 70% de similarité selon plusieurs sources sur internet – (info non officielle). Le filtre de Google est capable d’après eux de reconnaitre les deux formes d’URL (avec et sans réécriture).

2. Les causes du Duplicate Content :

– Indexation d’un site avec et sans www
– Plusieurs URL pour la page d’accueil
– Conserver les anciennes URL sans redirection après mise en place de la réécriture d’URL
– Avoir plusieurs noms de domaine indexés pour un même site
– Les paramètres dans les URL, avec le ?
– La copie de contenu

3. Notion de near duplicate content

Il s’agit de pages réellement différentes mais se ressemblant tout de même, par les combinaisons de mots etc…
Environ 30% des pages sur le web sont (presque) des doublons. Google a d’ailleurs obtenu un brevet pour certaines techniques de détection du near duplicate. Du point de vue des utilisateurs, les sites ayant des contenus quasi similaires soulèvent des problèmes.
Et particulièrement, lorsque les internautes envoient une requête à un moteur de recherche, la plupart ne veulent pas de liens vers (les descriptions) des pages Web qui ont des informations largement redondantes.
Par exemple, les moteurs de recherche répondent généralement aux requêtes de recherche en fournissant des groupes de dix résultats. Si les pages avec un contenu en double ont été retournés, beaucoup des résultats dans un groupe peuvent inclure le même contenu.

4. Les problèmes liés au Duplicate Content
  • Le principale problème est directement liés au fonctionnement des moteurs de recherche :
– L’index des moteurs de recherche serait gigantesque et donc les recherches nécessiteraient de plus en plus de temps : la performance des moteurs de recherche serait directement touchée.
  • Le deuxième problème est lié à l’utilisateur
– Si une page est dupliquée et indexée, la recherche d’un internaute pourra donner les 10 premiers résultats identiques en terme de contenu. L’internaute n’y trouverait aucun intérêt, ce qu’il cherche c’est de la pertinence.
  • Les problèmes liés au référencement

–Si Google détecte du Duplicate content sur 2 pages, le page ayant le plus fort page rank est reconnue comme étant la page source. La deuxième page est alors retirée des résultats de recherche, et son Page rank est absorbé par la première. Cependant la page «pénalisée » est toujours accessible via le bouton « relancer la recherche en incluant les résultats ignorés ». Son page rank n’est pas supprimé, il n’est simplement pas pris en compte.5. La méthode de détection de Google

L’algorithme Panda :

Lorsque que Google index un nouveau site, il analyse la totalité du contenu des pages du site. Il compare alors ce contenu avec les autres pages de sites qu’il possède dans son index. Il prend en compte entre autre : Le nombre de mot, la répétition des mots, la similitude dans la densité des mots utilisés…

6. Les sanctions :

Google peut déclasser les pages des résultats, il faut alors relancer la recherche en incluant les pages ignorées pour trouver la totalité des résultats. Généralement, il s’agit de la page qui a le plus faible page rank qui est pénalisée, le page rank de cette dernière est alors attribué à la 1ère.

  • Il peut y avoir une pénalité dans le référencement des pages d’un site.
  • Dans le pire des cas, Google peut supprimer de son index les pages.
  • Mais dans la majorité des cas il n’y a pas de sanction

Google prétend sanctionner uniquement dans les cas intentionnel de DC, où l’on voudrait « tromper et manipuler les résultats du moteur de recherche ».

7. Les solutions

La balise canonical

  • Elle est à insérer dans la section <head> du code. Cette balise permet de savoir quelle est la page source. Cette solution ne fonctionne que pour un même domaine ou un sous domaine.
  • <link rel= »canonical » href= »http://www.example.com/ma-page.html » />

L’URL rewriting

  • L’URL rewriting peut poser un problème de duplicate content puisque 2 pages sont accessibles à 2 URL différentes.
  • La solution est de spécifier qu’il s’agit d’une redirection de type 301.

Balise Tittle et meta description

  • Pour chaque page du site, ces deux balises doivent impérativement être différentes. Dans le cas contraire, les pages seront pénalisées par Google.

Le fichier robots.txt

  • Ce fichier ce situé à la racine du site et est le premier fichier consulté par les robots d’indexation des moteurs de recherche.
  • Il permet d’indiquer quelles pages peuvent ou non être indexées.

Les redirections 301 : (en savoir plus)

8. Les outils

Copyscape:

Copyscape est un outil permettant en rentrant l’URL d’un site internet, de vérifier si d’autres pages ont un contenu similaire.

Positeo

Positeo : check duplicate content1

Similaire à l’outil précédent, il permet à partir de texte ou d’une URL de vérifier si des pages ont du contenu similaire. (nombre de tests limités). L’outil est plutôt fiable pour consulter rapidement l’évolution du référencement. Cependant il faut lui entrer l’URL exacte des pages, et il ne scan pas les résultats au-delà de la page 12.

Webconf

A partir de 2 URL, Webconfs est capable de déterminer le degrés de similarité entre les 2 pages.

 

Les commentaires ne sont pas autorisés