Comment détecter du contenu dupliqué par Rodolphe Degandt consultant formateur en référencement 

Comment détecter du contenu dupliqué sur son site

4e partie du dossier : Les outils SEO gratuits

Dans cette quatrième partie, voici des outils pour surveiller si votre contenu a été dupliqué par d’autres sites. Il sert aussi à s’assurer qu’une source que vous consultez est bien originale et exclusive. La qualité de vos contenus est essentielle pour le référencement de votre site sur les moteurs de recherche.

L’algorithme Google Panda surveille les contenus dupliqués de votre site et peut retirer des pages de son indexation. Il peut aller jusqu’à supprimer complément l’ensemble de vos pages des résultats de recherche. Fini donc vos positions en première page. Perdu votre travail de référenceur SEO, du maillage interne et de votre netlinking.
Pour savoir si votre site web est pénalisé dans  les Serp, consultez Google webmaster tools (ou console). Les messages d’alerte y sont présents.

En SEO, on parle également de duplicate content ou DC. C’est la même chose !

Pour commencer, la solution la plus simple, totalement gratuite et en usage illimité, est le moteur de recherche Google lui-même. Pour vérifier si un contenu est présent sur plusieurs sites, écrivez une phrase entre guillemets. La recherche réalisée entre « » permet de trouver exactement un texte. Les résultats affichaient par Google, vous indiqueront le nombre et les URL des pages contenant le même contenu.

duplicate-contente-outil-google

6 services en ligne gratuits d’analyse de contenu dupliqué

  • Pour contrôler le duplicate content l’outil en ligne le plus célèbre est Copyscape. Il vous suffit de mettre l’URL de la page à analyser et Copyscape vérifie si d’autres pages sur internet proposent un contenu similaire.
    En version gratuite, vous visualiserez jusqu’à 10 sources en cas de copie partielle ou totale d’une page.
Comment détecter du contenu dupliqué

Exemple de résultat d’une page non dupliquée — test avec Copyscape

  • Siteliner, analyse toutes les pages de votre site, il indique le taux de contenu dupliqué en interne. Très pratique pour détecter par exemple les copies générées par les auteurs, votre flux rss… Un moyen de ne pas oublier de désindexer (ou du bon usage des URL canoniques) les pages de contenus en double ou triple présentes dans votre site.
  • Positeo, une excellente référence qui propose d’analyser un texte ou une URL. Il indique également le pourcentage de similitude avec le document analysé. Principal défaut, il est fréquemment indisponible en ligne. Peut-être, victime de son succès.
  • Plagium, en version gratuite — recherche rapide — il permet d’analyser un texte jusqu’à 5 000 caractères. Son avantage il indique le degré de similarité avec d’autres pages internet. Ainsi vous pourrez trouver non pas ceux qui vous copient, mais ceux qui s’inspirent de vous.
  • Pagium chercker, basé sur la technique de recherche entre guillemets, il ajoute une petite fonction pour enregistrer une alerte Google. Une bonne astuce pour assurer votre veille de duplicate content.
  • Quetext offre les mêmes services pour un texte en anglais. L’inconvénient est qu’il n’offre pas l’analyse de la page à partir de la saisie directe de son URL.

Enfin, il existe le plug-in « no-duplicate » payant pour les sites réalisés avec le CMS WordPress. Son efficacité n’étant vraiment pas confirmée par les quelques utilisateurs que j’ai rencontrés, je ne le conseille pas.

 

Comment indiquer à Google les contenus dupliqués « volontaires »

Si Google détecte que vos textes sont des copies… alors, il ne va tout simplement pas les référencer. Cependant, vous pouvez vous-même créer du contenu en double ou similaire sur plusieurs pages de votre site.
Dans ce cas, vous pouvez indiquer à Google qu’elle page ou URL il doit privilégier. Il s’agit de la technique de canonicalisation. Voici les conseils du support Google pour déployer des URL canoniques.

4 conseils pour éviter le contenu dupliqué interne

  1. N’utilisez pas les tags (ou étiquettes) dans les articles ou désindexez les et les supprimez les de votre sitemap.
  2. Si vous indexez les catégories, créez des descriptions spécifiques pour chacune d’entre elles.
  3. Rédigez un texte unique pour vos extraits. Sinon le texte généré automatiquement devient un contenu dupliqué !
  4. Désindexer et désactiver les archives auteur, N’indexez pas non plus les sous-pages d’archives. Et enfin, désactiver les pages d’archives par date.

 

Comment vous défendre en cas de contenu dupliqué

Si vous détectez que votre texte a été copié voici 4 étapes pour vous défendre :

  1. Commencez par contacter le copieur en l’invitant à retirer votre contenu. Pas vue pas pris !
    Vous pouvez aussi lui proposer une variante pour remplacer votre contenu avec un lien vers votre page (un backlink de gagné, attention quand même à la qualité du site).
  2. Pas de réponse, ou réponse désagréable,  faites des captures d’écran, et envoyez un deuxième email ou courrier recommandé  (AR) avec menace de procédure juridique. Dans ce cas, fixez un délai court (72 heures) pour lui permettre de retirer le contenu.
  3. Si ces deux tentatives restent infructueuses, dénoncez le site directement à Google (ou RSP) et/ou écrivez à son hébergeur en joignant vos preuves.  Personnellement, j’ai plusieurs fois, pour mes clients, utilisé l’email à l’hébergeur avec succès.
  4. L’ultime solution consiste évidemment à aller devant le tribunal en déposant plainte pour non-respect de vos droits d’auteur.

 

L’utilisation des outils SEO gratuits est un véritable plus que j’explique en détail pendant la formation sur le référencement naturel pour améliorer la visibilité de votre site internet. Apprenez à surveiller la copie de votre contenu lors de la formation sur les bases du référencement ou la formation avancée SEO.