Le wiki : Accueil - Administrateur - Bureautique - Développeur - Intégrateur - Marketing - Multimédia - Objets numériques - Jeux - We make Hack

Le site : Accueil - Annuaire - Blog - Forum - Outils - Utilisateur
Le FTP : Consulter les fichiers partagés sur le FTP
Le Redmine : Consulter le Redmine

Accueil SEO

Identifier les références qui contiennent notre nom de domaine

Depuis le moteur de recherches Google : link:https://www.visionduweb.fr

Désavouer des liens entrants

Consulter la liste de liens existants vers votre site depuis Google Webmaster : https://www.google.com/webmasters/tools/home?hl=fr
Dans le tableau de bord, cliquer sur Trafic de recherche, puis sur Liens vers votre site.

Créer un fichier de liens à désavouer qui sera envoyé à Google avec la liste des liens à désavouer.
Utiliser l'outil officiel de Google pour désavouer des liens : https://www.google.com/webmasters/tools/disavow-links-main

Exemple avec le site http://www.tiger-green.fr (qui m'appartient).
Si ce site diffuse du contenu vers https://www.visionduweb.fr et que je souhaite désavouer le contenu :

# Le propriétaire de http://www.tiger-green.fr a supprimé la plupart des liens suite à demande de suppression à l'exception des liens suivants :
http://www.tiger-green.fr/contenu/commentaires.html
http://www.tiger-green.fr/contenu/liens-payants.html
# J'ai contacté le propriétaire de http://www.tiger-green.fr le 01/01/2019 pour lui demander de supprimer des liens, mais, je n'ai reçu aucune réponse.
domain:tiger-green.fr

Tutoriel officiel de Google : https://support.google.com/webmasters/answer/2648487?hl=fr#

Outils de Référencement et de SEO gratuits

Google My Business

Pour confirmer la création de la fiche gratuite, il est nécessaire de valider les informations relatives à votre établissement.
 Attirez de nouveaux clients grâce à votre fiche Google gratuite : https://www.google.fr/intl/fr/business/

GHSTools

Liens officiels

Booster votre référencement avec GHSTools : http://www.ghstools.fr
Le forum de GHSTools : http://www.ghstools.fr/forum

Complément

Vidéo de présentation de GHSTools : https://*outu.be/FgJvpgIGdpU
Utiliser GHSTools : http://www.ghstools.fr/interface/connexion.php?redirect=http://www.ghstools.fr/interface/contribuer.php
Prise en main de l'outil GHSTools - Le principe du Grey Hat SEO Tools : http://www.grey-hat-seo.com/principe-grey-hat-seo-tools
Tous les tutoriels pour GHSTools : http://ghstools.fr/forum/viewtopic.php?f=36&t=660
Ajouter des tutoriels sur le Blog de grey-hat-seo.com : http://www.grey-hat-seo.com/manuel-ghs-tools/aider-a-completer-animer-blog-forum
Gestion des catchall : http://www.grey-hat-seo.com/manuel-ghs-tools/gestion-des-catchall

Installer l'extension de GHSTools pour chrome : https://chrome.google.com/webstore/detail/ghs-tools-extension/ilighcklmpifhlkkmmogapkfknnpimdl?hl=fr
Télécharger le code source de l'extension : Fichier:Source-extension-chrome-ghstools.zip

Trouver des plans Backlink : http://referencement-progressif.com
Aider à déterminer la langue des plans backlink : http://www.grey-hat-seo.com/manuel-ghs-tools/nous-aider-a-determiner-la-langue-des-plans-backlink

API Scraper GHSTools

L'API pour scraper le HTML d'un site :
Appelez cette url en changeant l'url de fin de chaîne :
http://www.analyse-referencement.fr/api_html_site.html?url=http://www.ghstools.fr

L'API pour scraper le HTML des SERPs Google :
Appelez cette url en changeant le mot de fin de chaîne
Vérifier le bon fonctionnement de cette API...
http://www.analyse-referencement.fr/api_serp_google.html?key=référencement

Site officiel : www.analyse-referencement.fr/settings.html

Gtmetrix

Site officiel : https://gtmetrix.com

Traitement des points abordés : https://kinsta.com/fr/blog/test-vitesse-gtmetrix/

Webrankinfo

Créer et utiliser un bookmarklet : http://www.webrankinfo.com/dossiers/outils/bookmarklets
De nombreux tutoriels spécialisés : http://www.webrankinfo.com/dossiers/outils
Site officiel : http://www.webrankinfo.com

Yooda

Site officiel : https://www.yooda.com
Blog : http://blog.yooda.com
Statistiques Yooda à l'aide de son compte utilisateur : https://insight.yooda.com

Majestic

# Explorateur des liens entre les domaines.
Site officiel : https://fr.majestic.com
Le robot de Majestic mj12bot : https://mj12bot.com

SEO Tools pour Excel

Source : http://seotoolsforexcel.com
Source : https://seotoolsforexcel.com/connectors/

Quicksprout

Source : https://www.quicksprout.com

Website Penality Indicator

Source : https://feinternational.com/website-penalty-indicator/

Answer the public

Source : http://answerthepublic.com

Broken Link Check

Source : http://www.brokenlinkcheck.com

Check My Link extension pour Chrome

Source : https://chrome.google.com/webstore/detail/check-my-links/ojkcdipcgfaekbeaelaapakgnjflfglf?hl=en-GB

Email auto extractor

Source : https://chrome.google.com/webstore/detail/email-auto-extractor/blkpobilpealkkcibgcgfmflneafkkah

Extracteur de liens

Support du web propose un extracteur de liens pour vérifier les liens interne et externe d'une page web.
Site officiel : http://www.supportduweb.com/extracteur-liens-recuperer-liens-internes-externes-referencement.html

Campagne de mail avec Google Sheets et Gmail

Source : https://chrome.google.com/webstore/detail/yet-another-mail-merge/mgmgmhkohaenhokbdnlpcljckbhpbmef

MobiReady

Un outil gratuit pour les développeurs, les concepteurs et les spécialistes du marketing pour tester les performances des sites Web sur les appareils mobiles.
Site officiel : https://ready.mobi/#914150-tipf

Screamingfrog

Screaming Frog s'installe sur un ordinateur puis parcourt les sites un peu comme le feraient les robots de Google.
Il fait remonter des informations très utiles pour le SEO, comme les balises Title, les meta descriptions, les codes de réponses HTTP y compris les 404 et les 301.
L'outil est bien connu car il peut crawler gratuitement 500 URL.
La version payante coûte environ 150 euros par an.

Source : https://www.screamingfrog.co.uk/seo-spider/
Source : http://consultant-seo.eu/outils/screaming-frog/

Si il s'agit simplement d'identifier les liens morts qui retournent une erreur 404, le site en ligne Brokenlinkcheck permet un scann de site illimité :
https://www.brokenlinkcheck.com/broken-links.php#status

Gephi

tar -zvxf gephi-0.9.2-linux.tar.gz
cd gephi-0.9.2/
ls
cd bin
/home/seo/gephi-0.9.2/bin# ./gephi
libEGL warning: DRI2: failed to authenticate

Source : https://gephi.org
Pourquoi et comment utiliser Gephi en SEO ?
Source : www.seomix.fr/pourquoi-comment-utiliser-gephi-seo/

Si java manque, installer Java sur Linux.

Télécharger le paquet tar.gz depuis le site officiel de Java.
Décompresser dans le dossier /gephi-0.9.2/bin/
Lancer Gephi en indiquant le paquet de Java ajouté dans le dossier /gephi-0.9.2/bin/ : ./gephi --jdkhome jre

Extraire les données d'un site avec Javascript

Source : http://blog.cremedelacreme.io/2017/02/07/donnees-site-code-javascript-digital/

Importer du contenu et des images

Source : https://www.import.io

Ouvrir plusieurs URL en une fois

Source : http://quickurlopener.com

SeeTheStats

Partager les statistiques de Google Analytics sur son site internet avec SeeTheStats.
Site officiel : https://www.seethestats.com

Scrapebox

Logiciel payant pour optimiser votre SE0.
Le site officiel : http://www.scrapebox.com

Quelques tutoriels : www.papilouve.com/tuto-scrapebox-soft-seo-black-hat/
Quelques vidéos : http://www.jeromeweb.net/seo/2826-tutos-scrapebox-logiciel-seo
La liste des footprints est triée par type de CMS : www.seoxis.com/scrapebox-liste-de-119-footprints-page-scanner/

SerendeputyBot

Serendeputy est un robot de flux d'actualités.

Robot SerendeputyBot : https://serendeputy.com/about/serendeputy-bot

Seo-systeme

SEO Systeme vous propose un audit gratuit pour votre site internet basé sur le logiciel SEO Myrankingmetrics (https://myrankingmetrics.com).
Site officiel : https://www.seo-systeme.fr - https://www.helperiance.fr
Contacter SEO Systeme pour en savoir d'avantage.

Statistiques de fréquentation

CrawlTrack

CrawlTrack est un logiciel libre et gratuit de statistique d'audience d'un site Web

Ce script s'installe sur son propre serveur, les données restant donc sous le contrôle du Webmaster. Plusieurs sites peuvent être audités à partir d'une seule installation de CrawlTrack. Le tag utilisé est en php et ne laisse aucune trace visible dans le code source (et donc sur les pages du site). Le script est disponible en français, anglais, espagnol, allemand, néerlandais et turc.

Source : fr.wikipedia.org/wiki/CrawlTrack

Outils de Référencement et de SEO payants

Alexa

Outil de positionnement mondiale.
Site officiel : https://www.alexa.com

moz

Outil d'analyse SEO payant.
Site officiel : https://*oz.com/link-explorer/

Semrush

# SEMRush est un service d'analyse concurrentielle, incontournable pour les experts en référencement et SEO.
# Semrush est un outil payant qui nécessite un compte utilisateur.

Site officiel : https://fr.semrush.com

# Le premier abonnement proposé est la version Pro, 7 jours gratuits, puis 99,95 $/mois.
# Il sera indispensable de saisir ses coordonnées de carte bancaire pour créer un compte utilisateur et profiter de l'offre 7 jours gratuits : https://fr.semrush.com/signup/?src=lp-sem-fr&trial=force
# Si la carte bancaire n'est pas saisie, Semrush permettra tout de même d'obtenir quelques informations rudimentaires.

Page officielle du robot Semrush : https://www.semrush.com/bot/

Bloquer le robot de Semrush avec le fichier robots.txt

# Interdire tous les robots :
User-agent: *
Disallow: /

# Interdire Googlebot :
User-agent: Googlebot
Disallow: /

# Empêcher SEMrushBot d'analyser votre site avec un graphe Web de liens :
User-agent: SemrushBot
Disallow: /
# Supprimer SEMrushBot de l'analyse de votre site pour différents problèmes techniques et de référencement :
User-agent: SemrushBot-SA
Disallow: /
# Pour empêcher SEMrushBot d'explorer votre site pour l'outil d'audit Backlink :
User-agent: SemrushBot-BA
Disallow: /
# Pour empêcher SEMrushBot d'explorer votre site pour l'outil On Page SEO Checker et des outils similaires :
User-agent: SemrushBot-SI
Disallow: /
# Pour empêcher SEMrushBot de vérifier les URL de votre site pour l'outil SWA :
User-agent: SemrushBot-SWA
Disallow: /
# Pour empêcher SEMrushBot d'explorer votre site pour les outils Content Analyzer et Post Tracking :
User-agent: SemrushBot-CT
Disallow: /
# Pour empêcher SEMrushBot d'explorer votre site pour la surveillance de la marque :
User-agent: SemrushBot-BM
Disallow: /

Bloquer avec PHP et HTTP_USER_AGENT

Source : https://www.blackhatworld.com/seo/block-semrush.838057/

Les ip probables de SemRush

192.243.55.134 192.243.136 192.243.55.137 192.243.55.138 192.243.55.138 192.243.55.51 192.243.55.133 192.243.55.135 46.229.164.102 46.229.162.101 192.243.55.129 213.174.147.83 192.243.53.51 192.243.55.130 192.243.55.129 192.243.55.138 192.243.55.137 192.243.55.136 192.243.55.134 192.243.55.132 192.243.55.133 192.243.55.135 213.174.146.163 46.229.164.101 46.229.164.100 46.229.164.98 46.229.164.102 46.229.164.99 46.229.164.114 46.229.164.113 46.229.164.101 46.299.164.97 46.229.161.132 46.229.161.136 46.229.161.138 46.229.164.103 46.229.164.97 50.17.105.131 50.17.33.197 50.19.36.141 107.21.183.210 107.22.134.187 107.22.68.116 174.129.166.77 184.72.94.71 184.73.143.31 204.236.244.200 184.72.140.220 107.22.128.82 50.16.154.80 107.22.128.82 50.16.154.80 107.21.149.52 23.20.75.166 50.16.11.183 107.21.155.119 23.20.2.192 75.101.210.171 184.72.187.47 184.72.163.70 184.72.181.183 184.73.13.192 184.73.142.88 184.73.58.164 204.236.243.108 50.16.162.168 50.19.162.168 50.19.162.61 107.21.139.47 75.101.242.89 50.16.179.70 184.72.168.246 50.17.117.164 50.19.179.186 107.20.126.228 50.16.94.41 50.17.107.112 75.101.205.112
Bloquer SemRush par IP : https://www.distilnetworks.com/bot-directory/bot/semrush-bot/

# Autre plage IP proposée pour bloquer Semrush :
85.208.96.0/22
85.208.96.0/22
46.229.160.0/20

Bloquer Semrush avec Bad Blocker

Source : Bloquer des Bots et des URL indésirables avec Bad Bot Blocker.

Connaître le nombre de Backlinks

Urltrends

https://www.urltrends.com

Pour visionduweb.eu
Pages Indexed → 1,870
Back Links → 21,900

Actuellement ne fonctionne plus pour Visionduweb .com .eu .fr

Monitorbacklinks

https://checker.monitorbacklinks.com/seo-tools/free-backlink-checker/visionduweb.eu

Analyser les erreurs d'un site

SEO Site Checkup

Source : https://seositecheckup.com

Analyser les liens brisés

Liens morts - Liens brisés - Linkchecker.
Source du projet Linkchecker : wummel.github.io/linkchecker/

Outils en ligne

http://www.brokenlinkcheck.com/broken-links.php
http://validator.w3.org/checklink
https://www.deadlinkchecker.com
https://www.drlinkcheck.com

Outils

SEO - SiteSpy.
SEO - Content Spinning.
SEO - Optimiser les fichiers - Optimiser les articles et les mots clés.

Méthodes

Scraping Spinning Morphing

 Automatiser la présence d'un site avec des robots et le Scraping - Spinning - Morphing : http://t0ni0.blogspot.fr/2011/02/scraping-spinning-morphing.html

Obfuscation

 L'obfuscation permet par exemple de ne pas valoriser certains liens externes : https://www.410-gone.fr/seo/optimisation-on-site/maillage-interne/cocon-semantique/obfuscation.html

Black Hat SEO

Le Black Hat SEO est une stratégie de référencement naturel (SEO) qui permet d’optimiser un contenu pour les moteurs de recherche dans le but de les placer en 1ère position sur la SERP de Google.
Le but est d’obtenir un meilleur positionnement sans respecter les normes et les recommandations des moteurs de recherche.
L’expression s’oppose à la notion de White Hat SEO.

User agent cloaking

Technique permettant d’afficher sur une même page un contenu pour les moteurs de recherche (Sur-optimisé en mots-clés par exemple.) ou un contenu pour les internautes humains (Plus agréable à lire.).
Il suffit d’identifier le robot grâce à sa signature User Agent.

Contenus cachés

Le contenu caché pour les internautes est visible pour les robots.
Ils lisent dans le HTML et le CSS les textes sur fond de même couleur, texte derrière une image, police de 0, lien sur des caractères invisibles...

Keyword stuffing

Accumulation de mots clés.

Contenu détourné et Duplicate content

Le contenu provient de plusieurs sources.
Le contenu est copié d’un autre site internet.

Tester si vos pages contiennent du contenu dupliqué avec CopyScape : https://www.copyscape.com/duplicate-content/

Redirections trompeuses

Redirections trompeuses grâce à l’utilisation de pages satellites.

Achat de liens dofollow ou échange de liens excessifs

Pirater un autre site web pour utiliser sa notoriété, son trafic

Autres techniques Black SEO

Attribut nofollow, Background spoofing, Captcha breaking, Content spinning, DMCA Google, Ferme de liens, NDD expiré, Negative SEO, Netlinking black hat, NSEO, Obfuscation de lien, PBN, Plateforme d’achat de liens, Référencement négatif, Réseau de blogs privés, Réseau de sites, Scraping de contenu, Spam de commentaires, Splog, Spun, Taux de similarité, Vente de liens ou backlinks

Conséquences

Le Black Hat SEO fonctionne ! Cela veut dire plus de trafic !
D'autres sites légitimes avec des réponses plus pertinentes ne seront plus dans les premiers résultats de la SERP.
Avec la mise en place de techniques SEO peu éthiques, un site web va progresser rapidement sur les premiers résultats de la SERP et donc en visibilité.
Cependant, cette position ne sera pas pérenne. Les moteurs de recherche ne référenceront plus votre site internet. Votre site web n’aura plus aucun intérêt.

Les moteurs de recherche luttent contre les Black Hats SEO

Les algorithmes comme Google Panda et Google Penguin servent à identifier le contenu légitime d'un contenu Black Hat.

Google Panda : http://www.penalites-referencement.com/google-panda/
Google Penguin : http://www.penalites-referencement.com/google-pingouin/

White Hat SEO

Le White Hat SEO est une stratégie digitale qui apporte des résultats sur le long terme.
Optimiser le référencement d’un site internet prend du temps.
Les recommandations de Google mettent en avant des critères essentiels pour un bon référencement : balise meta title, balise meta description, rédaction web, optimisation sémantique, content marketing, SMO, outils de référencement, temps de chargement...

Les balises meta

SEO - Liste des balises META.

Indexation avec les robots

Un duo pour optimiser votre indexation

Fonctionnement d'un moteur de recherche

Un moteur de recherche utilise un grand nombre de serveurs appelés robots, crawlers ou spiders.
Ils sont chargés de parcourir la toile pour suivre les liens des millions de pages Web et indexent le contenu dans de gigantesques bases de données.

Aucun moteur de recherche ne peut parcourir la totalité des pages présentes sur internet en une journée.
Ce processus prend généralement plusieurs semaines. Chaque moteur adopte une stratégie pour déterminer la fréquence de la mise à jour des contenus.

Une fois que les robots auront indexés le contenu de votre site, une recherche sur un moteur retournera une liste de liens vers différents contenu dont celui de vos pages.
Cette proposition de résultats est appelée SERP pour Search Engine Result Pages en anglais et présente une liste de liens adaptés aux mots clés de votre recherche.

Utiliser la balise meta name robots avec le fichier robots.txt

Le 30 juin 1994 naissait le fichier robots.txt, un fichier texte au format ASCII écrit par convention en minuscules et au pluriel.
Il se trouve à la racine du site et est utilisé pour exclure certains contenus lors de l'indexation par les robots de référencement de sites web.

De nombreux outils de référencement ont besoin du fichier robots.txt pour accélérer les traitements des pages qui peuvent ou ne peuvent pas être indexées.
Pour autoriser un contenu a être indexé.
Pour éviter l'indexation de pages, d'images, de contenu en double.
Pour supprimer l'indexation d'une page avec une balise meta name robots.
Pour supprimer l'indexation des copies et des extraits mis en cache avec une balise meta name robots.
Pour supprimer l'indexation sur un site web entier ou une partie d'un site web avec une balise meta name robots.

La balise meta name robots

La balise meta name robots peut permettre de bloquer l'indexation de contenu.
Vous ne pouvez le faire que pour les urls et pas pour les répertoires.

Index = indexation
follow = suivre les liens du contenu
No follow = ne pas suivre les liens du contenu
No index = ne pas indexer

Si le site est en construction, il est préférable de bloquer immédiatement et totalement toute indexation du site web par les moteurs de recherche.
Ajouter dans chaque page à exclure la balise HTML META : <meta name="robots" content="noindex">

Une fois le site web finalisé depuis plusieurs jours ou semaines et que les pages et les menus fonctionnent, mettre en place le fichier robots.txt

Protéger un contenu de données sensibles

Pour protéger un contenu sensible, les robots ne suffisent pas.
Il est nécessaire de mettre en place d'autres solutions : La protection par mot de passe, le chiffrement des données...

Le fichier ads.txt

Déclarer des vendeurs autorisés afin de protéger votre marque et de bénéficier potentiellement d'une plus grande part des dépenses des annonceurs.

Introduite par l'IAB, l'initiative Authorized Digital Sellers for Web, ou ads.txt, vise à améliorer la transparence dans le domaine de la publicité programmatique. Vous pouvez créer vos propres fichiers ads.txt pour identifier qui est autorisé à vendre votre inventaire. Les fichiers sont accessibles au public, et peuvent être explorés par les responsables de places de marché et de plates-formes côté offre (SSP, Supply-Side Platform), ainsi que par les autres acheteurs et les fournisseurs tiers.
L'initiative Authorized Sellers for Apps, ou app-ads.txt, est une extension de la norme Authorized Digital Sellers. Elle assure la compatibilité avec les annonces diffusées dans les applications mobiles.

Même si l'utilisation des fichiers ads.txt/app-ads.txt n'est pas obligatoire, elle est fortement recommandée. Ces fichiers peuvent vous aider à protéger votre marque contre les inventaires contrefaits qui sont délibérément identifiés comme provenant d'un domaine, d'une application ou d'une vidéo spécifiques. Déclarer des vendeurs autorisés vous permet de bénéficier des dépenses que les annonceurs auraient pu consacrer à des inventaires contrefaits.

Source : https://support.google.com/admanager/answer/7441288?hl=fr

Générer automatiquement le contenu d'un fichier ads.txt/app-ads.txt dans Ad Manager : https://support.google.com/admanager/answer/7544382

Le fichier humans.txt

Internet pour les humans.txt.

Le fichier robots.txt

La directive User-Agent

User-Agent permet de préciser le robot concerné par les directives.

Autoriser l'indexation de votre site par les robots

# Insérer uniquement les deux lignes suivantes dans votre fichier robots.txt.
# La directive User-argent avec pour valeur l'étoile sélectionne tous les robots.
User-Agent: *
Disallow:

Interdire l'indexation de votre site par les robots

# Les robots standards d'indexation de contenu sont tous interdits avec la commande Disallow /.
User-agent: *
Disallow: /

Interdire uniquement les mauvais robots

Un robot malveillant sert par exemple à collecter des adresses e-mail pour envoyer des spams ou rechercher des formulaires pour publier des liens et de la publicité.

Les robots malveillants pourront toujours accéder au contenu de votre site malgré la commande Disallow /.

Si le mauvais robot obéit à /robots.txt et que vous connaissez son nom de User-Agent alors vous pouvez créer une section dans votre /robotst.txt pour l'exclure spécifiquement.
Mais presque tous les mauvais robots ignorent /robots.txt ce qui rend cette méthode d'exclusion inutile.

Si le mauvais robot fonctionne à partir d'une seule adresse IP, vous pouvez bloquer son accès à votre serveur Web via la configuration du serveur ou avec un pare-feu réseau.

Si les le robot fonctionne avec de nombreuses adresses IP différentes alors cela devient plus difficile.
Utiliser des règles de pare-feu pour bloquer l'accès aux adresses IP qui établissent de nombreuses connexions.
Cette méthode peut permettre de bloquer les mauvais robots mais risque tout de même de bloquer les bons robots d'indexation.

Ne pas indexer le duplicata content

Le contenu présent en double pénalise le site internet.
Configurer le bot pour ne pas indexer les pages quand l'url contient le paramètre ?tmpl=component.
Interdire les pages finissant par ?tmpl=component avec la ligne suivante dans le fichier robots.txt :
## Vérifier si il s'agit de la bonne règle, avec ?tmpl=component placé à la fin de l'adresse.
## Que se passe t'il si ?tmpl=component n'est pas placé à la fin de l'adresse ?
## Disallow: /*?tmpl=component
Disallow: /?tmpl=component&type=raw

Exclure des pages de l'indexation

# Ne pas faire apparaître certaines pages dans la page de résultat des moteurs de recherche.
# Disallow: /repertoire/chemin/page.html
# Disallow: /repertoire/chemin/page2.html
# Disallow: /repertoire/chemin/page3.html

Exclure le fichier robots.txt de l'indexation

# Ne pas faire apparaître le fichier robots.txt dans la page de résultats des moteurs de recherche.
Disallow: /robots.txt

Exclure un dossier de l'indexation

# Exclure toutes les pages d'un dossier et les sous-dossiers de l'indexation.
User-Agent: *    
Disallow: /dossier/

Indiquer le chemin du fichier sitemap

Le fichier robots.txt peut être utilisé pour préciser l'emplacement du fichier sitemap.xml si celui-ci n'est pas situé à la racine du site.
Tous les principaux moteurs de recherche prennent en charge le protocole Sitemap Auto-Discovery, notamment Google, Yahoo, Live Search et Ask.
# À ajouter à la fin du fichier robots.txt.
Sitemap: /sitemap.xml
ou
Sitemap: https://www.visionduweb.eu/sitemap.xml

Créer son sitemap

Utiliser un site en ligne

Source : https://www.freesitemapgenerator.com

Utiliser un logiciel

G Mapper : http://g-mapper.co.uk

Utiliser le script Sitemap-e

Sitemap-e
Sitemap-e will generate a basic XML, HTML sitemap and Robots.txt for your website.
COPYRIGHT AND LICENCE
Copyright (C) 2013 Alex Best
This program is free software; you can redistribute it and/or modify it under the same terms as Perl itself.

Script sur Github : https://github.com/thenationofalex/Sitemap-e
Wiki : https://github.com/thenationofalex/Sitemap-e/wiki

###################################
# Installation sur Debian 9 Stretch
Installer perl
Installer avec synaptic : libwww-mechanize-perl // DateTime pour Perl // libio-tee-perl

#############
# Utilisation
# Utiliser le script avec la commande suivante :
perl sitemap-e.pl https://www.domain.com

Patienter. L'écriture dans le fichier sitemap.xml est lente mais le fichier est bien écrit.

Autres scripts crawler pour générer un sitemap.xml

 A tester : https://github.com/Haikson/sitemap-generator
 A tester : https://gist.github.com/fotan/8f8de2728ffa62d5e52bf5d01e80fb36
 A tester : https://sourceforge.net/projects/goog-sitemapgen/
 A tester : http://toncar.cz/opensource/sitemap_gen.html
 A tester : https://pytonsitemapgen.codeplex.com/
 A tester : https://github.com/0xF1/python-sitemap-generator
 A tester : https://sourceforge.net/projects/goog-sitemapgen/files/sitemapgen/1.4/
 A tester (php) : https://www.plop.at/en/xml-sitemap.html
 A tester (php) : https://www.xml-sitemaps.com/standalone-google-sitemap-generator.html

Optimiser un sitemap pour le référencement des images

# Pour chaque adresse URL listée dans un sitemap, il est possible de faire référence jusqu'à 1000 images par page.

 https://support.google.com/webmasters/answer/178636?hl=fr
 http://robots-txt.com/sitemaps/sitemap-images/
 https://www.seomix.fr/sitemap-image-google/

Soumettre votre fichier sitemap.xml aux moteurs de recherche

Utiliser les consoles webmaster spécifiques à chaque moteur de recherche pour faire indexer votre site internet.
Il est préférable que la première inscription soit paramétrée par un humain.

Le fichier sitemap.xml pourra être actualisé automatiquement par la suite.
Utiliser un script pour faire un ping sur chaque moteur de recherche ...
Utiliser une tâche cron pour répéter l'action régulièrement ...

Google

Console webmaster - Google Webmasters : https://www.google.com/webmasters/tools/home?hl=fr

Soumission de sitemap et de mises à jour de sitemap : Depuis les paramètres de configuration du site.

Google accepte la soumission d'un sitemap par un ping de l'URL du sitemap. Il faut faire : http://www.google.com/webmasters/sitemaps/ping?sitemap=https://www.visionduweb.eu/sitemap.xml

En savoir plus sur le rapport de couverture de l'index : https://support.google.com/webmasters/answer/7440203?hl=fr

Bing

Bing Webmaster Center : http://www.bing.com/webmaster/
Toolbox Bing : https://www.bing.com/toolbox/webmaster/

Il faut être inscrit à Windows Live ID : https://account.live.com

Soumission de sitemap et de mises à jour de sitemap : Configurer mon site > Plan du site

Bing accepte la soumission d'un sitemap par un ping de l'URL du sitemap. Il faut faire : http://www.bing.com/webmaster/ping.aspx?siteMap=https://www.visionduweb.eu/sitemap.xml

Yandex

Site officiel : https://yandex.ru

Yandex Webmaster Console : https://webmaster.yandex.com
Soumission de sitemap et mises à jour de sitemap : http://webmaster.yandex.com/addurl.xml
Demande de réindexation : https://webmaster.yandex.com/site/http:assiste.com:80/indexing/reindex/

Yandex accepte la soumission d'un sitemap par un ping de l'URL du sitemap.
Il faut faire : https://webmaster.yandex.com/sitemaptest.xml?addr=https://www.visionduweb.eu/sitemap.xml

Pour détecter les contenus malveillants, Yandex utilise une solution de contrôle intégrant la technologie de Sophos.
Le domaine visionduweb.eu a été considéré comme un site pouvant ralentir la machine du visiteur, du fait de la présence du mineur monero de coinhive, qui a généré un faux positif.
En effet, le mineur ne se lançant pas automatiquement, la mise en liste noire est abusive.

Aide complémentaire pour les Webmaster : https://yandex.com/support/webmaster/?id=1115235

Yahoo

Yahoo Webmaster Center : http://developer.yahoo.com/wsregapp/

Soumission de sitemap et de mises à jour de sitemap : Il faut obtenir d’abord un App Id. Voir les options en ligne de la console.

Yahoo accepte la soumission d'un sitemap par un ping de l'URL du sitemap.
Yahoo ne semble plus accepter la soumission d'un sitemap par un ping de l'URL du sitemap.
Il faut faire : http : // search.yahooapis . com/SiteExplorerService/V1/updateNotification?appid=idapp&url= https://www.visionduweb.eu/sitemap.xml
 A tester avec votre paramètre App ID => appid=votre-yahoo-id
Et votre propre URL vers le sitemap de votre site => &url= https://www.visionduweb.eu/sitemap.xml

Le site semble être soumis à Yahoo lorsqu'il est soumis au moteur Bing.

Moreover

Comme pour le précédent le moteur de recherche moreover.com peut vous apporter quelques visites.
Voici la ligne de commande pour lui soumettre votre fichier sitemap : api . moreover . com/ping?u= https://www.visionduweb.eu/sitemap.xml
Le lien ne fonctionne pas !

Autres moteurs avec soumission par sitemap

Source : https://assiste.com/Webmaster_Soumission_d_un_sitemap.html

Liste de robots

Le robot Googlebot de Google

Googlebot est le robot spécialisé pour la recherche sur le web. Il explore les pages à partir de l'index Web et de l'index des actualités.

Les pages bloquées par disallows avec le fichier robots.txt peuvent toujours figurer dans l'index de Google.
Elles apparaîtrons  dans les résultats de la recherche, en particulier, si d'autres sites ont créés un lien.
Un classement élevé est peu probable puisque le robot de Google n'a pas l'autorisation de visiter cette page.
Pour ne pas ajouter la page à l'index d'un moteur de recherche, même si d'autres sites l'ont liés, utiliser la balise meta name robots noindex.
La page ne doit pas être interdite depuis le fichier robots.txt ce qui permet aux robots de reconnaître la balise meta name robots noindex et de supprimer l'url de l'index.

# Google utilise plusieurs robots (user-agents) différents.
# Les autres robots de Google respectent les règles définies pour Googlebot.
# Autoriser les robots Googlebot mais bloquer l'accès à tous les autres robots.
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /

# Ne pas autoriser les robots Googlebot à visiter le contenu du site.
# Le blocage de Googlebot bloque tous les robots commençant par "Googlebot".
User-agent: Googlebot
Disallow: /

Note sur l'ordre des directives

Le GoogleBot impose de placer les Allow avant les Disallow.
Ce n'est pas forcement le cas pour tout les bots, certains ne comprennent même pas les Allow.
Si vous avez besoin d’être référencé correctement sur un autre bot, il faudra dupliquer et adapter les règles pour le robot concerné.

Autres robots de Google

Des règles supplémentaires peuvent être définies pour les robots spécifiques suivants :

Googlebot : Le spider de crawl et d’indexation pour desktop et mobiles.

Googlebot-Image : Permet de référencer les images dans Google Images.
Googlebot-Mobile : Permet les pages pour mobile.
Googlebot-News	: Pour les sites d’actualités.
Googlebot-Video : Pour configurer l’affichage des vidéos dans la SERP.
Mediapartners-Google : Explore les pages pour déterminer le contenu AdSense, explore uniquement les sites si les annonces AdSense sont diffusées.
Adsbot-Google : Explore pour mesurer la qualité de la page de destination AdWords, explore uniquement les sites qui utilisent Google AdWords pour faire de la publicité.

Le robot bingbot

User-agent: bingbot
Autres règles spécifiques à ce bot.

Autres robots connus

User-Agent: msnbot
User-Agent: AhrefsBot
User-Agent: Baiduspider
User-Agent: MJ12bot
User-Agent: proximic
User-Agent: ScoutJet
User-Agent: Scooter (Alta Vista)
User-Agent: ArchitextSpider (Excite)
User-Agent: Slurp (HotBot)
User-Agent: InfoSeek Sidewinder (InfoSeek)
User-Agent: T-Rex (Lycos)
User-Agent: Echo (Voilà)

Règles de configuration pour un bot

Crawl-delay

Certains sites Web peuvent rencontrer des volumes élevés de trafic et souhaiter ralentir les moteurs de recherche pour disposer de plus de ressources serveur et pouvoir répondre aux demandes du trafic.
Le délai d'exploration est une directive spéciale reconnue par Yahoo, Live Search et Ask qui indique à un robot d'exploration le nombre de secondes d'attente entre les pages d'exploration.

User-agent: msnbot
Crawl-delay: 5

Pattern matching ou correspondance de modèle

À ce stade, la correspondance de modèle semble être utilisable par les trois majors: Google, Yahoo et Live Search.
Bloquer l'accès à tous les sous-répertoires commençant par "private" en utilisant le caractère générique astérisque.
User-agent: Googlebot
Disallow: /private*/

Faire correspondre la fin de la chaîne en utilisant le signe dollar ($). Par exemple, pour bloquer les URL qui se terminent par .asp
User-agent: Googlebot
Disallow: /*.asp$

Bloquer l'accès à toutes les URL qui incluent un point d'interrogation, utiliser simplement le point d'interrogation. Pas besoin de l'échapper ou de le précéder d'une barre oblique inverse.
User-agent: *
Disallow: /*?*

Autoriser les robots à explorer tous les fichiers d'un type spécifique, par exemple, pour les images.
User-agent: *
Allow: /*.js*
Allow: /*.css*
Allow: /*.png*
Allow: /*.jpg*
Allow: /*.gif*

Exclure toutes les URL contenant ? et son paramètre dynamique pour garantir que les robots n'explorent pas les pages dupliquées.
Inclure les URL qui se terminent par un "?".
User-agent: Slurp
Disallow: /*? # Bloquer les url qui contiennent un ?
Allow: /*?$ # Autoriser les url qui finissent par ?

Allow

La directive Allow ne semble être prise en charge que par Google, Yahoo et Ask et permet d'identifier des répertoires ou des pages qui sont autorisés pour l'exploration.
Pour autoriser Googlebot à accéder uniquement au répertoire "google":
# Noter que d'après mes lectures, la directive Allow devrait être placée en première position, suivie par la ou les commandes Disallow.
User-agent: Googlebot
Disallow: /
Allow: /google/

Noindex

Noindex au lieu de Disallow
Généralement, la directive noindex est incluse dans une balise meta robots.
Cependant, Google a pris en charge Noindex pendant de nombreuses années dans Robots.txt, de la même façon qu'un webmaster utiliserait Disallow.
Google autorise donc une directive Noindex dans le fichier robots.txt et supprime complètement toutes les URL de site correspondantes de Google.
John Meuller de Google recommande de ne pas utiliser noindex dans le fichier robots.txt.
User-agent: Googlebot
Disallow: /page-uno/
Noindex: /page-uno/

Conflits entre le fichier robots.txt et la balise meta name robots

Si le fichier robots.txt et les instructions meta tag des robots sont en conflit pour une page, les robots suivent les instructions les plus restrictives.

Si vous bloquez une page avec le fichier robots.txt, les bots ne liront jamais les meta tags de robots sur la page.
Si vous autorisez une page avec le fichier robots.txt mais que vous l'empêchez d'être indexé à l'aide de meta name robots, Googlebot accédera à la page, lira la balise meta et n'indexera pas la page.

Note de Sécurité

Le fichier robots.txt n'est pas un réglage de sécurité.
Il sert uniquement a renseigner les robots d'indexation (googlebot, ...).
Par contre il y a fort à parier que des Bots malveillants liront aussi ce fichiers robots.txt.
Il est donc vivement recommandé de ne pas insérer d'informations trop explicites comme interdire le référencement d'un fichier de mots de passe.

# Astuce pour interdire le référencement d'un fichier sensible.
# Cette ligne interdit l’accès à toutes les adresses commençant par /abcd/fichier_top.
# Elle ne permet pas de découvrir le nom du fichier interdit qui s’appellerait /abcd/fichier_top_secret_dont_le_nom_est_123456.html.
# Permet de ne pas dévoiler les adresses exactes interdites à l’accès en utilisant des adresses longues et en n’indiquant que le début des adresses interdites.
# Disallow: /abcd/fichier_top

Valider la syntaxe du fichier robots.txt

Utiliser un générateur de fichier robots.txt : https://www.internetmarketingninjas.com/seo-tools/robots-txt-generator/
Tester la présence du fichier robots.txt et détecter les erreurs sur le fichier robots.txt : https://seositecheckup.com/tools/robotstxt-test
Les DNS de Cloudflare empêchent la lecture du fichier robots.txt avec Browsershots. Ce n'est donc pas le fichier robots.txt qui est mal renseigné.

Consoles des moteurs de recherche

Console Google

Google Webmaster Central.

Tester le fichier robots.txt dans Google Webmaster Tools : https://www.google.com/webmasters/tools

Il ne vérifie pas si les ressources bloquées sont  cruciales ou non pour votre site.
Utiliser alors l'outil "Explorer comme Google"
Exploration > Outils de test du fichier robots.txt
Google précise sur cette page les fichiers bloqués par votre fichier robots.txt.

Tester si le site est adapté aux mobiles (Mobile Friendly) : https://search.google.com/test/mobile-friendly?utm_source=mft&utm_medium=redirect&utm_campaign=mft-redirect
# Une erreur est affichée :
# Vérifier si le dossier templates est autorisé dans la version de production !
# https://www.domaine.ext/components/com_uddeim/templates/default/css/uddemodule.css	Feuille de style	Googlebot est bloqué par le fichier robots.txt

Google Pagespeed Insights

Google Pagespeed Insight fait une estimation de vitesse de chargement de la page sur mobile.
Site officiel : https://developers.google.com/speed/pagespeed/insights/

Console Live Search

Live Search Webmaster Center.

Console Yahoo

Yahoo Site Explorer.

Ressources complémentaires

 Source : https://www.sitemaps.org/fr
 Source : https://www.yakaferci.com/robotstxt/
 Source : http://www.rankspirit.com/frobots.php
 Source : http://www.yapasdequoi.com/seo/3783-les-petites-subtilites-du-fichier-robots-txt-qui-peuvent-faire-mal.html
 Source : https://craym.eu/tutoriels/referencement/fichier_robot_txt.html
 Source : https://alphadesign.fr/joomla/checklist-seo-pour-joomla-referencement-joomla/robots-txt.html
 Source : http://www.commentcamarche.net/faq/10609-robots-txt-un-fichier-important
 Source : https://www.fred-net.fr/blog/joomla/joomla-et-le-fichier-robots
 Source : http://robots-txt.com
 Source : http://robots-txt.com/ressources/
 Source : http://robots-txt.com/sitemaps/
 Source : https://*oz.com/learn/seo/robotstxt
 Source : http://www.robotstxt.org/robotstxt.html
 Source : https://developers.google.com/search/reference/robots_txt
 Source : https://support.google.com/webmasters/answer/6062608?hl=fr&ref_topic=6061961&rd=1
 Source : http://www.grey-hat-seo.com/manuel-ghs-tools/verifier-presence-fichier-robots-txt-vos-sites
 Source : Le fichier robots.txt pour WordPress : https://wpformation.com/robots-txt-wordpress/
 Source : Bibliographie - Lien vers Vision du web pour le fichier robots.txt : https://fr.wikipedia.org/wiki/Protocole_d%27exclusion_des_robots

Redirections

Redirection 301

# Quand plusieurs URL différentes permettent d'atteindre un site, selon Google, il est préférable d'utiliser 301 Redirect pour cibler vers une seule URL de référence, l'URL préférée (canonique).
# Exemple avec http://visionduweb.fr/forum, http://visionduweb.eu/forum, ou http://www.visionduweb.com/forum, choisir une de ces URL comme la destination préférée (canonique).
# Utiliser une redirection 301 pour envoyer le trafic des autres URL vers l'adresse URL préférée (canonique).
# Utiliser également les outils pour webmasters pour définir le domaine préféré (canonique).

 Créer une redirection 301 : http://www.joomlabc.com/astuces/referencement/332-redirection-301-avec-www-ou-sans

Redirection 307

# La redirection 307 apparait lorsque votre site est configuré pour utiliser HSTS.
https://www.screamingfrog.co.uk/an-seos-guide-to-crawling-hsts/
https://www.screamingfrog.co.uk/seo-spider-8-0/

Cloaking: l'arme absolue du référencement ?

Réussir son cloaking nécessite une bonne connaissance des moteurs de recherche, des robots, de leurs user-agents et adresses IP.
Voir aussi à utiliser les wild-cards.
Le traitement de logs.

Scripts pour le SEO

Scripts SEO : http://scripts-seo.com

Éviter le déclassement de son site

Les frames - Les liens brisés - Les liens issus d'une programmation en JavaScript. 
Les images avec une zone cliquable.
Les images ou animation flash.
Les zones en travaux.

Toutes les techniques de fraude comme la répétition de mots-clés cachés, appelées spamdexing, sont connues des moteurs de recherche.
Les sites qui utilisent cette astuce sont généralement déclassés dans les résultats ou mis sur une liste noire.

Utilisation des métadonnées Dublin Core pour l'optimisation des moteurs de recherche

Source : http://www.criticism.com/seo/dublin-core-metadata.php
Source : https://seo-hacker.com/happened-dublin-core-seo-factor/

Les 10 derniers articles sur le SEO depuis le site WebRankInfo

<rss template="MediaWiki:Rss-feed" max="10" highlight="SEO">https://www.webrankinfo.com/dossiers/feed?format=feed</rss>

Bibliographie

  Envoyer automatiquement son sitemap a Google Yahoo et Bing après une mise à jour : https://supersonique.net/pu/comment-envoyer-automatiquement-son-sitemap-a-google-yahoo-et-bing-apres-une-maj/
 Webmaster Soumission d'un sitemap : http://assiste.com/Webmaster_Soumission_d_un_sitemap.html

Tutoriels complémentaires

 Critères les plus importants dans le SEO selon 140 référenceurs : http://www.journaldunet.com/solutions/seo-referencement/1195455-seo-les-criteres-les-plus-importants-selon-140-referenceurs/
 SEO pour votre site, sur Google : http://www.commentcamarche.net/contents/1267-referencement-naturel-seo-guide-pratique-complet
 Les 50 meilleurs outils SEO gratuits : https://www.drujokweb.fr/blog/les-meilleurs-outils-webmarketing-et-outils-seo-gratuits/
 Introduction au SEO : 20 conseils pour réussir son référencement : https://www.abondance.com/introduction-au-referencement-seo
 30 problèmes SEO et les outils pour corriger : https://*oz.com/blog/30-seo-problems-the-tools-to-solve-them-part-1-of-2
 30 problèmes SEO et les outils pour corriger : https://*oz.com/blog/30-seo-problems-the-tools-to-solve-them-part-2
 Comment faire un maillage interne de liens efficace : https://www.410-gone.fr/seo/optimisation-on-site/maillage-interne.html
 Les outils du consultant SEO à la loupe : https://www.xavierdeloffre.com/referencement/outils-du-consultant-referenceur
 Comment éviter le duplicate content interne : https://www.410-gone.fr/seo/optimisation-on-site/duplicate-content.html
 Le SEO est mort, vive le SEO : https://www.abondance.com/actualites/20180306-19015-seo-mort-video-seo.html
 Autres lectures sur le SEO : https://www.redacteur.com/blog/10-conseils-pour-rediger-du-contenu-seo/
 Qu'est ce que la longue traîne : https://www.410-gone.fr/seo/optimisation-on-site/longue-traine.html
 Des outils SEO pour améliorer votre référencement naturel : http://www.eskimoz.fr/outil-seo/
 Tous les outils de Laurent Bourrelly : http://www.laurentbourrelly.com/outils-seo.php
 SEO Wordpress vs Joomla : https://www.itdwebdesign.com/blog/wordpress-vs-joomla-seo

NAVIGATION

PARTICIPER ET PARTAGER

Bienvenue sur le wiki de DIDAQUEST.
De nombreuses pages sont partagées sur ce wiki.
Créer un compte utilisateur pour participer sur ce wiki.
Les pages présentées sur le wiki évoluent tous les jours.
Certaines recherches sont peu abouties et incluent des erreurs.
Utiliser la recherche interne de ce wiki pour trouver votre contenu.
La page de discussion de Didaquest vous permet de poser une question.
Utiliser la recherche interne du site pour chercher dans tout le contenu.
Ce contenu ne doit pas servir à nuire à autrui ou à un système informatique.
Protéger votre système Linux ou Windows en lisant la page dédié à la sécurité.
Améliorer le contenu des pages avec vos propositions depuis l'onglet discussion.

SOUTENIR CE WIKI

Soutenir le wiki avec un don en EDUTOKEN ou avec une autre monnaie numérique :
AEON - Bitcoins - Bitcoins Cash - Bitcoins Gold - Bitcore - Blackcoins - Basic Attention Token - Bytecoins - Clams - Dash - Monero - Dogecoins - Ğ1 - Ethereum - Ethereum Classique - Litecoins - Potcoins - Solarcoins - Zcash

OBTENIR DE LA MONNAIE NUMERIQUE

Obtenir gratuitement de la monnaie numérique :
Gagner des Altcoins - Miner des Altcoins.

Accueil SEO

Accueil SEO

Identifier les références qui contiennent notre nom de domaine

Désavouer des liens entrants

Outils de Référencement et de SEO gratuits

Google My Business

GHSTools

Liens officiels

Complément

API Scraper GHSTools

Gtmetrix

Webrankinfo

Yooda

Majestic

SEO Tools pour Excel

Quicksprout

Website Penality Indicator

Answer the public

Broken Link Check

Check My Link extension pour Chrome

Email auto extractor

Extracteur de liens

Campagne de mail avec Google Sheets et Gmail

MobiReady

Similar Content Prospecting Tool

Screamingfrog

Gephi

Extraire les données d'un site avec Javascript

Importer du contenu et des images

Ouvrir plusieurs URL en une fois

SeeTheStats

Scrapebox

SerendeputyBot

Seo-systeme

Statistiques de fréquentation

CrawlTrack

Outils de Référencement et de SEO payants

Alexa

moz

Semrush

Bloquer le robot de Semrush avec le fichier robots.txt

Bloquer avec PHP et HTTP_USER_AGENT

Les ip probables de SemRush

Bloquer Semrush avec Bad Blocker

Connaître le nombre de Backlinks

Urltrends

Monitorbacklinks

Analyser les erreurs d'un site

SEO Site Checkup

Analyser les liens brisés

Outils en ligne

Outils

Méthodes

Scraping Spinning Morphing

Obfuscation

Black Hat SEO

User agent cloaking

Contenus cachés

Keyword stuffing

Contenu détourné et Duplicate content

Redirections trompeuses

Achat de liens dofollow ou échange de liens excessifs

Pirater un autre site web pour utiliser sa notoriété, son trafic

Autres techniques Black SEO

Conséquences

Les moteurs de recherche luttent contre les Black Hats SEO

White Hat SEO

Les balises meta

Indexation avec les robots

Un duo pour optimiser votre indexation

Fonctionnement d'un moteur de recherche

Utiliser la balise meta name robots avec le fichier robots.txt

La balise meta name robots

Protéger un contenu de données sensibles

Le fichier ads.txt

Le fichier humans.txt

Le fichier robots.txt

La directive User-Agent

Autoriser l'indexation de votre site par les robots

Interdire l'indexation de votre site par les robots