Skip links
Robots.txt

Wat is Robots.txt? En hoe kan je het toepassen?

Wat is Robots.txt

Robots.txt is een tekstbestand dat webmasters maken om webrobots te instrueren hoe pagina’s op hun website moeten worden gecrawld. Zo kan je dus voorkomen dat bepaalde content geïndexeerd wordt en in niet specifieke zoekmachines voorkomen. Een groot deel van SEO gaat over het sturen van de juiste signalen naar zoekmachines, en de robots.txt is een van de manieren om uw crawlvoorkeuren door te geven aan zoekmachines.

Het robots.txt-bestand maakt deel uit van het robots-exclusieprotocol (REP), een groep webstandaarden die regelen hoe robots het web moeten crawlen, inhoud openen, indexeren en die inhoud aan gebruikers moeten aanbieden. De REP bevat ook richtlijnen zoals metarobots , evenals pagina-, subdirectory- of site-brede instructies voor hoe zoekmachines links moeten behandelen (zoals “follow” of “nofollow”).

In de praktijk geven robots.txt -bestanden aan of bepaalde user agents (webcrawlsoftware) wel of niet delen van een website kunnen crawlen. Deze crawl-instructies worden gespecificeerd door het gedrag van bepaalde (of alle) user-agents “niet toe te staan” of “toe te staan”.

Als er geen robots.txt-bestand aanwezig is of als er geen toepasselijke richtlijnen zijn, zullen zoekmachines de hele website doorzoeken.

Hoewel alle grote zoekmachines het robots.txt-bestand respecteren, kunnen zoekmachines ervoor kiezen om (delen van) uw robots.txt-bestand te negeren. Hoewel richtlijnen in het robots.txt-bestand een sterk signaal zijn voor zoekmachines, is het belangrijk om te onthouden dat het robots.txt-bestand een reeks optionele richtlijnen voor zoekmachines is in plaats van een mandaat. 

Waarom zou je de robots.txt niet mogen vergeten?

De robots.txt speelt een essentiële rol vanuit SEO-oogpunt. Het vertelt zoekmachines hoe ze uw website het beste kunnen crawlen.

Met behulp van het robots.txt-bestand kunt u voorkomen dat zoekmachines toegang krijgen tot bepaalde delen van uw website, duplicate content helpen voorkomen en geeft het zoekmachines handige tips hoe ze de website zo efficiënt mogelijk kunnen crawlen. Je wilt natuurlijk de beperkte tijd van een zoekmachine crawler zo goed mogelijk benutten!

Wees echter voorzichtig wanneer u wijzigingen aanbrengt in uw robots.txt. Dit bestand kan ook grote delen van uw website ook ontoegankelijk maken voor zoekmachines wanneer incorrect gebruikt.

Beperkt crawlbudget 

Op bijvoorbeeld een Ecommerce website kunnen bezoekers een filter gebruiken om snel door de producten te zoeken. Dit filter genereert erg veel pagina’s die in principe zo goed als dezelfde inhoud tonen als andere pagina’s ( voorbeeld: /tafels/zwart/klassiek vs /tafels/klassiek/zwart/ ) . Dit werkt geweldig voor bezoekers, maar verwart zoekmachines omdat het dubbele content creëert . Zo zullen bezoekers ook pagina’s bezoeken die helemaal niet interessant zijn om te indexeren in de zoekresultaten. Denk aan uw winkelwagenlinks, verlanglijstlinks, beheerdersaanmeldingspagina’s, uw ontwikkelsite of testlinks of andere content.

U wilt niet dat zoekmachines hun kostbare tijd verspillen aan deze URL’s met gefilterde en persoonlijke inhoud. Daarom moet u Disallow regels instellen zodat zoekmachines deze gefilterde productpagina’s niet openen. Zonder een robots.txt-bestand is uw e-commercewebsite volledig open en crawlbaar, wat als een goede zaak klinkt. Maar het gebruik van bandbreedte voor irrelevante en verouderde content kan juist ten koste gaan van het crawlen en indexeren van belangrijke en waardevolle pagina’s. Mogelijk hebt u zelfs enkele belangrijke pagina’s die volledig worden overgeslagen.  Het is belangrijk om te onthouden dat elke website een “crawlbudget” heeft, een beperkt aantal pagina’s dat in een crawl kan worden opgenomen. U wilt er zeker van zijn dat uw belangrijkste pagina’s worden geïndexeerd en dat u uw crawl niet verspilt met tijdelijke bestanden.

Wil je meer omzet & verkeer uit zoekmachines als Google & Youtube halen?

Neem contact op
GRP-Digital

Hoe zit een robots.txt in elkaar?

Een voorbeeld van hoe een eenvoudig robots.txt-bestand eruit kan zijn bij een WordPress-website:

User-agent: *
Disallow: /wp-admin/
  • User-agent: dit geeft aan voor welke zoekmachines de richtlijnen die volgen bedoeld zijn.
  • *: dit geeft aan dat de richtlijnen bedoeld zijn voor alle zoekmachines.
  • Disallow: dit is een richtlijn die aangeeft welke content niet toegankelijk is voor de user-agent.
  • /wp-admin/: dit is de URL pad die niet toegankelijk is voor de user-agent.dit
De belangrijkste componenten van een robots.txt kunnen we onderverdelen in:
  1. User-agent
  2. Disallow
  3. Allow
  4. Sitemap

1. User agent

Elke zoekmachine moet zichzelf identificeren met een user-agent. De robots van Google identificeren zich o.a. als Googlebot, Googlebot-image (afbeelding crawler) en AdsBot-Google (Google Ads). De robot van Bing is daarbij BingBot, Baide als Baiduspider en enzovoort enzovoort.. Voor een complete lijst zie hier.

Het user-agentrecord definieert het begin van een groep richtlijnen. Alle richtlijnen tussen het eerste user-agent en het volgende user-agent record worden behandeld als richtlijnen voor het eerste user-agent.

Richtlijnen kunnen van toepassing zijn op specifieke user-agents, maar ze kunnen ook van toepassing zijn op alle user-agents. In dat geval wordt een wildcard gebruikt: User-agent: *. n een robots.txt-bestand met meerdere user-agent-richtlijnen is elke regel voor niet-toestaan of toestaan alleen van toepassing op de useragent(s) die zijn opgegeven in die specifieke, door regeleinde gescheiden set. Als het bestand een regel bevat die van toepassing is op meer dan één user-agent , zal een crawler alleen aandacht besteden aan (en de richtlijnen volgen in) de meest specifieke groep instructies.

2. Disallow

U kunt de opdracht “Disallow:” gebruiken om afzonderlijke bestanden en mappen te blokkeren. U plaatst eenvoudig een aparte regel voor elk bestand of elke map die u niet wilt toestaan.

User-agent: *
Disallow: /wp-admin/
Disallow: /media/
Disallow: /hidden/file.html

Als je slechts één specifieke bot wilt blokkeren voor crawlen, doe je het als volgt:

User-agent: Bingbot
Disallow: /

 

User-agent: *

Disallow:

Dit blokkeert de zoekmachine-bot van Bing om uw site te crawlen, maar andere bots mogen alles crawlen. U kunt hetzelfde doen met Googlebot met behulp van “User-agent: Googlebot”. U kunt ook voorkomen dat specifieke bots toegang krijgen tot specifieke bestanden en mappen.

3. Allow

De allow richtlijn wordt gebruikt om een disallow tegen te werken. De Allow richtlijn wordt ondersteund door Google en Bing. Door de richtlijnen Allow en Disallows amen te gebruiken, kunt u zoekmachines vertellen dat ze toegang hebben tot een specifiek bestand of een specifieke pagina in een map die anders niet is toegestaan. De Allow richtlijn wordt gevolgd door de URL pad die kan worden geraadpleegd. 

User-agent: *
Allow: /media/aankoopvoorwaarden.pdf
Disallow: /wp-admin/
Disallow: /media/
Disallow: /hidden/file.html

4. Sitemap

Hoewel het robots.txt-bestand is uitgevonden om zoekmachines te vertellen welke pagina’s niet moeten worden gecrawld , kan het robots.txt-bestand ook worden gebruikt om zoekmachines naar de XML-sitemap te verwijzen . 

Er moet naar de XML-sitemap worden verwezen als een absolute URL. De URL hoeft niet op dezelfde host te staan als het robots.txt-bestand.

Het verwijzen naar de XML-sitemap in het robots.txt-bestand is een van de best practices die ik u aanraad altijd te doen. Ook al heeft u uw XML-sitemap mogelijk al ingediend in Google Search Console of Bing Webmaster Tools. 

Houd er rekening mee dat het mogelijk is om naar meerdere XML-sitemaps te verwijzen in een robots.txt-bestand.

User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.voorbeeld.com/sitemap1.xml
Sitemap: https://www.voorbeeld.com/sitemap2.xml

Waar moet ik de robots.txt plaatsen?

Het robots.txt-bestand moet zich altijd in de root van uw domein bevinden. Dus als uw domein is www.example.com, zou de crawler het moeten vinden op: 

https://www.voorbeeld.com/robots.txt

Het is ook essentieel dat uw robots.txt-bestand robots.txt heet. De naam is hoofdlettergevoelig, dus zorg ervoor dat u dat goed doet, anders werkt het niet.

Robots.txt best practices voor SEO

Zorg ervoor dat u geen inhoud of delen van uw website blokkeert die u wilt laten crawlen.

Links op pagina’s die zijn geblokkeerd door robots.txt worden niet gevolgd. Dit betekent:

1. Tenzij ze ook zijn gelinkt vanaf andere voor zoekmachines toegankelijke pagina’s (dwz pagina’s die niet zijn geblokkeerd via robots.txt, metarobots of anderszins), worden de gekoppelde bronnen niet gecrawld en mogen ze niet worden geïndexeerd.

2. Er kan geen link waarde worden doorgegeven van de geblokkeerde pagina naar de bestemming van de link. Als u pagina’s heeft waarnaar u equity wilt laten gaan, gebruik dan een ander blokkeringsmechanisme dan robots.txt.

Gebruik robots.txt niet om te voorkomen dat gevoelige gegevens (zoals persoonlijke gebruikersinformatie) in SERP-resultaten verschijnen. Omdat andere pagina’s rechtstreeks kunnen linken naar de pagina met privé-informatie (waardoor de robots.txt-richtlijnen op uw hoofddomein of startpagina worden omzeild), kan deze toch worden geïndexeerd. Als je je pagina wilt blokkeren voor zoekresultaten, gebruik dan een andere methode, zoals wachtwoordbeveiliging of de noindex- meta-instructie. Dit geeft Google ook zelf aan op deze pagina.

Sommige zoekmachines hebben meerdere user-agents. Google gebruikt bijvoorbeeld Googlebot voor organisch zoeken, Googlebot-Image voor het zoeken naar afbeeldingen en Google AdSense Ads crawler voor betaalde advertenties. De meeste user agents van dezelfde zoekmachine volgen dezelfde regels, dus het is niet nodig om richtlijnen op te geven voor elk van de meerdere crawlers van een zoekmachine, maar als u de mogelijkheid heeft om dit te doen, kunt u nauwkeurig afstemmen hoe uw site-inhoud wordt gecrawld.

Een zoekmachine slaat de robots.txt-inhoud op in de cache, maar werkt de inhoud in de cache meestal minstens één keer per dag bij. Als u het bestand wijzigt en het sneller wilt bijwerken dan gebeurt, kunt u via de Robots testing tool aangeven. 

Blijf up-to-date binnen het SEO landschap

Het SEO landschap is altijd in ontwikkeling. Om het laatste nieuws op het gebied van SEO te leren adviseer ik om mijn blog te volgen of bekende SEO websites raad te plegen als:

Heb je een vraag?  Neem dan gerust contact met me op.

Leave a comment

This website uses cookies to improve your web experience.