Robots.txt is een eenvoudig tekstbestand dat webbeheerders gebruiken om te communiceren met zoekmachine crawlers en andere webrobots. Het geeft aan welke pagina’s op hun site niet mogen worden gecrawld of geïndexeerd. Het bestand wordt geplaatst in de rootdirectory van een website en geeft aan welke delen van de site open zijn voor crawlers en welke moeten worden vermeden. Het is een manier voor webmasters om bepaalde delen van hun site af te schermen van zoekmachines.
Hoe werkt robots.txt?
- Basisstructuur: Het bestand bevat specifieke instructies voor crawlers, meestal geformuleerd met de termen “User-agent” en “Disallow”. “User-agent” identificeert een specifieke webcrawler (bijv. Googlebot voor Google) en “Disallow” geeft de paden of URL’s aan die niet mogen worden gecrawld. Als er bijvoorbeeld geen pagina’s zijn die moeten worden uitgesloten van crawlen, ziet het bestand er als volgt uit:
User-agent: *
Disallow:
Hierbij staat de asterisk (*) voor alle webrobots en “Disallow” zonder een pad betekent dat alles mag worden gecrawld.
- Uitsluiting van specifieke paden: Als een webmaster specifieke delen van zijn website wil uitsluiten van crawlers, kan hij die paden opnemen na het “Disallow” commando. Bijvoorbeeld:
User-agent: *
Disallow: /privé/
Disallow: /test/
Dit zou betekenen dat alle mappen en pagina’s die beginnen met “/privé/” en “/test/” niet mogen worden gecrawld door robots.
- Specifieke crawlers aanspreken: Het is ook mogelijk om verschillende regels op te stellen voor verschillende crawlers. Bijvoorbeeld:
User-agent: Googlebot
Disallow: /privé/User–agent: Bingbot
Disallow: /test/
Waarom is robots.txt belangrijk?
- Beheersing van zoekmachine-indexering: Met robots.txt kunnen webmasters voorkomen dat bepaalde pagina’s verschijnen in zoekresultaten. Dit is handig voor pagina’s die bijvoorbeeld in ontwikkeling zijn, privé-inhoud bevatten of duplicaten zijn van andere pagina’s.
- Serverbelasting verminderen: Door crawlers te vertellen welke delen van een site ze moeten vermijden, kunnen webmasters serverbronnen besparen. Sommige webcrawlers kunnen veel verzoeken in een korte tijd genereren, wat kan leiden tot een trage website of zelfs downtime.
- Vermijden van duplicate content: Als er meerdere versies van een pagina zijn (bijvoorbeeld een printversie en een webversie), kan dit leiden tot problemen met duplicate content in zoekmachines. Met robots.txt kunnen webmasters bepaalde versies uitsluiten van indexering.
Het is cruciaal om voorzichtig te zijn bij het opstellen van het robots.txt-bestand. Een verkeerde instructie kan ervoor zorgen dat een hele website niet wordt geïndexeerd door zoekmachines. Het is altijd een goed idee om wijzigingen in robots.txt grondig te testen en te controleren hoe zoekmachines reageren.