Robots.txt bestand in de root plaatsen
Dit bestand moet geplaatst worden in het bovenste niveau van uw server ruimte (in dezelfde directory als waar uw index.html bestand staat). U zult dus bij uw provider moeten nagaan of u hier gebruik van kunt maken. Over het algemeen kan dit bij gratis websites niet. Websites die ondergebracht zijn bij hosting bedrijven hebben deze mogelijkheid wel.
Hoe werkt robots.txt
Wanneer u gebruik kunt maken van het robots.txt bestand geeft dit u meer controle over welke delen van uw site uitgesloten worden voor bezoekjes van de spider wanneer deze uw site binnenkomt. De beste manier om de opmaak van het robots.txt bestand te laten zien is met behulp van een voorbeeld:
Om alle robots van de server te weren: User-agent: * Disallow: /
Om alle robots volledige toegang te geven: User-agent: * Disallow:
Om alle robots te weren van delen van de server: User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /prive-documenten/
Om één specifieke robot te weren: User-agent: NietWelkomeRobotNaam Disallow: /
Waarom robots.txt gebruiken
Het bestand is redelijk rechttoe rechtaan. U slaat het gewoon op als robots.txt. Geloof het of niet, maar soms wilt u niet dat een robot een pagina bezoekt. Misschien bent u een nieuwe website aan het bouwen voor een klant, en u wilt niet dat deze geindexeerd wordt voordat u klaar bent. U heeft misschien een website of artikel waarvan de pagina's in een bepaalde volgorde bekeken moeten worden, en daarom wilt u alleen de eerste pagina van de reeks geindexeerd hebben. Misschien heeft u wat informatie op het web staan die u prive wilt houden voor eigen gebruik. Of misschien is een op hol geslagen en slecht functionerende spider zo hard bij u op de deur aan het bonzen dat uw server er onder lijdt en overbelast raakt. Een andere mogelijkheid is dat u een website hebt die intensief gebruik maakt van frames en u wilt geen frames geindexeerd hebben die slechts een rand o.i.d. vormen. En zo kan ik nog wel even doorgaan.
Wat ook de reden mag zijn, er zijn momenten waarop u niet wilt dat een spider bepaalde pagina's indexeert. Voor dit doel is het robots.txt bestand uw beste verdediging. Het is een eenvoudig klein bestandje, en het vergt slecht een paar minuten om er een te maken. Dus als één van de bovenstaande situaties op u van toepassing is, kies dan voor het robots.txt bestand in plaats van de Robots Meta Tag. Deze laatste wordt namelijk door de meeste spiders genegeerd.