Hoe voorkom je indexering in Google?

Het de-indexeren van pagina’s kan om verschillende redenen belangrijk zijn: van het beschermen van gevoelige informatie tot het behouden van een schone en relevante zoekresultatenpagina. Er zijn verschillende methoden om indexering te voorkomen, elk met zijn eigen voor- en nadelen. In deze blog komen we terug op de vier meest gebruikte methoden besproken: de X-Robots-Tag, de Robots Meta Tag, het robots.txt-bestand en wachtwoordbeveiliging. Daarnaast leggen we uit hoe je kunt controleren of een pagina juist is ingesteld om niet te worden geïndexeerd en wat je kunt doen als een pagina toch per ongeluk in de zoekresultaten is verschenen.

 

1. X-Robots-Tag

De X-Robots-Tag is, naast het daadwerkelijk blokkeren van content (bijvoorbeeld door een wachtwoord), de veiligste manier om je pagina’s niet te laten indexeren. Dit is wel één van de lastigere. Hiervoor is server toegang nodig om daar de tag te plaatsen. Dit kan bijvoorbeeld geplaatst worden in het .htaccess bestand voor Apache of in de NGINX configuratie. Dit werkt op alle type bestanden, zoals HTML maar ook bijvoorbeeld PDF en Word.

Voorbeeld:
X-Robots-Tag: noindex

 

2. Robots Meta Tag

De robots meta tag betreft een HMTL element welke in de <head> van een website wordt geplaatst. Dit wordt door de meeste Content Management Systemen ondersteund maar is ook erg eenvoudig om toe te voegen bij maatwerk websites. Dit betreft dezelfde instructie als die ‘X-Robots-Tag’ geeft aan de crawler. Dit is een gemakkelijkere en beter ondersteunde manier dan X-Robots-tag. Dit is alleen mogelijk om toe te voegen aan HTML.

Voorbeeld:

<meta name=”robots” content=”noindex”>

 

3. Robots.txt

Middels een robots.txt bestand kan je zoekmachines en crawlers instructies geven over hoe ze de website mogen crawlen. Hierin kan o.a. worden aangegeven dat de  User-Agent (bijvoorbeeld Google) niet bepaalde admin pagina’s mag crawlen en indexeren. Ook kan je daarmee aangeven dat bepaalde URL’s niet relevant zijn voor Google. Hierdoor heeft Google meer tijd voor relevante pagina’s om te crawlen. Vaak is de robots.txt de makkelijkste optie en is in z.g.a. alle platformen standaard mogelijk. Het grote nadeel van het inzetten van robots.txt om indexering te voorkomen is dat er geen garantie is dat er niet geindexeerd wordt.

Voorbeeld:

User-agent: *
Disallow: /admin/
Disallow: */feed/
Sitemap: https://www.example.com/sitemap.xml

 

4. Wachtwoord bescherming

Pagina’s binnen je website kunnen ook worden beschermd middels een wachtwoord. Veel Content Management Systemen (zoals WordPress) ondersteunen dit standaard. Maar ook bij maatwerk systemen is dit vaak vrij eenvoudig te realiseren. Hiermee voorkom je dat zoekmachines je pagina uberhaupt niet kunnen openen. Deze worden dan ook niet geindexeerd.

 

Hoe controleer je of de pagina wel of niet geindexeerd mag worden?

Na je wijzigingen is het belangrijk om te controleren of dit goed staat. Soms kan, door bijvoorbeeld foutieve instellingen, of caching, het gebeuren dat de instellingen nog niet juist doorkomen. Middels Google Search Console kan het controleren of je pagina door Google geindexeerd mag worden. Binnen Search Console kan je de URL in de bovenste zoekbalk invoeren. Daar komt een reactie uit met bijvoorbeeld de onderstaande tekst.

Voorbeeld:
Page is not indexed: Excluded by ‘noindex’ tag
Indexing allowed? No: ‘noindex’ detected in ‘robots’ meta tag

 

Hoe zorg je ervoor dat een URL uit de zoekresultaten wordt gehaald?

Het kan gebeuren dat een pagina per ongeluk is geindexeerd of nu pas uit de zoekresultaten verwijderd moet worden. Na verloop van tijd worden de meeste pagina’s weer opnieuw uitgelezen. Wanneer Google dan de no-index tag leest wordt het resultaat vanzelf verwijderd. Hier kunnen echter dagen tot maanden over heen gaan. Gelukkig heeft Google daar een handmatige tool voor binnen Search Console. Deze tool heet ‘Removals’ en is in het zij-menu te vinden. Daarmee is het meestal met een dag verwerkt.

Het correct beheren van de indexering van je webpagina’s is essentieel om controle te houden over de inhoud die online zichtbaar is voor zoekmachines en gebruikers. Of je nu kiest voor de X-Robots-Tag, de Robots Meta Tag, een robots.txt-bestand of wachtwoordbescherming, elke methode heeft zijn eigen toepassingen en beperkingen. Het is belangrijk om te overwegen welke optie het beste past bij je specifieke situatie en technisch inzicht. Bovendien is het cruciaal om na implementatie regelmatig te controleren of de instellingen correct werken, bijvoorbeeld via Google Search Console. Hiermee voorkom je ongewenste (de-)indexering.

Contact

Vul het contactformulier in en wij nemen zo snel mogelijk contact op.