CONTACT

AI-crawlers: zorg dat je website vindbaar is

Door Tim Rooza op 14 mei 2025

Naast Google zijn er nu ‘AI tools’ zoals ChatGPT, Claude, Perplexity en Gemini die de manier waarop mensen online informatie vinden flink gaan veranderen. Ze crawlen en indexeren je website op hun eigen manier. Ik probeer in dit blog op een rijtje te zetten hoe je (technisch gezien) je website kan optimaliseren om deze AI-systemen je content te laten verwerken.

Hoe belangrijk is “traditionele” SEO nog?

Traditionele SEO is nog steeds zeer belangrijk en gaat je ook helpen om vaker in de AI-tools voor te komen. Met “tradionele SEO” bedoel ik in dit geval:

  • Een duidelijke structuur (kopteksten, tussenkopjes) in je teksten
  • Goede (interne) linkstructuur, met goede anchorteksten
  • kwalitatieve, unieke content
  • Goede technische basis (snelheid, uptime, structured data, geen belangrijke content in javascript)

SEO strategie voor AI

Je SEO strategie zal je wellicht wel moeten aanpassen. Zeker met de komst van AI overview in Google (wat “as we speak” wordt uitgerold in Nederland). We zijn altijd groot fan geweest van de skyscraper techniek. Die techniek betekent eigenlijk dat je de beste informatie biedt over een onderwerp, en daarmee dan hoog scoort in de zoekmachine.

AI overviews & SEO strategie

Google introduceert nu “AI overviews” binnen de zoekresultaten. Dit houdt in dat Google zelf een antwoord (AI gegenereerd) toont wat relevant is voor de zoekopdracht. Wat de exacte consequentie wordt van AI overviews is nog onduidelijk, aangezien de uitrol daarvan nog bezig is. Maar het lijkt logisch dat het dan niet meer “nodig” is (uit SEO oogpunt) om zelf content te produceren. Tenminste niet voor redelijk algemene informatieve onderwerpen.

Dat ligt anders voor “actiegerichte” zoektermen. Mijn inziens zou je content strategie straks moeten verschuiven van informatieve uitgebreide content, naar conversiegerichte pagina’s. Dan bedoel ik bijvoorbeeld niet meer 1 informatief artikel over “online marketing” schrijven, maar vele conversiegerichte pagina’s die specifieke diensten uitlichten.

Je website voorbereiden op de AI-crawlers

Elk AI-platform gebruikt eigen webcrawlers met eigen taken. Dit zijn de belangrijkste types:

1. Trainingsbots

Deze crawlers verzamelen data om de AI-modellen te trainen:

  • GPTBot (OpenAI): GPTBot/1.1
  • ClaudeBot (Anthropic): ClaudeBot/1.0
  • Google-Extended: Controleert of content gebruikt mag worden voor Gemini

2. Zoekindexeringsbots

Deze bots indexeren content voor de zoekfuncties van de AI:

  • OAI-SearchBot (OpenAI): OAI-SearchBot/1.0
  • Claude-SearchBot (Anthropic): Claude-SearchBot of claude-web/1.0
  • PerplexityBot: PerplexityBot/1.0

3. Real-time fetchingbots

Deze bots halen pagina’s op tijdens gebruikerssessies:

  • ChatGPT-User (OpenAI): ChatGPT-User/1.0 of ChatGPT-User/2.0
  • Claude-User (Anthropic)
  • Perplexity-User: Perplexity-User/1.0 (belangrijk: negeert robots.txt)

Elk platform hanteert dus doorgaans drie typen bots: 1 voor training, 1 voor indexering, en 1 voor real-time interacties.

LET OP: al deze bots verwerken beperkt (of helemaal geen) javascript. Zorg dus dat al je belangrijke content in de broncode van je pagina staat en voorkom:

  • Structured data (JSON-LD) via Google Tag Manager (zet het direct in de pagina)
  • Pagina’s die de content via AJAX (javascript) laden
  • Dynamische onderdelen die pas na pagina-load verschijnen

Robots.txt en de AI crawlers

Nu we weten welke bots de platforms gebruiken, kunnen we op de website via onze robots.txt aangeven welke bots gewenst, en ongewenst zijn.
In het voorbeeld hieronder voorkomen we dat de content wordt gebruikt als trainingsdata, maar laten we de AI-zoekmachines wel toe:


# Toelaten AI-zoekmachines
User-agent: OAI-SearchBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
# Blokkeren AI-trainingscrawlers (indien gewenst)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /


Belangrijk in je robots.txt:

  • In het bovenstaande voorbeeld blokkeer ik de website voor training van de modellen, maar ik zou adviseren dit altijd gewoon wél toe te staan.
  • Blokkeer Bingbot of Googlebot NIET, tenzij je ook in reguliere search onzichtbaar wilt zijn
  • Gebruik sitemaps in robots.txt: Sitemap: https://www.jewebsite.com/sitemap.xml

Testen of je URL toegankelijk is

We hebben een tool gemaakt waar je zelf kan zien of je website goed benaderbaar* is voor de verschillende bots. Test het zelf hier: https://tools.dofollow.nl/urltest/

  • Maak je gebruik van Cloudflare of vergelijkbare software voor je website/webhosting? Wees dan vooral op je hoede. De crawlers kunnen nogal agressief, veel en vaak langskomen en daardoor snel automatisch geblokkeerd worden. Bovenstaande tool kan dit ook niet checken.

Het belang van je rankings in Google en Bing

De AI-platforms bouwen niet allemaal van nul af aan hun eigen index op. Zo gebruikt chatGPT de Bing zoekmachine en Gemini (AI overviews) gebruikt de bestaande Google index. Goede zichtbaarheid in Google en Bing blijft dus voorlopig de basis. Lees ook het artikel en de tips van Nino op https://dofollow.nl/inspelen-op-veranderingen-in-online-zoekgedrag/

Structured data / Schema

Je kent structured data (vaak in JSON-LD formaat) waarschijnlijk al vanuit traditionele SEO. Het helpt Google om de content op je pagina beter te begrijpen, wat kan leiden tot rich snippets in de zoekresultaten. Maar hoe zit dat met deze AI-crawlers?

  • Indirecte invloed: AI-platforms zoals Gemini en ChatGPT die leunen op de Google- en Bing-index, profiteren indirect van structured data. Als Google jouw FAQ-pagina dankzij schema markup goed begrijpt en als featured snippet toont, is de kans groter dat Gemini die informatie ook als relevant beschouwt voor een AI overview.

Kortom: blijf structured data implementeren waar relevant. Het verbetert je zichtbaarheid in traditionele search en (waarschijnlijk AI overviews), en kan indirect AI-zoekmachines context geven. Verwacht echter geen “ranking boost” in AI-platforms puur door schema markup.

LLMS.txt

Naast robots.txt en sitemaps is er een nieuwer, nog experimenteel concept: llms.txt.

llms.txt is een voorgesteld protocol (nog geen officiële standaard!) om website-eigenaren meer controle te geven over hoe Large Language Models (LLMs) hun content gebruiken. Het idee is dat je in dit bestand specifieke instructies kunt geven die verder gaan dan de simpele Allow/Disallow van robots.txt. Je zou bijvoorbeeld kunnen aangeven welke delen van je site wel of niet voor training gebruikt mogen worden, of hoe content geciteerd moet worden.

Huidige status: Op dit moment (mei 2025) is llms.txt nog een voorstel. Grote spelers zoals OpenAI, Google en Anthropic hebben nog geen ondersteuning aangekondigd. En server-logs tonen ook aan dat het nog niet wordt gebruikt. Het is dus iets om in de gaten te houden voor de toekomst, maar nog geen must-have voor je website.

Heb je WordPress? Dan zou je, net zoals wij (https://dofollow.nl/llms.txt) , middels een eenvoudige plugin alvast een LLMS.txt bestand kunnen genereren.

Conclusie

De opkomst van AI-zoekmachines zoals ChatGPT en Gemini verandert hoe mensen informatie vinden. Goede SEO blijft essentieel, maar vraagt om nieuwe aandacht en in veel gevallen om nieuwe content strategieën. Nieuwe standaarden zoals llms.txt ontwikkelen zich nog en worden nog niet actief gebruikt.
Zorg dat je website technisch op orde blijft en denk na over content die zowel informatief is als goed converteert, zeker nu AI-samenvattingen steeds prominenter worden.

Ik kan me voorstellen dat voor webmasters de opkomst van AI nogal overwhelming kan zijn. Neem contact op en wij denken graag met je mee.

Online marketing bureau

Online marketing uitbesteden

Met onze data-gedreven aanpak en focus op meetbare resultaten zorgen we ervoor dat jouw marketingbudget maximaal rendeert. Of het nu gaat om campagnes, slimme optimalisaties of baanbrekende innovaties met A.I., wij leveren bewezen impact. Kies voor een team dat jouw groeiambities begrijpt en samenwerkt als verlengstuk van jouw organisatie. Samen maken we online succes waar.

Datagedreven online marketing met resultaat

Wij zijn online marketing 'vakidioten', echte 'nerds'. Wij volgen alle ontwikkelingen op de voet. Ontdek wie wij zijn, waar we voor staan en wat ons bijzonder maakt.

Online marketing team

Wij zijn dofollow.
Wegwijs in online marketing.

Wie ben jij?

Willemsplein 44-2
6811 KD Arnhem
Parkeren

dofollow BV
KVK 88435016
IBAN NL11 KNAB 0254 8654 61
BTW NL864624189B01