Hoe voorkom je dat ChatGPT je WordPress website crawlt: Een stap-voor-stap gids

Jij weet waarschijnlijk als geen ander: content is koning! En de bescherming van jouw content tegen ongeautoriseerd gebruik is vaak essentieel. Met steeds grotere opkomst van geavanceerde AI’s (bijvoorbeeld ChatGPT) die websites kunnen crawlen om inhoud te verzamelen, is het cruciaal om stappen te ondernemen die je website beschermen. 

Er is een oplossing! In dit blog lopen we door een eenvoudig proces om je WordPress website te beveiligen tegen ongewenste AI-crawlers. 

Waarom ChatGPT niet welkom is op jouw website

Het gebruik van bots, zoals ChatGPT geven je ontzettend veel ondersteuning. Misschien dienen ze zelfs als jouw rots in de branding voor het schrijven van scherpe en inhoudelijke teksten. 

Allemaal voordelen, zou je denken. Totdat ze jouw eigen content gaan ‘scrapen’, je bandbreedte opeten alsof het gratis buffet is én je bezoekersstatistieken vervuilen. Of wellicht publiceer jij wel teksten met auteursrechten. In ieder geval: er zijn genoeg redenen waarom je misschien zegt “ChatGPT, jij bent niet welkom hier!”

Bots spotten

Als je wil voorkomen dat bots, zoals ChatGPT, je WordPress website overrompelen, is het eerst belangrijk om te weten hoe je ze spot. Begin met het bekijken van je serverlogs. Zoek naar signalen zoals veel bezoeken vanaf hetzelfde IP-adres in korte tijd of vreemde gebruikersnamen die verschijnen in jouw toegangsgegevens. Dit soort gedrag kan wijzen op bots.

Ook is het handig om te letten op hoe jouw zogenaamde ‘bezoekers’ zich gedragen op je website. Bots doen dingen namelijk vaak sneller dan mensen en ze bezoeken je site op de meest vreemde tijdstippen. Om het je makkelijker te maken, kun je plugins zoals Wordfence of Sucuri gebruiken. Deze tools helpen automatisch verdachte bezoekers te herkennen en te blokkeren, zodat je WordPress website veilig blijft voor jouw échte gebruikers.

De impact van het blokkeren van AI-crawlers

Voordat je deze wijzigingen implementeert, is het belangrijk om de mogelijke gevolgen te overwegen. Door AI-crawlers te blokkeren, kun je onbedoeld voorkomen dat mensen die jouw content zoeken via deze AI-diensten, je site vinden. Weeg de voor- en nadelen af om te bepalen of dit de juiste stap is voor jouw website.

Begrijp het belang van robots.txt

Heb je een robots.txt-bestand op je website? Dan vertelt die de zoekmachines welke delen van je website ze mogen bezoeken en indexeren. Door specifieke instructies toe te voegen aan dit bestand, kun je AI-crawlers, zoals ChatGPT en anderen, verzoeken om je site niet te crawlen. 

Maar hoe stel je een robots.txt-bestand in tegen het crawlen van jouw website?

Stap 1: Toegang krijgen tot je robots.txt-bestand

De eerste stap is het vinden of creëren van een robots.txt-bestand in de root directory van je WordPress website. Als je geen toegang hebt tot de server via FTP of een file manager in je hosting control panel, kun je een plugin zoals ‘File Manager’ gebruiken binnen WordPress om dit bestand te bewerken.

Je kunt eenvoudig een tekstbestand aanmaken met Notepad of een andere teksteditor. Zorg ervoor dat het bestand geen extensie heeft zoals .txt – het moet puur robots.txt zijn.

Tip: gebruik je de plugin van Yoast SEO? Dan kun je ook hier je robots.txt bewerken. Hoe dat werkt, lees je hier.

Stap 2: Bepaal welke pagina’s niet gecrawlt mogen worden 

Voordat je regels gaat schrijven, is het belangrijk dat je een duidelijk beeld hebt van de mappenstructuur van je website. Beslis welke specifieke pagina’s of mappen je wilt beschermen tegen crawlers.

Je kunt er bijvoorbeeld voor kiezen om specifieke bots toegang te ontzeggen tot bepaalde delen van je website. Of om alle bots van bepaalde delen uit te sluiten.

Stap 3: Instructies toevoegen om AI-crawlers te blokkeren

De basis van robots.txt-bestanden zien er altijd als volgt uit:

User-agent: [naam van user-agent]

Disallow: [URL querystring die niet gecrawld moeten worden]

Zodra je het robots.txt-bestand hebt geopend, is het tijd om instructies toe te voegen die specifiek gericht zijn op AI-craw.

User-agent: ChatGPT

Disallow: /

User-agent: *BingBot

Disallow: /

Deze instructies verzoeken ChatGPT en BingBot (die ook AI-technologieën voeden) om geen enkele pagina van je website te crawlen. Vervang ChatGPT en *BingBot met de namen van andere crawlers als je meer specifieke AI-tools wil targeten. Dit kunnen bijvoorbeeld zijn:

  • ChatGPT en GPTBot – Crawlers en webbrowsers gebruikt door OpenAI
  • Google Extended – Crawler gebruikt voor de AI-training van Google’s Gemini (voorheen Google Bard)
  • FacebookBot – Crawler gebruikt voor de AI-training van Facebook
  • CommonCrawl – Crawler die datasets verzamelt gebruikt voor het trainen van AI-modellen
  • Anthropic AI – Crawler gebruikt door Anthropic
  • Omgili – Crawler gebruikt door Omgili voor AI-training
  • Bytespider – Crawler gebruikt door TikTok voor AI-training
  • Cohere – Crawler gebruikt door Cohere voor AI-training
  • DiffBot – Crawler gebruikt door Diffbot voor AI-training

Stap 4: Upload naar je server

Plaats het bestand in de root directory, ook wel de hoofdmap, van je webserver. Zodra het bestand geüpload is, zullen bots die je website bezoeken eerst dit bestand raadplegen om te bepalen wat ze wel en niet mogen indexeren.

Heb je gebruik gemaakt van Yoast SEO? Klik dan op ‘Opslaan’.

Conclusie: Bescherm je content proactief

Nu digitale content zó makkelijk en verspreid wordtt, is het essentieel om proactieve stappen te ondernemen om het te beschermen! Door de bovenstaande instructies te volgen, kun je een sterke barrière opzetten tegen ongewenste AI-crawlers, waardoor je de controle behoudt over waar en hoe je content wordt gebruikt.

Hulp nodig met het instellen van
een robots.txt op jouw WordPress website?

Stel je vraag aan een van onze WordPress experts.

Gerelateerde artikelen

Waarom je jouw Core Web Vitals zou moeten testen in Google Search Console

Het testen van je website’s Core Web Vitals in Google Search Console is niet slechts een technische noodzaak; het biedt een strategisch voordeel. Leer waarom het cruciaal is voor het verbeteren van de gebruikerservaring en het verhogen van je SEO.

Lees verder

Hoe voorkom je dat ChatGPT je WordPress website crawlt: Een stap-voor-stap gids

Jij weet waarschijnlijk als geen ander: content is koning! En de bescherming van jouw content tegen ongeautoriseerd gebruik is vaak essentieel.

Lees verder

Google Core Web Vitals update: alles over de nieuwe INP Metric

In deze blog leggen we uit wat de Google Core Web Vitals update van maart 2024 inhoudt. Met speciale aandacht voor de nieuw geïntroduceerde ‘Interaction to Next Paint’ – afgekort INP – metric.

Lees verder