Crawler Traps voorkomen en oplossen

Crawler-traps maken het voor een crawler moeilijk of zelfs onmogelijk om uw website efficiënt te crawlen. Crawler-traps vertragen en hinderen het crawlproces en maken het moeilijker voor uw website om te ranken

Wat zijn crawler traps

Crawler Traps of crawler traps is een technische term voor een probleem met de structuur van een website. Crawler traps genereren een oneindig aantal urls dat een spider niet kan crawlen. Het gevolg is dat de spider vast komt te zitten in deze val en nooit naar de 'goede' delen van uw website komt.

Tips en trucs om crawler-traps te voorkomen

Bij crawler traps is voorkomen beter altijd dan genezen. Crawler traps komen meestal voort uit een technische ontwerpfout. Los altijd de ontwerpfout op en probeer niet om het probleem heen te werken.

  • Blokkeer dubbele pagina's in uw robots.txt-bestand
  • Een correcte cannonical URL voorkomt dubbele inhoud issues maar voorkomt niet de crawl budget problemen
  • Door nofollow aan links toe te voegen zorg je er alleen voor dat er geen pagerank wordt doorgegeven. Het voorkomt crawler traps niet.

Wat is het probleem met crawler traps?

Crawler traps kunnen ervoor zorgen dat het ontdekken van belangrijke nieuwe pagina's en wijzigingen vertraagt en problemen veroorzaken met de kwaliteit en structuur van een website

1. Crawl budget issues

Elke website ontvangt een crawlbudget van Google. Een crawlbudget is het aantal verzoeken (dit is niet hetzelfde als het aantal pagina's!) dat Google bereid is te bezoeken voor uw website. Wanneer uw crawlbudget 'op gaat' aan irrelevante pagina's is er mogelijk niet genoeg budget over om snel nieuwe, relevante inhoud te ontdekken en recente wijzigingen op uw site te ontdekken.
Googlebot kan de meeste crawler traps gemakkelijk detecteren. Zodra een crawler-trap is gedetecteerd, stopt Google met het crawlen van de trap en verlaagt de crawlfrequentie van die pagina's. Het detecteren van een crawl-trap kan Google echter enige tijd kosten en na detectie wordt het crawl-budget nog steeds verspild aan de crawler-trap, alleen minder dan voordat deze werd ontdekt.

2. Kwaliteitsproblemen

De meeste crawler-traps bestaan ​​uit oneindige loops van dezelfde pagina ('s). Elke pagina is in principe hetzelfde als de vorige pagina. Dit veroorzaakt dubbele inhoudsproblemen. Dubbele inhoud is een teken van een website van lage kwaliteit. Googlebot kan dubbele inhoudspagina's detecteren en filteren. Dit proces kost echter tijd en niet onfeilbaar. Als slechts 0,00001% van de oneindige pagina's niet door Google wordt gemarkeerd, veroorzaakt dit nog steeds serieuze problemen.

Veel voorkomende crawler traps voorkomen en oplossen

Dit zijn de meest voorkomende crawler-traps. We zullen uitleggen hoe elke crawler-trap kan worden geïdentificeerd en opgelost

  1. https / subdomain redirect trap
  2. Filter trap
  3. Never-Ending URL trap
  4. Time trap
  5. Infinite redirect trap
  6. Session url trap

1. https / subdomain redirect trap

Dit is eigenlijk de meest voorkomende crawler-trap die we tegenkomen. Een site draait op een veilige https-verbinding en elke pagina van de oude 'niet-beveiligde' versie wordt omgeleid naar de beveiligde versie van de home pagina.

voorbeeld:

http://www.voorbeeld.nl/pagina-1 verwijst naar https://www.voorbeeld.nl

Het probleem met deze omleiding

Het probleem van deze crawler trap is dat zoekmachines als Google nooit helemaal achterhalen hoe de oude, niet-beveiligde, pagina's moeten worden omgeleid. In het bovenstaande voorbeeld moet http://www.voorbeeld.nl/pagina-1 zijn omgeleid naar https://www.voorbeeld.nl/pagina-1. In plaats daarvan wordt het omgeleid naar de home pagina. De meeste crawlers identificeren dit als een onjuiste omleiding. De oude pagina wordt door Google niet bijgewerkt naar de nieuwe locatie, maar eerder gelabeld als soft 404. Googlebot zal steeds opnieuw proberen deze pagina te crawlen, waardoor de site het kostbare crawlbudget lekt.
Hetzelfde probleem treedt op wanneer een aanvraag voor voorbeeld.nl/pagina-1 wordt omgeleid naar www.voorbeeld.nl/ (Je ziet dat er in het eerste verzoek geen 'www' staat).

Hoe kun je de https / subdomain redirect vinden

Dit probleem is niet moeilijk om handmatig te vinden. Dit is echter het soort probleem dat je tegenkomt. Na elk serveronderhoud, CMS-update of serverupdate moet je eigenlijk opnieuw controleren op de juiste omleiding. Controleer de server logs op http-verzoeken op de https-website en filter op crawlers. Je kunt dit ook controleren door naar de website te navigeren en bovenin de browser balk https:// naar http:// handmatig te wijzigen. Doe je dit op een sub-pagina op jouw site dan mag de site niet naar de homepage verwijzen.
De MarketingTracer SEO-crawler op de pagina is gemaakt om deze crawler trap te detecteren. We vinden deze trap automatisch en zullen jou op de hoogte stellen van onjuiste omleidingen wanneer we dit deze vinden.

De https / subdomain redirect trap oplossen

De oorzaak van dit probleem is een verkeerde configuratie van uw webserver / cms. Afhankelijk van 'wat de omleiding veroorzaakt', moet je de webserverconfiguratie of het CMS bewerken om de 'request uri' toe te voegen aan de 301 redirect.

2. Filter trap

Filters voor producten en sorteren kunnen enorme hoeveelheden URL's genereren. Als u bijvoorbeeld sorteert op prijs, populariteit en filteren op grootte (s, m, l, xl, xxl) en kleur (8 kleuren) genereert u 2 * 2 * 2 * 6 * 8 = 384 pagina's met dubbele inhoud. Nu meerdere dit door al uw winkelcategorieën en eventuele andere filters die u zou kunnen gebruiken.
Meestal zullen we u adviseren om het gebruik van de queryparameter (? Sort = price) in uw URL's te voorkomen. Maar met een winkelpagina is sorteren en filteren een must. Daarom moeten we dit probleem een ​​beetje anders aanpakken.
Wanneer uw site filters gebruikt, bent u vrijwel zeker kwetsbaar voor de filter trap. Het toevoegen van noindex tags, nofollow aan koppelingen of canonicals aan uw pagina's zal niet voorkomen dat Google al uw gefilterde pagina's probeert te crawlen.

Voorbeeld:

https://www.voorbeeld.nl/shop?size=l&sort=price,popularity&color=orange

Het probleem met de filter trap

Omdat filteren meestal wordt gedaan met een javascript via een ajax-oproepfilter, zijn pagina's niet altijd zichtbaar voor de bezoeker. Zoekmachines zoals Google zijn echter perfect in staat om deze filters op te halen.

Hoe herken je de filter trap

Wanneer uw site filters gebruikt, bent u vrijwel zeker kwetsbaar voor de filter trap. Het is geen kwestie van ja of nee maar in welke mate.

3. Hoe los je de filter trap op?

De beste manier om de filterinvang te voorkomen, is om filterresultaten van Google te blokkeren. Voeg eerst een canonieke URL toe aan uw winkelpagina met de juiste locatie voor uw winkel / categorie / productpagina. Voeg vervolgens de filters toe aan uw robots.txt-bestand als volgt:

 Disallow: /*?*size=
 Disallow: /*?*sort=

Never-Ending URL trap

De oneindige URL-trap treedt op met een relatieve link naar het verkeerde mapniveau. In plaats van te linken naar '/pagina-1' linkt u naar 'pagina-1' (let op schuine streep vóór de eerste link).

voorbeeld:

<a href="pagina-1">Page 1</a>

Door herhaaldelijk op deze link te klikken, navigeert u naar

https://www.voorbeeld.nl/pagina-1
https://www.voorbeeld.nl/pagina-1/pagina-1
https://www.voorbeeld.nl/pagina-1/pagina-1/pagina-1

The problem with the never ending url trap

The never ending url trap quickly generated an infinite number of urls. the never ending url trap is hard to detect because Google will allmost never show the never ending url trap in the site command. Google, does keep trying to crawl the never ending urls at a slow pace.

Hoe ontdek je de never ending url trap

De oneindige URL-val is moeilijk handmatig te detecteren. U moet de bron van uw pagina inspecteren om de kleine omissie van '/' in uw link te detecteren.
De MarketingTracer SEO-crawler op de pagina is gemaakt om deze crawler trap te detecteren. Controleer gewoon onze crawl-index en sorteer uw pagina op url. Je zult snel de fout kunnen vinden. Van daaruit analyseer je de pagina om alle links naar deze pagina te bekijken en ze op te lossen.

Hoe los je de never ending url trap op?

de oneindige URL-valstrik is eenvoudig te repareren. Zoek de relatieve link en vervang deze door een absolute link (vervang <a href="pagina-1">Page 1</a> door <a href="/pagina-1">Page 1</a>)

4. Time trap

Uw calander-plug-in kan pagina's oneindig in de toekomst genereren. De tijdval wordt ook wel de calanderval genoemd.

Voorbeeld:

https://www.voorbeeld.nl/calendar/2019/01 // maand 1
https://www.voorbeeld.nl/calendar/2019/02 // maand 2
...
https://www.voorbeeld.nl/calendar/3019/01 // 1000 jaar in de toekomst

Het probleem met de time trap

De tijdtrap genereert een onbeperkt aantal lege pagina's. Hoewel Google behoorlijk goed is in het voorkomen van tijdval, duurt het even voordat Google dit voor uw site heeft geleerd. In de tussentijd worden heel veel pagina's van lage kwaliteit door Google gecrawld.

Hoe vind je de time trap?

Dit probleem een ​​beetje moeilijker om handmatig te detecteren. Het sitecommando (site: www.voorbeeld.nl/agenda) geeft u een indicatie van de geïndexeerde pagina's van uw agenda. Zodra Google de tijdinvang heeft gedetecteerd, worden alle irrelevante kalenderpagina's uit de index snel verwijderd en wordt de site: commando nutteloos. .
Een handmatige inspectie van uw agendaplug-in is de enige manier om deze val te controleren. Inspecteer eerst uw instellingen (zijn er opties om de tijdval te vermijden, zoals het beperken van het aantal maanden in de toekomst). Zo niet, controleer dan of de kalenderpagina's in de verre toekomst robotinstructies bevatten (zoals <meta name="robots" content="noindex">)
De MarketingTracer SEO-crawler op de pagina is gemaakt om deze crawler trap te detecteren. Controleer gewoon onze crawl-index en filter op 'calendar' (of gebruik de naam van die plug-in als uw agenda-plug-in een andere naam heeft)

Hoe lost je de time trap op?

Het kan lastig zijn om de tijdopvang te maken, omdat agendasoftware meestal als plug-in wordt geleverd. Als de plug-in niet voldoende bescherming biedt tegen de tijdopvang, moet u de kalenderpagina's uit de index in uw robots.txt blokkeren.

  • Stel het aantal pagina's in de toekomst in op een redelijk aantal
  • Nofollowing aan de links toevoegen lost het probleem NIET op
  • Blokkeer de kalenderpagina's in uw robots.txt bestand.

5. Infinite redirect trap

voorbeeld:

https://www.voorbeeld.nl/page2 redirects to https://www.voorbeeld.nl/page2

Het probleem van de infinite redirect trap

Google begrijpt oneindige omleidingen en stopt met crawlen nadat het een lus heeft gedetecteerd. Toch is er nog steeds een probleem met oneindige omleidingen. 1. Ze eten je crawl budget op. 2. Interne links naar oneindige omleidingen zijn een teken van slechte kwaliteit.

Hoe vind je de infinite redirect trap?

Oneindige omleidingen geven een fout met de omgeleide lus in uw browser.
Oneindige omleidingen zijn bijna niet te detecteren wanneer ze ergens diep in uw website zijn weggestopt.
De MarketingTracer SEO-crawler op de pagina is gemaakt om deze crawler trap te detecteren. Gebruik het omleidingsfilter om deze omleidingslussen te bekijken.

Hoe los je de infinite redirect trap op?

Het oplosse van de oneindige omleiding is eenvoudig. Pas de omleiding aan en verwijs door naar de juiste pagina en je bent klaar.

6. Session url trap

Voorbeeld:

https://www.voorbeeld.nl/?session=12345abcd

Het probleem met de session url trap

De meeste raamwerken gebruiken sessies. Sessies worden alleen gebruikt om vistorgegevens op te slaan voor dit bezoek. Elke sessie krijgt meestal een unieke id (bijvoorbeeld 12345abcde). Sessiegegevens worden normaal opgeslagen in cookies. Als om een ​​of andere reden, zoals een verkeerde configuratie van de server, de sessiegegevens niet in een cookie worden opgeslagen, kan de sessie-ID aan de URL worden toegevoegd.
Elk bezoek van een crawler vormt een 'nieuw bezoek' en krijgt een nieuw sessie-ID. Dezelfde URL, tweemaal gecrawld, krijgt twee verschillende sessie-id's en twee verschillende URL's. Telkens wanneer een crawler een pagina crawlt, zien alle links met de nieuwe sessie-ID eruit als nieuwe pagina's, wat resulteert in een explosie van urls die klaar zijn om te worden doorzocht.

Hoe vind je de session url trap?

Het detecteren van de sessie-URL-val is eenvoudig. Ga gewoon naar uw website, schakel cookies uit en klik op een paar links. Als een sessie-ID in de URL verschijnt, bent u kwetsbaar voor de sessie-URL-val.
De MarketingTracer SEO-crawler op de pagina is gemaakt om deze crawler trap te detecteren. Vink gewoon onze crawl-index aan en filter op 'sessie' en we zullen u alle URL's met sessie-id's laten zien.

Hoe los je de session url trap op?

Het oplossen van de sessie-trap is relatief eenvoudig. Meestal schakelt een instelling in uw CMS sessie-ID's in de URL uit. Soms is het ook nodig om de webserver opnieuw te configureren.

Het online-marketing dashboard voor professionals

Meer dan de helft van de Emerce top-100 digital marketingbureaus gebruikt MarketingTracer.
Geen opzegtermijn, direct online, gratis trial.