Hoe Google-zoekresultatenpagina's (SERP's) te scrapen

Hoe doe je dat?, Schrapen, 01-01-20215 min gelezen

Het behoeft geen introductie dat Google het meest gebruikte platform is voor zoekopdrachten van mensen over de hele wereld. Volgens de website Statista heeft Google een aandeel van 87,35% in de wereldwijde zoekmarkt. Verder blijkt uit de statistieken dat Google jaarlijks meer dan 2 biljoen gebruikers heeft en meer dan 130 biljoen pagina's indexeert.

Deze statistieken bewijzen dat Google uitgebreide openbare gegevens heeft over hun SERP's, die waardevol zijn voor internetmarketeers en anderen. Het scrapen van SERP's is dus een prioriteit geworden onder internetmarketeers. Wanneer je echter een bepaald aantal verzoeken overschrijdt, zal Google je IP-adres blokkeren.

Dit artikel gaat dus dieper in op hoe je SERP's kunt scrapen zonder geblokkeerd te worden. Eerst behandelen we de basisbeginselen van web scraping.

Wat is web scraping?

Stel dat je een grote set gegevens van verschillende webpagina's moet kopiëren. In eerste instantie zou je geneigd kunnen zijn om de inhoud te kopiëren en in een spreadsheet te plakken. Aangezien het echter om een groot webdocument gaat, zou het handmatig extraheren van gegevens tijdrovend zijn. Daarom moet je het schraapproces automatiseren, wat je heel wat tijd zou besparen.

Dit automatiseringsproces voor het schrapen van gegevens staat bekend als web scraping. Met deze methode kun je de HTML-bron downloaden zonder de URL van de website in een browser in te voeren.

Meer informatie over web scraping kun je hier lezen.

Wat is SERP-schrapen (Search Engine Results Pages)?

Net als web scraping is het schrapen van SERP het proces van het extraheren van de top 10 of meer resultaten van een Google-zoekopdracht voor een reeks zoekwoorden. De meeste zoekmachine optimalisatie (SEO) bedrijven gebruiken deze techniek om de rankings van de websites van hun klanten voor de gerichte zoekwoorden bij te houden.

Er kunnen ook andere redenen zijn om scraping uit te voeren voor SERPS, zoals advertentieverificatie, leadgeneratie en contentaggregatie.

Meestal zijn er automatiseringstools voor het schrapen van SERP's, die je in de volgende secties van dit artikel zult vinden. Je kunt ook je eigen script maken met programmeertalen zoals Python. Je kunt dit echter doen als je alleen maar vertrouwen hebt in coderen en een hogere technische expertise hebt. Daarnaast kun je ook cURL gebruiken om Google SERP's te scrapen.

Zodra deze tools gegevens van relevante webpagina's scrapen, slaan ze deze op in databases, CSV-bestanden, XML- of JSON-bestanden. Dan zijn deze gegevens in een gestructureerd formaat waarin je kunt bepalen of je SEO-inspanningen goed werken. Dit komt omdat u de plaatsingen van uw pagina in de loop van de tijd kunt zien.

Bovendien bestaan de SERP's niet alleen uit tekstuele inhoud, maar ook uit afbeeldingen, video's, featured snippets, lokale zoekkaarten en nog veel meer.

In het volgende gedeelte ontdek je een belangrijk voordeel van het schrapen uit SERP's.

Hoe helpt het schrapen van SERP's bij het herstellen van schade veroorzaakt door hackers?

Gehackt worden is iets dat je altijd negatief beïnvloedt. Je gehackte website en de inloggegevens kunnen op het dark web terechtkomen. Hackers kunnen zelfs backlinks verkopen of dark web malware op je site zetten. Op dezelfde manier heeft hacken ook een negatieve invloed op de context van SEO.

Een van de belangrijke voordelen van het scrapen van SERPs in Google is de mogelijkheid om de potentiële schade die hackers zouden veroorzaken te identificeren. Wanneer u hard hebt gewerkt om uw SEO-rankings op SERP's te bereiken, kunnen hackers gemakkelijk uw beveiligingsinstellingen infiltreren en al uw SEO-inspanningen verknoeien.

U kunt hier uitgebreide informatie vinden over hoe hackers uw SEO-inspanningen kapen.

Volgens een onderzoek gaf 48% van de SEO-professionals aan dat Google vele maanden nodig had om de oorspronkelijke staat van hun SERF-resultaten te herstellen.

Het bijhouden van de SERP's voor je websites biedt nuttig inzicht in wat er gebeurt met je rankings. Ze helpen je ook om de mogelijke resultaten van je rankings tijdens de hackpogingen te bepalen. Daarom kun je Google snel verzoeken om je vorige rankings te herstellen. Hierdoor zou de downtime van uw site en de daling in de ranking van zoekmachines drastisch worden beperkt.

Aan de andere kant, wanneer uw website is geïnfecteerd met Malware, zou dit uw ranking in zoekmachines belemmeren. Uw site heeft ook een grotere kans om op de zwarte lijst te komen. Volgens Godaddy geldt dit vooral voor websites van kleine bedrijven. 90% van de Godaddy-sites wist niet dat Malware hen had geïnfecteerd.

Door voortdurend al je SERP's te scrapen, kun je potentiële hackpogingen van tevoren herkennen en het helpt Google zeker om je resultaten te herstellen.

Hoe Google zoekresultaten scrapen?

Zoals ik al eerder heb gezegd, zijn er verschillende manieren waarop je Google SERP's kunt scrapen. In dit gedeelte ontdek je verschillende manieren om dat te doen.

Visuele webschraper

Octoparse

Dit is een algemene web scraper tool die je kunt gebruiken voor het schrapen van Google SERPs. Het schraapt niet alleen SERP's, maar is ook goed in het schrapen van gegevens van Google Maps.

Een van de belangrijkste kenmerken van Octoparse is dat het op een slimme manier antiscrapingmaatregelen van doelwebsites omzeilt. Je hoeft ook geen programmeur te zijn om de visuele scraping tool te gebruiken. Het is vrij gemakkelijk te gebruiken en beschikbaar als een cloud-gebaseerde oplossing en als installeerbare software.

Meer informatie over Octoparse vind je hier.

Browser extensie

Webscraper.io

Webscraper.io is een gratis extensie voor de Google Chrome webbrowser. Het kan gegevens extraheren uit Google webpagina's in de vorm van HTML en CSS. Vervolgens kan het gegevens exporteren in CSV-formaat. De versie van de browserextensie is volledig gratis en volstaat om je scrapingactiviteiten te beheren. Als je voor de cloudgebaseerde optie gaat, zijn daar kosten aan verbonden.

Je kunt er ook Google Maps mee extraheren en ze converteren naar een Database. Meer informatie over deze extensie vind je hier.

Google API Zoeken

Wist je dat Google een officiële manier biedt om gegevens uit zijn zoekmachine te halen? Hoewel het zijn beperkingen heeft, zoals hieronder vermeld, is het momenteel beschikbaar voor iedereen die SERP-gegevens nodig heeft. Dit zijn de beperkingen:

Het biedt beperkte informatie in vergelijking met visuele web scraper, browser extensies of andere web scraping tools.
Google heeft het ontwikkeld met de bedoeling om één website of minder websites te doorzoeken. Je kunt het echter configureren om het hele World Wide Web (WWW) te doorzoeken, wat veel technische expertise vereist.
Het is waanzinnig duur omdat het je een fortuin zou kosten om stapels aanvragen te versturen.

Dus met zijn beperkingen en kosten is Google Search API niet het ideale platform voor het schrapen van SERP-resultaten. Het is altijd beter om de alternatieve methoden te gebruiken die in dit artikel worden genoemd.

Python, verzoeken en BeautifulSoup gebruiken

Voor degenen onder jullie die experts zijn in het coderen met Python, zou deze methode handig zijn. Het zou ongetwijfeld in de eerste plaats de kosten verlagen en je hebt meer controle.

In dit programma extraheren we de SERP's voor de zoekopdracht "Hoe leer ik Python". Om het eenvoudiger te maken, zouden we de zoekopdracht hard coderen. Nadat we de resultaten hebben opgehaald, drukken we de titel van de resultaten af. Laten we erin duiken.

import requests
from bs4 import BeautifulSoup
import random
 
text = 'How to learn Python programming'
url = 'https://google.com/search?q=' + text
useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36"
       )
 
Agent = useragent[random.randrange(len(useragent))]
 
headers = {'user-agent': Agent}
req = requests.get(url, headers=headers)
 
soup = BeautifulSoup(req.text, 'lxml')
for info in soup.find_all('h3'):
    print(info.text)
    print('__________')

Hier zal ik elke regel code duidelijk uitleggen:

importverzoeken

We gebruiken de request-bibliotheek van Python om de SERP te downloaden. Vervolgens stuurt de request-module een get-verzoek naar de Google-server. Hierdoor kan het programma de HTML-inhoud van de SERP downloaden.

van bs4 importeer BeautifulSoup

De volgende regel spreekt voor zich en laadt de BeautifulSoup bibliotheek. Deze bibliotheek maakt het mogelijk om HTML- en XML-documenten te parsen.

tekst = 'Hoe leer ik Python programmeren'.
url = 'https://google.com/search?q=' + tekst

Dit stukje code stelt de URL van de zoekmachine in waarvan de gegevens moeten worden gescrapeerd. Dus ik heb de URL ingesteld als google.com en voor de zoekopdracht heb ik de tekst in de tekstvariabele 'Hoe leer ik Python programmeren' toegevoegd als zoekopdracht.

useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, zoals Gecko) Chrome/92.0.4515.107 Safari/537.36" )

Dan stelt de bovenstaande code de user agent string in.

req = requests.get(url, headers=headers)

De bovenstaande code stuurt het verzoek naar de webserver om de gevraagde HTML-inhoud van de zoekresultaten te downloaden.

soep = BeautifulSoup(req.text, 'lxml')

Maak een instantie van BeautifulSoup met de gegevens die de bovenstaande code heeft opgevraagd uit 'lxml' parsing headers. Je moet eerst het pakket 'lxml' installeren om bovenstaande code te laten werken.

voor info in soup.find_all('h3'):
    print(info.text)
    print('__________')

Vervolgens worden met behulp van een for-lus alle h3-tags geëxtraheerd om de titels weer te geven.

residentiële proxies gebruiken om Google SERP's te scrapen

Zoals eerder vermeld, leggen zoekmachines zoals Google beperkingen op, waaronder het verbieden van je IP-adres wanneer je de limiet voor scraping overschrijdt. Dit is waar proxies een cruciale rol speelt in het maskeren van je IP-adres. Van alle proxies die er zijn, is residentiële proxies de ideale keuze. Dit komt omdat hun IP's afkomstig zijn van echte residentiële eigenaars.

Als je echter de eerste paar SERP's schraapt, zal Google merken dat je acties onmenselijk zijn. Dan wordt het IP-adres van je proxygeblokkeerd en krijg je te maken met captcha's.

Dit is waar het netwerk van residentiële proxies als je redder optreedt. Als je een netwerk van residentiële proxies gebruikt, heeft elk van hen een uniek IP-adres. Je zou dus kunnen scrapen van SERP's door de IP-adressen te roteren. Dan zouden je acties als menselijk overkomen bij de zoekmachine.

Raadpleeg dit artikel voor een gedetailleerde uitleg van residentiële proxies .

Juridische implicaties bij het gebruik van residentiële proxies om Google SERP's te scrapen

Je zou nu een duidelijk idee moeten hebben van wat residentiële proxies is en hoe ze je kunnen helpen om de IP-verboden te omzeilen. Nu gaan we kijken naar een cruciale factor die veel gebruikers over het hoofd zien wanneer ze uit de SERP's van Google scrapen. Dat zijn de juridische implicaties van het gebruik van residentiële proxies .

Ten eerste is het legaal om residentiële proxies te gebruiken om Google SERP's te scrapen. Dus met dat in gedachten zou je in de verleiding kunnen komen om onbeperkt verzoeken te sturen naar zoekmachines zoals Google. Als zodanig zou het de servers van Google overbelasten met een enorm aantal verzoeken. Dit is niet juist, zelfs niet volgens het algoritme van Google SERPs.

Daarom moet je ervoor zorgen dat je altijd respectvol omgaat met de website of zoekmachine waarvan je gegevens gaat schrapen. Je moet ook de best mogelijke scrapingpraktijken toepassen, inclusief dat je scraper respectvol is tegenover de doelzoekmachine.

U moet de verzoeken onmiddellijk beperken of het scrapingproces stoppen als u of uw proxy provider een klacht ontvangt van de doelserver. De klacht kan zijn dat de doelserver een hoge werkbelasting ondervindt door jouw ongelimiteerde verzoeken. Daarom moet je voorzichtig zijn met dergelijke feiten.

Veelgestelde vragen

Is het illegaal om van Google te scrapen?

Normaal gesproken houdt Google er niet van als scrapers gegevens van Google scrapen. Zoals ik al meerdere keren in dit artikel heb gezegd, kan Google je IP-adressen verbieden. Tot op heden heeft Google nog geen actie ondernomen voor het schrapen van gegevens. Het is duidelijk dat de SEO-bedrijven geen uitgang zouden hebben als Google dergelijke acties zou ondernemen.

Conclusie

We hopen dat je nu een algemene kennis hebt opgedaan van de verschillende methoden die webscrapers gebruiken om gegevens van SERP's te scrapen. Verschillende omstandigheden maken gebruik van verschillende methoden. Tot slot heb je geleerd hoe je residentiële proxies kunt gebruiken voor het schrapen van SERP's, samen met hun juridische implicaties.

We hopen dat je dit artikel nuttig vindt, en blijf kijken voor meer artikelen.

Door: ProxyScrape