wil je helpen? Hier zijn je opties:","Crunchbase","Over ons","Iedereen bedankt voor de geweldige steun!","Snelle links","Affiliate programma","ProxyScrape premie proefversie","Online Proxy checker","Proxy types","Proxy landen","Proxy gebruikscases","Belangrijk","Cookiebeleid","Disclaimer","Privacybeleid","Algemene voorwaarden","Sociale media","Facebook","LinkedIn","Twitter","Quora","Telegram","Discord"," © Copyright 2024 - Thib BV | Brugstraat 18 | 2812 Mechelen | België | BTW BE 0749 716 760"]}
~ Een webscraping verhaal door Arya - Een ProxyScrape gebruiker
Voor alle duidelijkheid, ik ben verplicht om een disclaimer te maken dat ik geen officiële vertegenwoordiger ben van ProxyScrape. Ik ben echter een grote fan en klant van hun diensten. Als je nog geen gebruik maakt van hun diensten, raad ik je dat zeker aan! De volgende meningen en gedachten zijn geheel van mijzelf.
"Oh $!*^, dat kan niet"
Dat is precies wat ik om 3 uur 's nachts mompelde, worstelend met het besef dat een bedrijf dat ooit zo trendy was als melkleveringen, iets wat de meeste mensen zouden verwijzen naar het tijdperk van de discomuziek en die wilde neonoutfits, nog steeds rondwaart als een slecht kapsel uit de jaren 80 - en helaas is het overal.
Dit bedrijf was het echte werk in zijn hoogtijdagen. Ik bedoel, je kon er niet omheen tijdens de hoogtijdagen. Nu wordt de naam alleen nog gemompeld met een vleugje nostalgie in bejaardentehuizen.
Natuurlijk, het is misschien niet het modewoord in marketingkringen, maar daarin schuilt de kans. Terwijl anderen de nieuwste trends najagen, zien de slimmeriken het potentieel in de vergeten hoeken van het internet. YellowPages is misschien een relikwie uit het verleden, maar in de wereld van leadgeneratie is het een relikwie met onaangeboord potentieel en een routekaart naar succes.
Nu vraag je je misschien af: "Hoe kan ik zo'n kans benutten?" - Laten we samen alle stappen doorlopen en hopelijk kunnen zelfs sommige Neanderthalers aan het eind van dit verhaal YellowPages afschrapen.
We benaderen dit zoals we dat bij elke andere website zouden doen. De eerste stap is uitzoeken hoe de website werkt. Hiervoor moet je meestal uitzoeken hoe je naar de sappige gegevens kunt navigeren. Nee $!*^... hoe verwacht je de gegevens eruit te halen als je ze niet kunt vinden pooky?!?
Zoals je hierboven op hun landingspagina kunt zien, zijn er twee tekstinvoeren - een voor je zoekterm en de andere voor de locatie. Laten we deze invullen en een zoekopdracht uitvoeren; ik zoek naar "Tandartsen" in "Toronto, Ontario".
Zodra je je ABC's hebt uitgezocht en deze hebt ingevuld en de zoekknop hebt gevonden EN erop hebt geklikt (ik ben onder de indruk), zou je moeten worden doorgestuurd naar een pagina zoals hierboven met een pad zoals het volgende:
/zoeken/si/1/tandartsen/Toronto+ON
We kunnen de volgende padstructuur afleiden (dit komt later van pas):
/zoeken/si/[Paginanummer]/[Zoekterm]/[Plaats]+[Regiocode]
Nog iets om op te merken, we hebben de gegevens die we willen al gevonden, de bedrijfsvermeldingen - laten we nu uitzoeken waar deze bedrijfsvermeldingen vandaan worden geladen, het moet worden verzonden binnen het document OF worden opgehaald van een API-eindpunt (of als je eigenwijs bent, en geloof me ik heb het gezien - websockets).
Maar laten we wel wezen. Gezien de status van YellowPages als een telefoonboekbedrijf dat wanhopig op zoek is naar relevantie en, belangrijker nog, inkomsten, is het onwaarschijnlijk dat ze pronken met geavanceerde technische snufjes. De kans dat ze ontwikkelaars aannemen die met flanellen lopen te pronken en vijftig React-gebaseerde to-do apps op hun cv hebben staan, is klein tot onbestaande. Dus zijn we echt geschokt dat de webpagina statisch is?
div[itemtype="http://schema.org/LocalBusiness]
Ik laat het aan jou over om uit te zoeken hoe je individueel de gegevens kunt extraheren voorbij dit niveau van granulariteit; anders zouden we hier voor altijd zijn. Gebruik het "itemprop" attribuut - het zou het proces aanzienlijk moeten vereenvoudigen.
Er is echter een nadeel aan deze parallellisatiestrategie: Hoewel YellowPages suggereert dat er meer dan 60 pagina's met resultaten zijn, zal een poging om een pagina van meer dan 60 te openen niet worden weergegeven. Stel daarom een harde bovengrens van 60 in voor je parallellisatie. Ervan uitgaande dat er voldoende bandbreedte en rekenkracht is, zou elke resultaatpagina moeten worden gescraped in dezelfde tijd die het zou kosten om één pagina te scrapen binnen het sequentiële model.
Nu vraag je je misschien af: was dit clickbait? Wat heeft het "miljonair" gedeelte met dit alles te maken? Nou, als je het hebt gevolgd en nu een functioneel script hebt, kan ik persoonlijk bevestigen dat niets je tegenhoudt om theoretisch elke stad in Canada te doorlopen en elke bedrijfsvermelding van een zoekopdracht in die stad op te halen bij YellowPages. Deze gegevens kunnen letterlijk een miljoenen dollar waard zijn als ze op de juiste manier worden aangevuld, maar het zijn ook letterlijk miljoenen bedrijven in hun directory die nu binnen jouw bereik liggen.
YellowPages mag dan herinneringen oproepen aan een vervlogen tijdperk, het potentieel ervan voor het genereren van B2B leads blijft een verborgen schat in het digitale landschap. Door door de eigenaardigheden van de statische webinterface te navigeren, onthult het schrapen van gegevens van dit schijnbaar verouderde platform een enorm scala aan zakelijke leads. De over het hoofd geziene en onderbenutte aard van YellowPages maakt het tot een unieke kans.
Mijn enige doel is dat deze blogpost je niet achterlaat met de gedachte "de echte schat waren de vrienden die we onderweg hebben gemaakt" - ik hoop dat dit zowel de unieke mogelijkheden laat zien die er zijn, vooral met de vaardigheden die zo velen van ons als vanzelfsprekend beschouwen, en hopelijk ook interessant om te lezen voor degenen onder jullie die ervaring hebben op dit gebied, en inzicht geeft aan degenen onder jullie die dat niet hebben.
Zoals altijd, blijf veilig, gebruik bescherming, en voor de liefde van god... doe niet iets waar de FBI achter je aan zit - nou... in dit geval zou het de RCMP zijn.