wil je helpen? Hier zijn je opties:","Crunchbase","Over ons","Iedereen bedankt voor de geweldige steun!","Snelle links","Affiliate programma","ProxyScrape premie proefversie","Online Proxy checker","Proxy types","Proxy landen","Proxy gebruikscases","Belangrijk","Cookiebeleid","Disclaimer","Privacybeleid","Algemene voorwaarden","Sociale media","Facebook","LinkedIn","Twitter","Quora","Telegram","Discord"," © Copyright 2024 - Thib BV | Brugstraat 18 | 2812 Mechelen | België | BTW BE 0749 716 760"]}
Een van de makkelijkste manieren om een goede klantenkring te krijgen, is om zoveel mogelijk zakelijke e-mailadressen te hebben en ze keer op keer je servicegegevens te sturen. Er zijn veel schraaptools op het internet die deze diensten gratis aanbieden, maar ze hebben een datalimiet voor terugtrekkingen. Ze bieden ook onbeperkte gegevensopnamelimieten, maar die zijn betaald. Waarom zou je ze betalen als je er zelf een kunt bouwen? Laten we de stappen bespreken om een kwaliteit schraaptool te bouwen met Python.
Hoewel het een zeer eenvoudig voorbeeld zal zijn voor beginners, zal het een leerervaring zijn, vooral voor degenen die nieuw zijn in web scraping. Dit wordt een stap-voor-stap tutorial die je zal helpen om onbeperkt e-mailadressen te verzamelen. Laten we beginnen met het bouwproces van onze intelligente webscraper.
We gebruiken de volgende zes modules voor ons project.
De details van de geïmporteerde modules staan hieronder:
In deze stap initialiseren we een deque die de geschraapte URL's, niet-geschraapte URL's en een set succesvol geschraapte e-mails opslaat.
Dubbele elementen zijn niet toegestaan in een set, dus ze zijn allemaal uniek.
urlsplit() retourneert een 5-tupel: (adresseringsschema, netwerklocatie, pad, query, fragment, identifier).
Ik kan geen voorbeeldinvoer en -uitvoer tonen voor urlsplit() vanwege vertrouwelijke redenen, maar als je het probeert, zal de code je vragen om een waarde in te voeren (websiteadres). De uitvoer zal de SplitResult() weergeven, en binnen de SplitResult() zouden er vijf attributen zijn.
Hiermee krijgen we het basis- en padgedeelte voor de URL van de website.
The <a href=””> tag indicates a hyperlink that can be used to find all the linked URLs in the document.
Dan zullen we de nieuwe URL's vinden en ze toevoegen aan de unscraped wachtrij als ze noch in de scraped noch in de unscraped staan.
Als je de code zelf uitprobeert, zul je merken dat niet alle links kunnen worden geschraapt, dus moeten we ze ook uitsluiten,
Om de resultaten beter te kunnen analyseren, exporteren we de e-mails naar een CSV-bestand.
Als je Google Colab gebruikt, kun je het bestand downloaden naar je lokale computer door
Zoals al is uitgelegd, kan ik de geschrapte e-mailadressen niet laten zien vanwege vertrouwelijkheidskwesties.
[Disclaimer! Sommige websites staan niet toe om aan web scraping te doen en ze hebben zeer intelligente bots die je IP permanent kunnen blokkeren, dus scrapen op eigen risico].
Omdat bedrijven veel e-mailadressen nodig hebben om hun lijst met contactpersonen op te bouwen, is het noodzakelijk om gegevens uit meerdere bronnen te verzamelen. Het handmatig verzamelen van gegevens kan vervelend en tijdrovend zijn. In dit geval kiezen scrapers meestal voor proxies om het proces te versnellen en de beperkingen die op hen afkomen te omzeilen. Proxyscrape biedt proxies met hoge bandbreedte die onbeperkt gegevens kunnen schrapen en 24/7 werken om ononderbroken functionaliteit te garanderen. Hun proxy anonimiteitsniveau is hoog genoeg om de identiteit van de scrapers te verbergen.
Het maken van een potentiële contactlijst met gekwalificeerde e-mailadressen zal het proces van het bereiken van de doelgroep vergemakkelijken. Omdat de meeste mensen e-mail als communicatiemedium gebruiken, is het gemakkelijker om ze via e-mailadressen te bereiken.
Bij het scrapen van e-mailadressen uit meerdere bronnen kunnen scrapers te maken krijgen met uitdagingen zoals IP-blokkades of geografische barrières. In dit geval zal proxies de adressen van gebruikers verbergen met het proxy adres en de blokkades voor toegang tot geblokkeerde websites opheffen.
Het is altijd legaal om openbaar beschikbare gegevens te verzamelen. Scrapers moeten er dus voor zorgen dat de gegevens die ze verzamelen beschikbaar zijn in het publieke domein. Zo niet, dan kunnen ze gegevens verzamelen met voorafgaande toestemming om de legaliteit van het scrapen te behouden.
In dit artikel hebben we nog een wonder van web scraping verkend door een praktisch voorbeeld te tonen van het schrapen van e-mailadressen. We hebben de meest intelligente aanpak geprobeerd door onze webcrawler met Python te maken en het is de eenvoudigste en toch krachtigste bibliotheek met de naam BeautfulSoup. Webscraping kan enorm nuttig zijn als het op de juiste manier wordt gedaan, rekening houdend met je vereisten. Hoewel we een zeer eenvoudige code hebben geschreven voor het scrapen van e-mailadressen, is deze volledig gratis en hoef je hiervoor niet afhankelijk te zijn van andere diensten. Ik heb mijn best gedaan om de code zoveel mogelijk te vereenvoudigen en heb ook ruimte voor maatwerk toegevoegd, zodat je de code kunt optimaliseren volgens je eigen vereisten.