wollen helfen? Hier sind Ihre Möglichkeiten:","Crunchbase","Über uns","Vielen Dank an alle für die großartige Unterstützung!","Schnelle Links","Partnerprogramm","Prämie","ProxyScrape Premium-Testversion","Proxy-Typen","Proxy-Länder","Proxy-Einsatzfälle","Wichtig","Cookie-Politik","Haftungsausschluss","Datenschutzbestimmungen","Bedingungen und Konditionen","Soziale Medien","Facebook","LinkedIn","Twitter","Quora","Telegramm","Diskord","\n © Copyright 2024 - Thib BV | Brugstraat 18 | 2812 Mechelen | Belgien | VAT BE 0749 716 760\n"]}
~ A webscraping tale by Arya - A ProxyScrape user
Nur um das klarzustellen, muss ich darauf hinweisen, dass ich kein offizieller Vertreter von ProxyScrape bin. Ich bin jedoch ein großer Fan und Kunde der Dienste von . Wenn Sie deren Dienste noch nicht nutzen, empfehle ich Ihnen, dies zu tun! Die folgenden Meinungen und Gedanken sind ausschließlich meine eigenen.
"Oh $!*^, das gibt's doch nicht"
Genau das habe ich nachts um 3 Uhr gemurmelt und mich mit der Erkenntnis auseinandergesetzt, dass ein Unternehmen, das einst so trendy war wie Milchlieferungen, etwas, das die meisten Menschen in die Ära der Disco-Musik und der wilden Neon-Outfits verbannt hätten, immer noch wie ein schlechter Haarschnitt aus den 80ern herumläuft - und leider ist es überall.
Dieses Unternehmen war in seiner Blütezeit eine echte Größe. In seiner Blütezeit konnte man ihm nicht entkommen. Heute wird sein Name nur noch in Altersheimen mit einem Hauch von Nostalgie gemurmelt.
"YellowPages".
You might be wondering, “Why does this matter? Why should anyone give a damn? Why is this not a 30s TikTok with a dude playing GTA 5 on the other half of it?” Well, one of the hottest uses for web scraping is lead discovery and generation. In our capitalist wonderland where everyone’s peddling some crazy sh*t, it just makes sense to scour the internet for the suckers who’ll “HODL” and “FOMO” into your crypto timeshare that’s shaped like “half a rhombus”. And hey, just to be clear, “it’s NOT a pyramid scheme… it’s just shaped like those famous pointy things in Egypt.”
So, here’s the kicker. One of the absolute gems for B2B lead generation, in my humble opinion, is none other than YellowPages (or Yell for you “chewsday” people). Why? Well, let me break it down:
"Wand der Schande": Die Relikte, die das Internetzeitalter noch nicht ganz eingeholt haben, hängen dort immer noch herum. Wahrscheinlich schlummert dort das Geschäft Ihres Großvaters, genau wie die SMMA, die Sie wegen TikToks gegründet und nach drei Monaten abgeschafft haben und die nun in den Google-Unternehmensverzeichnissen verewigt ist.
"Ich bin nicht wie andere Mädchen": Während die frischgebackenen Scraper glauben, dass Google Maps der heilige Gral für kleine Unternehmen ist, weiß jeder versierte Scraper, dass das ein Haufen Mist ist - es ist gesättigt, jeder 14-Jährige, der von einem bestimmten glatzköpfigen Mann inspiriert wurde, hat diese Unternehmen belästigt.
"wie einem Baby die Süßigkeiten wegnehmen": Die Websites von YellowPages und ihren Ablegern sind nicht im Geringsten geschützt. Ich könnte jedes einzelne Unternehmen in ihrem Verzeichnis innerhalb von Sekunden ausfindig machen. Wir sprechen hier von DUTZENDEN MILLIONEN von Leads.
Sicher, in Marketingkreisen ist es vielleicht nicht das Schlagwort schlechthin, aber genau darin liegt die Chance. Während andere den neuesten Trends hinterherjagen, erkennen die wenigen Erfahrenen das Potenzial in den vergessenen Ecken des Internets. Die Gelben Seiten mögen ein Relikt aus der Vergangenheit sein, aber in der Welt der Lead-Generierung sind sie ein Relikt mit ungenutztem Potenzial und einem Fahrplan zum Erfolg.
Sie fragen sich jetzt vielleicht: "Wie kann ich eine solche Gelegenheit nutzen?" - Lassen Sie uns gemeinsam jeden Schritt durchgehen, und hoffentlich werden sogar einige von Ihnen Neandertalern am Ende in der Lage sein, YellowPages zu kratzen.
Wir werden dies wie jede andere Website angehen. Der erste Schritt ist herauszufinden, wie die Website funktioniert. Das erfordert normalerweise, dass Sie, ja, Sie, herausfinden, wie Sie zu den saftigen Daten navigieren können. Nein $!*^... wie willst du die Daten extrahieren, wenn du sie nicht finden kannst?!?
Shown Above: YellowPages Canada’s landing page, the unfortunate victim of this post.
Wie Sie oben auf der Landing Page sehen können, gibt es zwei Texteingaben - eine für Ihren Suchbegriff und die andere für den Ort. Füllen Sie diese aus und führen Sie eine Suche durch; ich werde nach "Zahnärzten" in "Toronto, Ontario" suchen.
Shown Above: YellowPages Canada’s listing results page.
Sobald Sie Ihr ABC herausgefunden und ausgefüllt haben und es geschafft haben, die Schaltfläche "Suchen" zu finden UND anzuklicken (ich bin beeindruckt), sollten Sie auf eine Seite wie die oben abgebildete weitergeleitet werden, die einen Pfad wie den folgenden hat:
/Suche/si/1/Zahnärzte/Toronto+ON
Wir können die folgende Pfadstruktur ableiten (dies wird sich später als nützlich erweisen):
/search/si/[Seitenzahl]/[Suchbegriff]/[Ort]+[Regionalcode]
Eine andere Sache zu beachten, haben wir bereits die Daten, die wir wollen, die Business-Listen - lassen Sie uns herausfinden, wo diese Business-Listen sind in geladen werden, sollte es innerhalb des Dokuments gesendet werden ODER von einem API-Endpunkt abgerufen (oder wenn Sie wonky sind, und glauben Sie mir, ich habe es gesehen - Websockets).
Oben abgebildet: Die von der Seite ausgehenden Fetch/XHR-Anfragen. (Spoiler: Die Daten sind in keiner von ihnen enthalten.)
Oben abgebildet: Die Unternehmenseinträge im Dokument. (OMGEEE Die Daten befanden sich tatsächlich im Dokument.)
As we sifted through the API requests, looking for the data, it was proven futile. We then turned our attention to the HTML. Now, here’s a little nugget of insight for you – after “navigating the digital landscape for over a decade”, I knew instinctively that the data was within the document, thanks to the pages’ snappy responsiveness.
Bleiben wir aber realistisch. In Anbetracht des Status von YellowPages als Telefonbuchunternehmen, das verzweifelt nach Relevanz und, was noch wichtiger ist, nach Einnahmen sucht, ist es unwahrscheinlich, dass sie mit hochmodernen Tech-Stacks protzen. Die Chancen, dass sie Entwickler einstellen, die mit Flanellhemden herumlaufen und fünfzig React-basierte To-Do-Apps in ihrem Lebenslauf haben, sind gering bis gar nicht vorhanden. Sind wir also wirklich schockiert, dass die Webseite statisch ist?
Die Angebote auf der Seite sind jedoch in einem div enthalten, das mit dem Selektor "div.resultList" extrahiert werden kann. Jede einzelne Auflistung, die bequem innerhalb des oben genannten Elements verschachtelt ist, kann mit dem Selektor "div.resultList" extrahiert werden. div[itemtype="http://schema.org/LocalBusiness]
Ich überlasse es Ihnen, herauszufinden, wie Sie die Daten jenseits dieser Granularität einzeln extrahieren können; andernfalls würden wir uns hier ewig aufhalten. Verwenden Sie das Attribut "itemprop" - es sollte den Prozess für Sie erheblich erleichtern.
Now, to automate extraction: You should paginate through the results using the URL (recall the path structure we discussed earlier), extracting elements and data from each page until you hit an empty page. I personally opted to use Rust for this project as it’s fast and provides easy parallelization (which will be important in a second), leveraging the “reqwest” and “select” crates to handle the heavy lifting. And here’s a few pro tips: remember to rotate your user agent, set your referrer correctly, use a proxy, and PLEASE don’t DDOS them.
Oben abgebildet: Die leere Ergebnisseite von YellowPages.
Your script should be good to go now. But how can we elevate this even further? Let’s put our singular combined brain cell to work and ponder… “Do we need to sequentially request each page?” Absolutely not. YellowPages makes it remarkably easy for us to parallelize this process by providing the number of pages available for the query – hint, hint, wink, wink.
Oben abgebildet: Die Seitenzahl von YellowPages am unteren Rand der Ergebnisseite.
Allerdings gibt es bei dieser Parallelisierungsstrategie einen Haken: YellowPages zeigt zwar an, dass es mehr als 60 Ergebnisseiten gibt, aber wenn Sie versuchen, auf eine Seite über 60 hinaus zuzugreifen, wird diese nicht angezeigt. Legen Sie daher eine harte Obergrenze für Ihre Parallelisierung bei 60 fest. Ausgehend von einer angemessenen Bandbreite und Rechenleistung sollte jede Ergebnisseite in der gleichen Zeit abgefragt werden, die Sie für die Abfrage einer Seite im sequenziellen Modell benötigen würden.
Oben abgebildet: Beispiel für extrahierte YellowPages-Listing-Daten.
Jetzt werden Sie sich vielleicht fragen: War das Clickbait? Was hat der "Millionär"-Teil mit all dem zu tun? Nun, wenn Sie mir gefolgt sind und nun ein funktionierendes Skript besitzen, kann ich Ihnen vielleicht persönlich bestätigen, dass nichts Sie davon abhält, theoretisch jede Stadt in Kanada zu durchforsten und jeden Firmeneintrag aus einer Suchanfrage in dieser Stadt von YellowPages abzurufen. Diese Daten können buchstäblich einen Dollarwert in Millionenhöhe haben, wenn sie richtig erweitert werden, aber es sind auch buchstäblich Millionen von Unternehmen in ihrem Verzeichnis, die jetzt in Ihrer Reichweite sind.
Die Gelben Seiten mögen Erinnerungen an eine vergangene Ära wecken, doch ihr Potenzial für die B2B-Leadgenerierung bleibt eine verborgene Fundgrube in der digitalen Landschaft. Wenn man die Eigenheiten der statischen Weboberfläche durchschaut und die Daten dieser scheinbar veralteten Plattform ausschöpft, kann man eine riesige Bandbreite an Geschäftskontakten entdecken. Die übersehene und unzureichend genutzte Natur von YellowPages macht sie zu einer einzigartigen Gelegenheit.
Mein einziges Ziel ist es, dass dieser Blog-Beitrag Sie nicht mit dem Gedanken zurücklässt, "der wahre Schatz waren die Freunde, die wir auf dem Weg gefunden haben" - ich hoffe, dass er sowohl die einzigartigen Möglichkeiten aufzeigt, die sich vor allem mit den Fähigkeiten ergeben, die so viele von uns als selbstverständlich ansehen, als auch hoffentlich als interessante Lektüre für diejenigen von Ihnen diente, die bereits Erfahrung in diesem Bereich haben, und denjenigen von Ihnen, die es nicht sind, einen Einblick gab.
Wie immer gilt: Bleiben Sie sicher, schützen Sie sich, und um Himmels willen... tun Sie nichts, was das FBI auf den Plan ruft - in diesem Fall wäre es die RCMP.
Oben abgebildet: Das kanadische Pendant zum FBI - die RCMP.