dunkel proxyscrape logo

Wie ich zum Lead-"Millionär" wurde

Feb-01-20245 Min. gelesen

~ A webscraping tale by Arya - A ProxyScrape user

Nur um das klarzustellen, muss ich darauf hinweisen, dass ich kein offizieller Vertreter von ProxyScrape bin. Ich bin jedoch ein großer Fan und Kunde der Dienste von . Wenn Sie deren Dienste noch nicht nutzen, empfehle ich Ihnen, dies zu tun! Die folgenden Meinungen und Gedanken sind ausschließlich meine eigenen.


"Oh $!*^, das gibt's doch nicht"

Genau das habe ich nachts um 3 Uhr gemurmelt und mich mit der Erkenntnis auseinandergesetzt, dass ein Unternehmen, das einst so trendy war wie Milchlieferungen, etwas, das die meisten Menschen in die Ära der Disco-Musik und der wilden Neon-Outfits verbannen würden, immer noch wie ein schlechter Haarschnitt aus den 80ern herumläuft - und leider überall zu finden ist.

Dieses Unternehmen war in seiner Blütezeit eine echte Größe. In seiner Blütezeit konnte man ihm nicht entkommen. Heute wird sein Name nur noch in Altersheimen mit einem Hauch von Nostalgie gemurmelt.

"YellowPages".

Sie fragen sich vielleicht: "Warum ist das wichtig? Warum sollte das jemanden interessieren? Warum ist das kein 30er-Jahre-TikTok mit einem Kerl, der auf der anderen Hälfte GTA 5 spielt?" Nun, eine der heißesten Anwendungen für Web Scraping ist die Entdeckung und Generierung von Leads. In unserem kapitalistischen Wunderland, in dem jeder mit irgendeinem verrückten Scheiß hausieren geht, macht es einfach Sinn, das Internet nach den Trotteln zu durchforsten, die "HODL" und "FOMO" in Ihr Krypto-Timeshare, das wie eine "halbe Raute" geformt ist, investieren werden. Und hey, nur um das klarzustellen: "Es ist KEIN Schneeballsystem... es ist nur so geformt wie diese berühmten spitzen Dinger in Ägypten."

So, here’s the kicker. One of the absolute gems for B2B lead generation, in my humble opinion, is none other than YellowPages (or Yell for you “chewsday” people). Why? Well, let me break it down:

  1. "Wand der Schande": Die Relikte, die das Internetzeitalter noch nicht ganz eingeholt haben, hängen dort immer noch herum. Wahrscheinlich schlummert dort das Geschäft Ihres Großvaters, genauso wie das SMMA, das Sie wegen TikToks gegründet und nach drei Monaten abgeschafft haben und das nun in den Google-Unternehmensverzeichnissen verewigt ist.

  1. "Ich bin nicht wie andere Mädchen": Während die frischgebackenen Scraper glauben, dass Google Maps der heilige Gral für kleine Unternehmen ist, weiß jeder versierte Scraper, dass das ein Haufen Mist ist - es ist gesättigt, jeder 14-Jährige, der von einem bestimmten glatzköpfigen Mann inspiriert wurde, hat diese Unternehmen belästigt.

  1. "wie einem Baby die Süßigkeiten wegnehmen": Die Websites von YellowPages und ihren Ablegern sind nicht im Geringsten geschützt. Ich könnte jedes einzelne Unternehmen in ihrem Verzeichnis innerhalb von Sekunden ausfindig machen. Wir sprechen hier von DUTZENDEN MILLIONEN von Leads.

Sicher, in Marketingkreisen ist es vielleicht nicht das Schlagwort schlechthin, aber genau darin liegt die Chance. Während andere den neuesten Trends hinterherjagen, erkennen die wenigen Erfahrenen das Potenzial in den vergessenen Ecken des Internets. Die Gelben Seiten mögen ein Relikt aus der Vergangenheit sein, aber in der Welt der Lead-Generierung sind sie ein Relikt mit ungenutztem Potenzial und einem Fahrplan zum Erfolg.

Sie fragen sich jetzt vielleicht: "Wie kann ich eine solche Gelegenheit nutzen?" - Lassen Sie uns gemeinsam jeden Schritt durchgehen, und hoffentlich werden sogar einige von Ihnen Neandertalern am Ende in der Lage sein, YellowPages zu kratzen.

Wir werden dies wie jede andere Website angehen. Der erste Schritt ist herauszufinden, wie die Website funktioniert. Das erfordert normalerweise, dass Sie, ja, Sie, herausfinden, wie Sie zu den saftigen Daten navigieren können. Nein $!*^... wie willst du die Daten extrahieren, wenn du sie nicht finden kannst?!?

Oben abgebildet: Die Landing Page von YellowPages Canadadas unglückliche Opfer dieses Beitrags.

Wie Sie oben auf der Landing Page sehen können, gibt es zwei Texteingaben - eine für Ihren Suchbegriff und die andere für den Ort. Füllen Sie diese aus und führen Sie eine Suche durch; ich werde nach "Zahnärzten" in "Toronto, Ontario" suchen.

Oben abgebildet: Die Ergebnisseite von YellowPages Canada.

Sobald Sie Ihr ABC herausgefunden und ausgefüllt haben und es geschafft haben, die Schaltfläche "Suchen" zu finden UND anzuklicken (ich bin beeindruckt), sollten Sie auf eine Seite wie die oben abgebildete weitergeleitet werden, die einen Pfad wie den folgenden hat:

/Suche/si/1/Zahnärzte/Toronto+ON

Wir können die folgende Pfadstruktur ableiten (dies wird sich später als nützlich erweisen):


/search/si/[Seitenzahl]/[Suchbegriff]/[Ort]+[Regionalcode]

Eine andere Sache zu beachten, haben wir bereits die Daten, die wir wollen, die Business-Listen - lassen Sie uns herausfinden, wo diese Business-Listen sind in geladen werden, sollte es innerhalb des Dokuments gesendet werden ODER von einem API-Endpunkt abgerufen (oder wenn Sie wonky sind, und glauben Sie mir, ich habe es gesehen - Websockets).

Oben abgebildet: Die von der Seite ausgehenden Fetch/XHR-Anfragen. (Spoiler: Die Daten sind in keiner von ihnen enthalten.)

Oben abgebildet: Die Unternehmenseinträge im Dokument. (OMGEEE Die Daten befanden sich tatsächlich im Dokument.)

Als wir die API-Anfragen auf der Suche nach den Daten durchforsteten, erwies sich dies als vergeblich. Daraufhin wandten wir unsere Aufmerksamkeit dem HTML-Code zu. Hier ein kleiner Einblick für Sie - nachdem ich "seit über einem Jahrzehnt durch die digitale Landschaft navigiere", wusste ich instinktiv, dass die Daten im Dokument waren, dank der schnellen Reaktionsfähigkeit der Seiten.

Bleiben wir aber realistisch. In Anbetracht des Status von YellowPages als Telefonbuchunternehmen, das verzweifelt nach Relevanz und, was noch wichtiger ist, nach Einnahmen sucht, ist es unwahrscheinlich, dass sie mit hochmodernen Tech-Stacks protzen. Die Chancen, dass sie Entwickler einstellen, die mit Flanellhemden herumlaufen und fünfzig React-basierte To-Do-Apps in ihrem Lebenslauf haben, sind gering bis gar nicht vorhanden. Sind wir also wirklich schockiert, dass die Webseite statisch ist?

Die Angebote auf der Seite sind jedoch in einem div enthalten, das mit dem Selektor "div.resultList" extrahiert werden kann. Jede einzelne Auflistung, die bequem innerhalb des oben genannten Elements verschachtelt ist, kann mit dem Selektor "div.resultList" extrahiert werden. div[itemtype="http://schema.org/LocalBusiness] 

Ich überlasse es Ihnen, herauszufinden, wie Sie die Daten jenseits dieser Granularität einzeln extrahieren können; andernfalls würden wir uns hier ewig aufhalten. Verwenden Sie das Attribut "itemprop" - es sollte den Prozess für Sie erheblich erleichtern.

Nun zur Automatisierung der Extraktion: Sie sollten die Ergebnisse anhand der URL paginieren (erinnern Sie sich an die Pfadstruktur, die wir zuvor besprochen haben) und Elemente und Daten von jeder Seite extrahieren, bis Sie auf eine leere Seite stoßen. Ich persönlich habe mich für dieses Projekt für Rust entschieden, da es schnell ist und eine einfache Parallelisierung ermöglicht (was in einer Sekunde wichtig sein wird), wobei ich die Kisten "reqwest" und "select" nutze, um die schwere Arbeit zu erledigen. Und hier noch ein paar Profi-Tipps: Denken Sie daran, Ihren User-Agent zu wechseln, Ihren Referrer richtig einzustellen, einen Proxy zu verwenden und BITTE kein DDOS zu machen.

Oben abgebildet: Die leere Ergebnisseite von YellowPages.

Your script should be good to go now. But how can we elevate this even further? Let’s put our singular combined brain cell to work and ponder… “Do we need to sequentially request each page?” Absolutely not. YellowPages makes it remarkably easy for us to parallelize this process by providing the number of pages available for the query – hint, hint, wink, wink.

Oben abgebildet: Die Seitenzahl von YellowPages am unteren Rand der Ergebnisseite.

Allerdings gibt es bei dieser Parallelisierungsstrategie einen Haken: YellowPages zeigt zwar an, dass es mehr als 60 Ergebnisseiten gibt, aber wenn Sie versuchen, auf eine Seite über 60 hinaus zuzugreifen, wird diese nicht angezeigt. Legen Sie daher eine harte Obergrenze für Ihre Parallelisierung bei 60 fest. Ausgehend von einer angemessenen Bandbreite und Rechenleistung sollte jede Ergebnisseite in der gleichen Zeit abgefragt werden, die Sie für die Abfrage einer Seite im sequenziellen Modell benötigen würden.

Oben abgebildet: Beispiel für extrahierte YellowPages-Listing-Daten.

Jetzt werden Sie sich vielleicht fragen: War das Clickbait? Was hat der "Millionär"-Teil mit all dem zu tun? Nun, wenn Sie mir gefolgt sind und nun ein funktionierendes Skript besitzen, kann ich Ihnen vielleicht persönlich bestätigen, dass nichts Sie davon abhält, theoretisch jede Stadt in Kanada zu durchforsten und jeden Firmeneintrag aus einer Suchanfrage in dieser Stadt von YellowPages abzurufen. Diese Daten können buchstäblich einen Dollarwert in Millionenhöhe haben, wenn sie richtig erweitert werden, aber es sind auch buchstäblich Millionen von Unternehmen in ihrem Verzeichnis, die jetzt in Ihrer Reichweite sind.

Die Gelben Seiten mögen Erinnerungen an eine vergangene Ära wecken, doch ihr Potenzial für die B2B-Leadgenerierung bleibt eine verborgene Fundgrube in der digitalen Landschaft. Wenn man die Eigenheiten der statischen Weboberfläche durchschaut und die Daten dieser scheinbar veralteten Plattform ausschöpft, kann man eine riesige Bandbreite an Geschäftskontakten entdecken. Die übersehene und unzureichend genutzte Natur von YellowPages macht sie zu einer einzigartigen Gelegenheit.

Mein einziges Ziel ist es, dass dieser Blog-Beitrag Sie nicht mit dem Gedanken zurücklässt, "der wahre Schatz waren die Freunde, die wir auf dem Weg gefunden haben" - ich hoffe, dass er sowohl die einzigartigen Möglichkeiten aufzeigt, die sich vor allem mit den Fähigkeiten ergeben, die so viele von uns als selbstverständlich ansehen, als auch hoffentlich als interessante Lektüre für diejenigen von Ihnen diente, die bereits Erfahrung in diesem Bereich haben, und denjenigen von Ihnen, die es nicht sind, einen Einblick gab.

Wie immer gilt: Bleiben Sie sicher, schützen Sie sich, und um Himmels willen... tun Sie nichts, was das FBI auf den Plan ruft - in diesem Fall wäre es die RCMP.

Oben abgebildet: Das kanadische Pendant zum FBI - die RCMP.