Web Scraping für die Lead-Generierung: Tausende von Leads an Ihren Fingerspitzen

Kratzen, Mar-06-20245 Min. gelesen

Warum die Lead-Generierung wichtig ist Die Lead-Generierung ist ein wesentlicher Bestandteil des Wachstums Ihres Unternehmens. Wenn Ihr Vertriebsteam keine Leads hat, die es ansprechen kann, kann es seine Arbeit nicht machen. Kaltakquise ist selten effektiv, vor allem bei Marken, die höherwertige Produkte verkaufen, bei denen der Gedanke an einen Kauf mit einigen Reibungen verbunden ist. Jeder Verkauf begann als

Inhaltsübersicht

Warum Lead Generation wichtig ist

Die Lead-Generierung ist ein wesentlicher Bestandteil des Wachstums Ihres Unternehmens. Wenn Ihr Vertriebsteam keine Leads hat, die es ansprechen kann, kann es seine Arbeit nicht machen. Kaltakquise ist selten effektiv, vor allem bei Marken, die höherwertige Produkte verkaufen, bei denen der Gedanke an einen Kauf mit einigen Reibungen verbunden ist.

Jeder Verkauf hat als Lead begonnen

Verkäufe entstehen durch Leads. Der Technology Content Marketing: Benchmarks, Budgets and Trends " des Content Marketing Institute und MarketingProfs zeigt, dass 77 % der Tech-Vermarkter marketingqualifizierte Leads nutzen, um den Verkauf voranzutreiben (Anstieg von 64 % im Jahr 2019).

Qualifizierte Leads sind leichter zu konvertieren, da es sich um Personen (oder Unternehmen) handelt, die bereits Interesse an Ihrem Produkt oder Ihrer Dienstleistung bekundet haben. Indem Sie Ihre Zielgruppe ermitteln und Ihre Marketingmaßnahmen gezielt auf diese Personen ausrichten, sparen Sie Ihrem Vertriebsteam Zeit und Energie, sodass es sich auf die hochwertigsten Interessenten konzentrieren kann.

Die Macht des Internets an Ihren Fingerspitzen

Die Gewinnung von Kundenkontakten ist heute einfacher als je zuvor. Sofortige Kommunikation, zielgerichtete Social-Media-Marketing-Optionen und der Zugang zu Datenbanken, die fast jede erdenkliche Information enthalten, bedeuten, dass Kleinunternehmer die Macht haben, alles zu erreichen, was sie sich vorgenommen haben.

Früher musste man, wenn man eine bestimmte Zielgruppe erreichen wollte, viel Geld an ein Marketingunternehmen zahlen, um Flugblätter per Post an die Unternehmen in deren Datenbank zu schicken.

Heute ist das nicht mehr nötig. Wenn Sie eine Liste mexikanischer Restaurants an der Ostküste oder von K-12-Schulen in Ihrem Bundesland suchen, können Sie diese online finden. Unternehmen, die im B2B-Bereich tätig sind, können schnell und einfach eine Datenbank mit potenziellen Kunden aufbauen, diese Liste dann filtern und maßgeschneiderte Marketingbotschaften versenden.

Für B2B-Unternehmen, die auf ein relativ kleines geografisches Gebiet abzielen, könnte eine einfache Websuche ausreichen, um eine Liste potenzieller Kunden zu finden. Wenn Sie jedoch Unternehmen im ganzen Land oder sogar landesweit erreichen wollen, wäre die manuelle Erfassung all dieser Daten sehr zeitaufwändig.

Web Scraping kann Ihnen und Ihrem Marketingteam viel Zeit und Geld sparen, da die benötigten Daten automatisch erfasst werden.

Was ist Web Scraping?

Web Scraping ist eine automatisierte Technik zum Extrahieren von Daten aus einer Website oder mehreren Websites, damit Sie die Daten in anderen Anwendungen verwenden können. Nehmen wir zum Beispiel an, Sie möchten eine Liste mit Namen und Adressen von Restaurants in Ihrer Umgebung erstellen, anstatt manuell jedes einzelne lokale Restaurant auf Yelp oder Tripadvisor zu besuchen. In diesem Fall könnten Sie einen Web Scraper verwenden, um diese Seiten zu durchsuchen und die Details zu extrahieren und eine Liste zu erstellen, die Sie für Mailings verwenden können.

Web Scraping kann Unternehmen viel Zeit und Mühe ersparen, wenn es um den Aufbau einer Marketingliste geht. Außerdem ist es überraschend einfach, wenn man über die richtigen Tools oder Programmierkenntnisse verfügt.

Wie funktionieren Web Scraper?

Web Scraper arbeiten, indem sie die Seiten laden, aus denen Sie Daten extrahieren möchten, und dann die Seite lesen, um nach der Art von Informationen zu suchen, die Sie zu finden versuchen. Diese Informationen könnten sein:

  • Firmennamen
  • Telefonnummern
  • E-Mail-Adressen
  • Postanschriften
  • Adressen der Website

Wenn ein Web Scraper eine Seite herunterlädt, liest er den Quellcode, um nach Mustern zu suchen. Je nach Website, von der Sie die Daten abrufen, könnte er einfach nach etwas suchen, das dem Muster 123-456-78901 einer Telefonnummer oder dem Format [email protected] einer E-Mail-Adresse entspricht.

Alternativ kann der Entwickler des Scrapers auch wissen, dass auf einer bestimmten Verzeichnis-Website die Kontaktdaten von einer bestimmten Reihe von Tags im HTML-Code umgeben sind, und den Scraper veranlassen, die Informationen zwischen diesen Tags zu extrahieren.

Einige Scraper-Software kann vom Endbenutzer konfiguriert werden, so dass man ihr beibringen kann, fast jede Website zu verstehen.

Herausforderungen bei der Verwendung von Abstreifern

Ein Problem bei der Verwendung von Scraper-Software ist, dass Vorschriften wie die EU-Grundverordnung (GDPR) bedeuten, dass die Benutzer sehr vorsichtig mit den Daten sein müssen, die sie sammeln und wie sie verwendet werden. Nach der GDPR muss eine Organisation die Erlaubnis einer Person haben, um Daten über eine Person zu speichern oder zu verarbeiten.

Einige Websites versuchen, die Privatsphäre ihrer Nutzer zu schützen und ihre eigenen Serverressourcen zu schonen, indem sie versuchen, Web-Scraper zu blockieren. Hierfür gibt es mehrere Möglichkeiten, z. B. die Überprüfung des von der Client-Software zurückgegebenen "Benutzeragenten" und die Begrenzung der Anzahl der Anfragen für Seiten, die von einer bestimmten IP-Adresse kommen.

Wenn Sie Scraper effektiv einsetzen wollen, müssen Sie sich über die Marketingregeln Ihres Landes im Klaren sein, die gesammelten Daten verantwortungsvoll verarbeiten und wissen, wie Sie Daten aus den von Ihnen gewählten Quellen auf effiziente, nicht destruktive Weise sammeln können, damit Sie nicht von der betreffenden Website ausgeschlossen werden.

Unter ProxyScrape bieten wir beispielsweise Proxys für Privatanwender an, die für die Datenerfassung genutzt werden können. Wir empfehlen, dass Sie, wenn Sie die Verwendung dieser Proxys in Erwägung ziehen, sicherstellen, dass Ihr Scraper nicht eine übermäßige Anzahl von Anfragen an eine Zielwebsite in kurzer Zeit stellt. Scrapen Sie verantwortungsbewusst, damit Sie den Websites, mit denen Sie arbeiten, keinen Schaden zufügen.

Auswahl von Datenquellen für qualitativ hochwertige Leads

Durch das Scraping von Inhalten erhalten Unternehmen Zugang zu riesigen Informationsmengen, die sonst nur schwer zu beschaffen wären, aber diese Informationen sind nur so nützlich wie die Quelle, aus der sie stammen.

Eine der Herausforderungen beim Sammeln von Daten durch Scraping besteht darin, sicher zu sein, dass die Informationen aktuell sind. Es gibt Tausende von Verzeichnissen im Internet, und viele von ihnen sind schlecht kuratiert und veraltet.

Wenn Sie Daten aus einer veralteten, minderwertigen Quelle sammeln, verschwenden Sie bestenfalls Zeit mit E-Mails, die nicht gelesen werden. Im schlimmsten Fall sehen Sie sich mit Beschwerden konfrontiert, weil Sie wiederholt unaufgefordert bei einer Nummer angerufen haben, die nicht mehr dem Unternehmen gehört, von dem Sie dachten, es gehöre dazu.

Wie können Sie also die Chancen erhöhen, dass die von Ihnen gesammelten Daten nützlich sind?

Wählen Sie Ihre Datenquelle mit Bedacht

Bevor Sie mit der Datenerfassung mithilfe eines Scraping-Tools beginnen, sollten Sie die Website, mit der Sie arbeiten möchten, manuell überprüfen. Sammeln Sie ein paar Leads von Hand und untersuchen Sie sie.

Sind die Unternehmen noch in Betrieb? Sind die Kontaktangaben noch korrekt? Sieht es so aus, als würde der Eigentümer des Verzeichnisses die Informationen überprüfen, bevor sie hinzugefügt werden?

Angenommen, die Hälfte der Leads, die Sie manuell erfassen, ist tot, veraltet oder möglicherweise gefälscht. In diesem Fall ist die Wahrscheinlichkeit groß, dass jede Datenbank, die Sie durch Scraping dieser Website erstellen, von geringer Qualität ist.

Größere Verzeichnisseiten wie Tripadvisor, Yelp oder FourSquare verfügen mit größerer Wahrscheinlichkeit über qualitativ hochwertige Daten als kleinere, weniger bekannte Verzeichnisse, da diese Plattformen von einer viel größeren Zahl von Nutzern aktualisiert werden.

Nischenverzeichnisse können nützlich sein, wenn Sie eine obskure Interessengruppe oder ein hochspezialisiertes Unternehmen ansprechen wollen, aber Sie sollten damit rechnen, dass Sie eine Menge Daten bereinigen müssen, bevor Sie die gesammelten Informationen für Marketingzwecke nutzen können.

Berücksichtigen Sie Websites, die eine Anmeldung erfordern

In vielen Fällen erhalten Sie weitaus wertvollere Daten, wenn Sie sie von einer Website sammeln, für die eine Anmeldung erforderlich ist. LinkedIn und Twitter zum Beispiel können gescraped werden, wenn Sie einen Ratenbegrenzer verwenden, um die Anzahl der von Ihrem Bot gesendeten Anfragen auf ein vernünftiges Maß zu beschränken, und wenn Sie auf der Website angemeldet sind, wenn Sie die Anfragen stellen.

Eine andere Möglichkeit besteht darin, anstelle eines einfachen HTTP-Scrapers eine API zu verwenden und Details von einem der beliebten Kartendienste zu sammeln. Google stellt beispielsweise eine API für die Unternehmenssuche zur Verfügung, mit der Sie Informationen über die in Google Maps enthaltenen Unternehmen sammeln können, aber Sie müssen sich mit den Nutzungsbedingungen von Google einverstanden erklären, bevor Sie auf die API zugreifen.

Wenn eine API verfügbar ist, ist es im Allgemeinen besser, die Daten über diese API zu sammeln, als Web Scraping zu verwenden. Es ist viel unwahrscheinlicher, dass Sie Probleme mit Website-Besitzern bekommen, und es ist einfacher, die über eine API gelieferten Daten zu bereinigen.

Bauen Sie Ihre Abfragen richtig auf

In der Computerprogrammierung gibt es das Sprichwort "Garbage in, garbage out", und das gilt ganz sicher für die Datenerfassung. Stellen Sie sicher, dass Sie alle Suchvorgänge, die Sie durchführen, sorgfältig konstruieren.

Wenn Sie z. B. Bauherren in Newcastle ansprechen wollen, sollten Sie nicht vergessen, dass es mehr als ein Newcastle in England und auch ein Newcastle in Australien gibt. Wenn Sie über einen Proxy nach "Newcastle" suchen, versuchen die meisten Websites zu erraten, welches Newcastle Sie meinen, indem sie nachsehen, welches dem geografischen Standort des Proxys am nächsten liegt.

Versuchen Sie, die Suche so weit wie möglich einzugrenzen und geben Sie Informationen zu Stadt, Bundesland und sogar Land an, wenn die Ziel-Website dies zulässt. So vermeiden Sie, dass Sie in einer Datenbank voller Kontaktdaten von Organisationen landen, die Hunderte von Kilometern von Ihrem Wunschgebiet entfernt sind.

Optionen für Scraper-Software: Beliebte Tools

Web Scraping kann so einfach oder so komplex sein, wie Sie es wünschen. Wenn Sie Scraping zum ersten Mal ausprobieren, müssen Sie nicht viel Geld für eine anspruchsvolle Software ausgeben.

Einige gute Optionen sind:

  • Abstreifer
  • ProWebScraper
  • Scrapy

Scraper ist eine Webbrowser-Erweiterung, mit der Benutzer schnell und einfach Daten aus Webseiten extrahieren können. Wenn Sie Informationen von einer einzelnen Ergebnisseite oder einer kleinen Anzahl von Seiten abrufen möchten, ist Scraper eine einfache und effektive Möglichkeit, dies zu tun, und Sie werden feststellen, dass es viel einfacher zu bedienen ist als ein anspruchsvoller Web-Crawler.

ProWebScraper ist ein fortschrittlicheres Tool, das über eine kostenlose und eine Premium-Version verfügt. Das kostenlose Tool kann zum Scrapen von bis zu 100 Seiten verwendet werden, was bedeutet, dass es für ein kleineres Nischenunternehmen ausreichend sein sollte. ProWebScraper ist für eine Scraping-Software relativ einfach zu bedienen. Es verfügt über eine Point-and-Click-Oberfläche und vorgefertigte Regeln, mit denen Sie das Scraping auch dann einrichten können, wenn Sie technisch nicht so versiert sind.

ProWebScraper kann Bilder herunterladen und JSON-, CSV- oder XML-Dumps erstellen. Es kann sogar so eingestellt werden, dass es Websites nach einem Zeitplan scrapt, damit Sie die Daten sammeln und Ihre Marketingunterlagen aktualisieren können.

Scrapy ist ein kostenloses und quelloffenes Web Scraping Framework. Dieses Tool erfordert technische Kenntnisse, ist aber schnell und flexibel und kann zum Scrapen großer Datenmengen verwendet werden. Scrapy kann auf Ihrem eigenen Linux-, OS X-, Windows- oder BSD-Computer oder auf einem Webserver ausgeführt werden.

Es gibt eine aktive Scrapy-Community, einschließlich IRC-Chat, Reddit und StackOverflow. Sie können Ratschläge von der Community einholen und möglicherweise die Vorteile von Erweiterungen oder Modulen nutzen, die von der Community erstellt wurden, so dass Sie die Möglichkeiten von Scrapy auch dann nutzen können, wenn Sie selbst kein erfahrener Entwickler sind.

Kodierung Ihres eigenen Scrapers

Wenn Sie viele Daten sammeln müssen oder planen, regelmäßig zu scrapen, sind kostenlose Tools und GUI-basierte Tools möglicherweise nicht leistungsfähig genug für Ihren Anwendungsfall. Es ist eine gute Option, einen eigenen Scraper zu programmieren oder einen Entwickler damit zu beauftragen.

Es gibt mehrere kostenlose Open-Source-Frameworks, die für die Programmierung eines Scrapers in gängigen Sprachen wie Python, Perl, Java, R oder PHP verwendet werden können.

Eine der beliebtesten Bibliotheken für Web Scraping ist BeautifulSoup. Dabei handelt es sich um ein Python-Scraping-Tool, mit dem Sie schnell und einfach Daten aus HTML- oder XML-Dateien extrahieren können. Sie müssen einige Programmierkenntnisse haben, um es zu benutzen, aber es erledigt einen Großteil der detaillierten Arbeit des Scrapings für Sie und erspart Ihnen, das Rad neu zu erfinden.

Sobald Sie die Daten extrahiert haben, können Sie sie entweder als CSV-Datei exportieren oder sie mit einer Datenverarbeitungsbibliothek wie Pandas in verschiedenen Formaten anzeigen.

Die Vor- und Nachteile der Codierung Ihres eigenen Scrapers

Die Programmierung eines eigenen Scrapers ist eine gute Idee, wenn Sie über einige Programmierkenntnisse verfügen. Es kann auch nützlich sein, einen eigenen Scraper zu programmieren, wenn Sie viele Daten von einer ungewöhnlichen Webseite extrahieren müssen, die kostenlose Scraping-Tools nicht verarbeiten können.

Einen eigenen Scraper zu programmieren oder jemanden dafür zu bezahlen, kann eine gute Idee sein, wenn Sie spezielle, anspruchsvolle Anforderungen haben. Ein individuell programmierter Scraper kann effektiver auf eine Zielseite zugeschnitten werden als ein allgemeines Tool, so dass die Wahrscheinlichkeit geringer ist, dass Sie Fehler oder Probleme bei der Verarbeitung der Daten haben.

Umgekehrt sind benutzerdefinierte Scraper auch für kleinere, einfache Aufgaben nützlich. Wenn Sie einmal einen Scraper geschrieben haben, können Sie die Parsing-Routine optimieren und dasselbe Skript verwenden, um Daten von anderen Seiten zu extrahieren.

Wenn Sie kein erfahrener Entwickler sind, verbringen Sie möglicherweise mehr Zeit damit, sich mit der JSON-Formatierung herumzuschlagen oder eine neue Bibliothek zu erlernen, als wenn Sie einfach nur das Handbuch für ProWebScraper lesen und es konfigurieren würden.

Je nach Aufgabe kann es kostengünstiger sein, für ein Tool zu bezahlen, als ein eigenes zu schreiben.

Wenn Sie Ihr eigenes Scraper-Programm schreiben wollen, müssen Sie sich außerdem über bewährte Praktiken und Codierungsfragen im Klaren sein, z. B:

  • Verwendung eines User-Agents zur Identifizierung Ihres Bots
  • Wie Sie die Authentifizierung für Websites handhaben, die eine Anmeldung erfordern
  • Einhaltung der Bedingungen und Konditionen der Website
  • Begrenzung der Anzahl Ihrer Anfragen, um eine übermäßige Belastung der Website zu vermeiden
  • Richtig geformte Anfragen senden
  • Verwendung (und regelmäßiger Wechsel) von Proxys
  • Bereinigung von Informationen, die vom Server zurückgegeben werden
  • Datenschutzbestimmungen darüber, wie und wo Sie die zurückgesandten Informationen speichern
  • CAPTCHA-Auflösung

Es ist durchaus sinnvoll, einen kleinen Scraper zu schreiben, um Informationen über ein paar hundert oder ein paar tausend Unternehmen abzurufen. Wenn Sie größere Datenmengen abrufen wollen, sollten Sie sich beraten lassen oder mit einem Experten zusammenarbeiten, um sicherzustellen, dass Sie die lokalen Datenschutzbestimmungen vollständig einhalten.

Goldene Regeln für Web Scraping

Wenn Sie sich entscheiden, Ihren eigenen Scraper zu schreiben, denken Sie daran, "nett" zu sein. Bemühen Sie sich, rücksichtsvoll zu scrapen, senden Sie korrekt geformte Anfragen, scrapen Sie langsam und verwenden Sie eine Reihe von IP-Adressen, wenn Sie scrapen.

Versuchen Sie, Ihren Scraper wie einen Menschen aussehen zu lassen. Das bedeutet, dass Sie Seiten langsam abrufen und versuchen, beim Durchblättern der Seiten keinem festen Muster zu folgen. Denken Sie zum Beispiel daran, eine Liste von Suchergebnissen zu erstellen, eine Liste der Links auf der Ergebnisseite zu erstellen und dann diese Links in einer zufälligen Reihenfolge aufzurufen, damit es weniger offensichtlich ist, dass Sie ein Bot sind.

Senden Sie nicht mehrere Anfragen von derselben IP-Adresse gleichzeitig. Anti-Scraping-Tools werden erkennen, dass Sie den Server übermäßig belasten.

Beachten Sie die Informationen in der Robots.txt-Datei der Website. Wenn es Seiten gibt, von denen der Webmaster nicht möchte, dass sie indexiert werden. Es wäre unethisch, wenn Sie das ignorieren würden.

Erwägen Sie den Einsatz einer Bibliothek wie Selenium, um Ihren Bot menschlicher aussehen zu lassen, indem Sie Klicks an die Seite senden oder anderweitig mit ihr interagieren. Einige ausgefeiltere Anti-Scraper-Tools suchen nach "Bot-ähnlichen Interaktionsmustern" und blockieren eine IP-Adresse, wenn sie einen Mangel an Scrollen, Klicken und anderen Interaktionen feststellen.

Es gibt ein technologisches Wettrüsten zwischen Scraper-Entwicklern und denen, die versuchen, Scraper von ihren Websites fernzuhalten. Es ist sehr schwer, einen Scraper zu entwickeln, der unbemerkt große Datenmengen sammeln kann. Für kleinere oder mittelgroße Projekte sollten Sie jedoch in der Lage sein, die benötigten Daten mit einem langsamen, stetigen Scraper und einigen Proxys zu erhalten, wenn Sie die Regeln der Höflichkeit und der Nicht-Gier befolgen.

Denken Sie daran, dass Ihr Bot 24 Stunden am Tag arbeiten kann und im Hintergrund Daten sammelt. Es ist also nicht nötig, die gesamte Liste der kleinen Unternehmen auf Yelp auf einmal herunterzuladen.

Fehlerbehebung bei Scraper-Problemen

Es gibt mehrere potenzielle Probleme, die beim Betrieb eines Scrapers auftreten können. Dazu können gehören:

  • Sperrung Ihrer IP-Adresse durch den Webmaster
  • Sperrung Ihres Scraping-Clients durch den Webmaster
  • Ihr Scraper wird verwirrt, wenn er versucht, auf der Website zu navigieren
  • Datenmüll wird durch auf Websites versteckte "Honeypots" gesammelt
  • Geschwindigkeitsbegrenzung, die verhindert, dass Ihr Abstreifer schnell arbeitet
  • Änderungen am Design der Website machen einen Scraper kaputt, der früher funktionierte

Die gute Nachricht ist, dass diese Probleme alle behoben werden können, wenn Sie verstehen, wie Scraper funktionieren.

Einfache Web-Scraper folgen einem Muster:

  1. Der Scraper sendet eine HTTP-Anfrage an eine Website
  2. Die Website sendet eine Antwort, wie sie es bei einem normalen Webbrowser tun würde
  3. Der Scraper liest die Antwort und sucht nach einem Muster in der HTML-Datei
  4. Das Muster wird extrahiert und in einer JSON-Datei zur späteren Verarbeitung gespeichert
  5. Der Scraper kann dann entweder die Antwort weiter lesen und nach weiteren Mustern suchen oder seine nächste Anfrage senden

Es gibt ein paar Bereiche, in denen etwas schief gehen kann.

Der Scraper empfängt keine Daten

Wenn der Scraper überhaupt keine Daten erfasst, könnte dies an einem Problem mit der Art und Weise liegen, wie Sie den Parser eingerichtet haben, oder daran, dass der Scraper nicht dieselbe Website sieht wie Sie, wenn Sie einen Webbrowser verwenden.

Um herauszufinden, was schief gelaufen ist, stellen Sie Ihren Scraper so ein, dass er den HTML-Code der Seite ausgibt, und vergleichen Sie ihn mit der normalen Browserausgabe.

Wenn Sie eine Fehlermeldung oder eine andere Seite sehen, könnte es sein, dass Ihr Scraper-Client gesperrt worden ist. Die Website könnte Ihre IP-Adresse oder die Software des Scraper-Clients gesperrt haben.

Versuchen Sie, den User-Agent, den Ihr Scraper identifiziert, so zu ändern, dass er wie ein moderner Webbrowser wie Firefox oder Chrome aussieht. Dies könnte Ihnen helfen, einfache Beschränkungen auf einigen Websites zu umgehen.

Wenn das nicht funktioniert, sollten Sie Ihren Scraper so einstellen, dass er einen Proxy verwendet, um sich mit der fraglichen Website zu verbinden. Ein Proxy ist ein Server, der Webanfragen in Ihrem Namen sendet, so dass die Website nicht erkennen kann, dass sie von Ihrer Internetverbindung kommen.

Wenn Sie eine "normale" Seite sehen, liegt das Problem wahrscheinlich an der Art und Weise, wie Sie den Scraper für die Datenextraktion eingestellt haben. Jedes Scraping-Programm hat seine eigene Art, Muster abzugleichen, obwohl die meisten eine Variation regulärer Ausdrücke verwenden. Stellen Sie sicher, dass der Musterabgleich keine Tippfehler enthält. Denken Sie daran, dass das Programm genau das tut, was Sie ihm sagen, so dass selbst ein kleiner Fehler die Abgleichsregeln völlig außer Kraft setzen kann!

Der Schaber funktioniert eine Zeit lang, dann hört er auf

Ein weiteres häufiges Problem ist, dass ein Scraper für kurze Zeit funktioniert und dann wieder aufhört zu funktionieren. Dies bedeutet in der Regel, dass die Website Ihre IP-Adresse entweder vorübergehend oder dauerhaft blockiert hat, weil Sie in kurzer Zeit zu viele Anfragen gesendet haben.

In diesem Fall können Sie das Verbot durch die Verwendung eines Proxys umgehen. Proxyscrape bietet sowohl Premium- als auch private Proxys an, die für das Datensammeln verwendet werden können. Premium-Rechenzentrums-Proxys sind schnell und bieten unbegrenzte Bandbreite, haben aber IP-Adressen, die von Webmastern als die eines Rechenzentrums erkannt werden können. Proxys für Privatanwender sehen so aus, als wären sie "Heimanwender", aber der verfügbare Durchsatz ist möglicherweise geringer.

Ziehen Sie in Erwägung, den von Ihnen verwendeten Proxy nach ein paar Anfragen zu wechseln, um das Risiko zu verringern, dass die IP-Adresse des Proxys gesperrt wird. Sie können das Risiko von IP-Sperren auch verringern, indem Sie die Geschwindigkeit reduzieren, mit der Ihr Scraper Anfragen sendet.

Denken Sie daran, dass ein Scraper im Hintergrund arbeiten kann, 24 Stunden am Tag, ohne Pausen. Selbst wenn Sie die Geschwindigkeit des Scrapers auf das Parsen einer Seite alle 15-30 Sekunden beschränken, arbeitet er schneller als ein Mensch.

Denken Sie daran, dass viele Websites, vor allem kleinere, auf Servern gehostet werden, deren Geschwindigkeit und die Datenmenge, die sie monatlich übertragen können, begrenzt sind. Wenn aber viele andere Nutzer das Gleiche tun oder Ihr Bot sich "verirrt" und versucht, die gleichen Seiten immer wieder herunterzuladen, könnten Sie die Leistung der Website für menschliche Nutzer beeinträchtigen oder den Webmaster durch übermäßigen Ressourcenverbrauch Geld kosten.

Der Scraper gerät durcheinander und durchläuft eine Endlosschleife von Seiten

Ein weiteres Problem, auf das Vermarkter häufig stoßen, wenn sie versuchen, einen Web Scraper zu verwenden, ist, dass der Scraper verwirrt wird und Seiten herunterlädt, die er nicht herunterladen sollte.

Nehmen wir an, Ihr Scraper soll eine Liste von Maurern in Ihrer Stadt finden, und Sie schicken ihn zu einem Verzeichnis, wo er danach sucht. Der Scraper sollte:

  • Senden Sie eine HTTP-Anfrage mit dem gewünschten Suchbegriff
  • Download der Ergebnisseite
  • Analysieren Sie die Ergebnisseite, um einen Link zum ersten Ergebnis zu finden
  • Diesen Link öffnen
  • Extrahieren Sie die Kontaktdaten von dieser neuen Seite
  • Setzen Sie die Analyse der Ergebnisseite fort, um das zweite Ergebnis zu finden
  • Diesen Link öffnen
  • Und so weiter...

Einige Websites sind so aufgebaut, dass sie "Honeypots" enthalten, die Bots in die Falle locken und verwirren sollen. Bei diesen Honeypots handelt es sich um HTML-Teile, die mit einem Display-Tag mit der Aufschrift "display:none" versehen sind, sodass sie in einem normalen Browser nicht angezeigt werden. Bots können sie jedoch sehen, und wenn sie nicht so konfiguriert sind, dass sie ignoriert werden, verarbeiten sie sie wie normales HTML.

Es ist sehr schwierig, einen Bot so zu programmieren, dass er alle HTML-Fallen komplett ignoriert, denn einige dieser Fallen sind unglaublich raffiniert. Sie können jedoch die Anzahl der Links begrenzen, denen Ihr Bot folgen kann. Sie können sich auch den Quelltext der Seite selbst ansehen und nach offensichtlichen Fallen suchen, so dass Sie den Bot so einstellen können, dass er sie ignoriert.

Ethisches Marketing: Verwenden Sie Ihre gescrapten Leads mit Bedacht

Web Scraping ist etwas, das auf vielen Websites verpönt ist und bei dem Unternehmer vorsichtig sein sollten. Nach der Datenschutz-Grundverordnung ist es beispielsweise illegal, die Informationen von in der EU ansässigen Personen ohne deren Zustimmung abzurufen.

Außerdem verbieten viele Websites, die Daten hinter einem Anmeldebildschirm verstecken, in ihren Allgemeinen Geschäftsbedingungen ausdrücklich Web Scraping. Das bedeutet, dass Sie Gefahr laufen, von dieser Website ausgeschlossen zu werden, wenn Sie einen Scraper verwenden.

Wenn Sie sich entscheiden, Scraping zur Gewinnung von Leads einzusetzen, sollten Sie dies mit Bedacht tun. Betrachten Sie Scraping als eine Möglichkeit, Zeit bei der Sammlung von Leads zu sparen, die Sie ohnehin gesammelt hätten, und nicht als eine Möglichkeit, eine massive Marketingkampagne zu starten.

Vermeiden Sie es, ein zu weites Netz mit Scraping auszuwerfen. Es kann verlockend sein, die Kontaktdaten aller Unternehmen oder Personen in Ihrem Gebiet und der Umgebung zu sammeln, in der Hoffnung, eines dieser Unternehmen in einen Kunden umzuwandeln, aber eine solche breit angelegte, nicht zielgerichtete Kampagne wird höchstwahrscheinlich nach hinten losgehen.

Bereinigen und Pflegen Ihrer Datenbank

Bevor Sie Ihre Marketingkampagne starten, sollten Sie die gesammelten Daten überprüfen. Bereinigen Sie die Datenbank, um offensichtlich falsche Daten zu entfernen, z. B. Unternehmen, die geschlossen wurden, doppelte Datensätze oder Datensätze von Personen, die nicht in Ihrem Zielgebiet leben.

Sobald Sie die Kampagne gestartet haben, halten Sie die Datenbank auf dem neuesten Stand. Wenn ein Lead darum bittet, aus Ihrer Datenbank entfernt zu werden, löschen Sie ihn. Wenn Sie in Ihrem Land rechtlich dazu in der Lage sind, bewahren Sie gerade so viele Daten über sie auf, dass Sie ihre E-Mail oder Telefonnummer in eine "Nicht kontaktieren"-Liste aufnehmen können, damit sie beim nächsten Scraping nicht wieder in Ihre Marketing-Datenbank aufgenommen werden können.

Einige andere Dinge, die Sie bei der Verwaltung Ihrer Marketingkampagnen beachten sollten, sind:

  • Begrenzen Sie die Anzahl der E-Mails oder Anrufe, die Sie an potenzielle Kunden richten
  • Bereitstellung von Opt-out-Informationen in allen von Ihnen versendeten Kontakten
  • Respektieren Sie Opt-out-Anträge und führen Sie sie umgehend aus.
  • Wenn jemand auf Ihr Marketing antwortet, aktualisieren Sie seine Daten

Es ist ein schmaler Grat zwischen proaktivem Marketing und aggressivem Spam. Wiederholte Kontakte von Vermarktern sind Teil der Customer Journey, und es ist wichtig, mit potenziellen Kunden in Kontakt zu bleiben, aber übermäßig aggressives Marketing könnte potenzielle Kunden abschrecken und Ihrer Marke einen schlechten Ruf verschaffen.

Überlegen Sie, ob Sie die aus dem Scraping gewonnenen Daten in ein CRM-System importieren sollten, damit Sie jeden einzelnen Kunden verfolgen können, in welchem Stadium er sich im Konversionsprozess befindet und wie er auf Marketingbotschaften reagiert hat.

Auf diese Weise können Sie nicht nur die einzelnen Kunden im Auge behalten, sondern auch leichter erkennen, wie Ihre Marketingkampagnen insgesamt abschneiden, so dass Sie Ihre Botschaften verfeinern können.

Die Verfolgung der Quelle von Leads kann ebenfalls hilfreich sein, da sie Ihnen eine Vorstellung davon vermittelt, welche Datenquellen die hochwertigsten Informationen enthalten.