Anti-Bot-Systeme: Wie funktionieren sie und können sie umgangen werden?

Leitfäden, Okt-07-20245 Min. gelesen

Anti-Bot-Systeme sind Technologien, die Websites vor automatisierten Interaktionen wie Spam oder DDoS-Angriffen schützen sollen. Doch nicht alle automatisierten Aktivitäten sind schädlich: So sind Bots manchmal für Sicherheitstests, den Aufbau von Suchindizes und die Sammlung von Daten aus offenen Quellen notwendig. Um solche Aufgaben durchzuführen, ohne von Anti-Bot-Systemen blockiert zu werden, benötigen Sie spezielle Tools.

Um ein Anti-Bot-System zu umgehen, ist es wichtig, die verschiedenen Arten des Schutzes zu kennen und zu wissen, wie sie funktionieren.

Wie erkennen Anti-Bot-Systeme Bots?

Anti-Bot-Systeme sammeln eine große Menge an Informationen über jeden Website-Besucher. Diese Informationen werden analysiert, und wenn einige Parameter untypisch für menschliche Benutzer erscheinen, kann der verdächtige Besucher blockiert oder aufgefordert werden, ein CAPTCHA zu lösen, um zu beweisen, dass er tatsächlich menschlicher Herkunft ist.

Diese Informationen werden in der Regel auf drei Ebenen gesammelt: Netzwerk-, Verhaltens- und Browser-Fingerabdruck.

  • Die Netzwerkebene: Anti-Bot-Systeme analysieren Anfragen, prüfen den Spam-Score von IP-Adressen und untersuchen Paket-Header. Besucher, deren IP-Adressen auf "schwarzen Listen" stehen, zu Rechenzentren gehören, mit dem Tor-Netzwerk verbunden sind oder auf andere Weise verdächtig aussehen, werden möglicherweise mit einem CAPTCHA konfrontiert. Wahrscheinlich haben Sie das schon einmal erlebt, als Google Sie aufgefordert hat, ein CAPTCHA zu lösen, nur weil Sie einen kostenlosen VPN-Dienst genutzt haben.
  • Browser-Fingerabdruck-Ebene: Anti-Bot-Systeme sammeln Informationen über den Browser und das Gerät, das für den Zugriff auf die Website verwendet wird, und erstellen einen entsprechenden Geräte-Fingerabdruck. Dieser Fingerabdruck umfasst in der Regel den Typ, die Version und die Spracheinstellungen des Browsers, die Bildschirmauflösung, die Fenstergröße, Hardwaregeräusche, Systemschriftarten, Mediengeräte und mehr.
  • Verhaltensebene: Einige fortgeschrittene Systeme untersuchen, wie sehr die Aktionen eines Nutzers dem Verhalten normaler Website-Besucher entsprechen.

Es gibt viele Anti-Bot-Systeme, und die Besonderheiten der einzelnen Systeme können sehr unterschiedlich sein und sich im Laufe der Zeit ändern. Beliebte Lösungen sind:

  • Akamai
  • Cloudflare
  • Datadome
  • Incapsula
  • Casada
  • Perimeterx

Für die Wahl der besten Umgehungsstrategie kann es wichtig sein, zu wissen, welches Anti-Bot-System eine Website schützt. In speziellen Foren und Discord-Kanälen finden Sie ganze Abschnitte, die der Umgehung bestimmter Anti-Bot-Systeme gewidmet sind. Solche Informationen finden Sie zum Beispiel auf The Web Scraping Club.

Um herauszufinden, welches Anti-Bot-System eine Website verwendet, können Sie Tools wie die Browsererweiterung Wappalyzer verwenden.

Wie umgeht man Anti-Bot-Systeme?

Um zu verhindern, dass das System die Automatisierung erkennt, muss auf jeder Erkennungsebene ein ausreichendes Maß an Maskierung gewährleistet sein. Dies kann auf verschiedene Weise erreicht werden:

  • Indem Sie Ihre eigenen maßgeschneiderten Lösungen verwenden und die Infrastruktur selbständig warten;
  • Durch die Nutzung kostenpflichtiger Dienste wie Apify, Scrapingbee, Browserless oder Surfsky;
  • Durch die Kombination von hochwertigen Proxys, CAPTCHA-Lösern und Anti-Detect-Browsern;
  • Durch die Verwendung von Standard-Browsern im Headless-Modus mit Anti-Detection-Patches;
  • Oder durch die Nutzung vieler anderer Optionen von unterschiedlicher Komplexität.

Maskierung auf Netzwerkebene

Um einen Bot auf Netzwerkebene zu schützen, ist die Verwendung hochwertiger Proxys unerlässlich. Sicherlich lassen sich einfache Aufgaben auch mit der eigenen IP-Adresse erledigen, aber dieser Ansatz ist wahrscheinlich nicht praktikabel, wenn Sie beabsichtigen, eine große Menge an Daten zu sammeln. Sie benötigen gute Proxys für Privatpersonen oder Mobiltelefone, die nicht auf der schwarzen Liste stehen, um regelmäßig Zehntausende von Anfragen zu senden.


Überprüfung der IP-Adresse mit IPQualityScore

Achten Sie bei der Auswahl eines Proxys auf die folgenden Parameter:

  • ob seine IP-Adresse in Spam-Datenbanken auftaucht. Dies kann mit Tools wie PixelScan oder durch Abfragen der Datenbank iplists .firehol.org überprüft werden.
  • Ob es DNS-Lecks gibt. Wenn Sie mit einem geeigneten Prüfprogramm wie DNS Leak Test testen, sollte Ihr echter Server nicht in der Serverliste erscheinen.
  • Der Typ des Proxy-Anbieters. Proxys, die zu ISPs gehören, sind weniger verdächtig.

Weitere Informationen zur Überprüfung der Proxy-Qualität finden Sie hier.

Rotierende Proxys sind auch für Web Scraping nützlich. Sie stellen viele IP-Adressen statt nur einer bereit und verringern so die Wahrscheinlichkeit, dass ein Bot, der Informationen sammelt, blockiert wird, da es für die Website schwieriger ist, Muster in den Anfragen zu finden. Rotierende Proxys verteilen die Anfragen auf viele IP-Adressen und verringern so das Risiko, dass eine große Zahl von Anfragen von einer einzigen IP-Adresse blockiert wird.

Maskierung auf Fingerabdruck-Ebene

Multi-Accounting-Browser (Anti-Detect) eignen sich perfekt zum Fälschen von Browser-Fingerabdrücken. Hochwertige Browser wie Octo Browser fälschen den Fingerabdruck auf der Ebene des Browserkerns und ermöglichen es Ihnen, eine große Anzahl von Browserprofilen zu erstellen, von denen jedes wie ein eigener Benutzer aussieht.

Konfigurieren des digitalen Fingerabdrucks eines Octo-Browser-Profils

Das Scraping von Daten mit einem Anti-Detect-Browser kann mit Hilfe einer beliebigen praktischen Browser-Automatisierungsbibliothek oder eines Frameworks durchgeführt werden. Sie können die gewünschte Anzahl von Profilen mit den erforderlichen Fingerprint-Einstellungen, Proxys und Cookies erstellen, ohne den Browser selbst öffnen zu müssen. Diese können später entweder im Automatisierungsmodus oder manuell verwendet werden.

Die Arbeit mit einem Multi-Accounting-Browser unterscheidet sich nicht wesentlich von der Verwendung eines normalen Browsers im Headless-Modus. Octo Browser bietet eine ausführliche Dokumentation mit Schritt-für-Schritt-Anweisungen zur Verbindung mit der API für alle gängigen Programmiersprachen.

Ein Beispiel für die Erstellung eines Octo-Browserprofils mit Python

Professionelle Anti-Detect-Browser ermöglichen die bequeme Verwaltung einer großen Anzahl von Browser-Profilen, die Verbindung von Proxys und den Zugriff auf Daten, die mit Standard-Scraping-Methoden dank eines fortschrittlichen Systems zum Spoofing digitaler Fingerabdrücke normalerweise nicht zugänglich sind.

Echte Benutzeraktionen simulieren

Um Anti-Bot-Systeme zu umgehen, ist es außerdem notwendig, Aktionen echter Benutzer zu simulieren: Verzögerungen, Emulation von Cursorbewegungen, rhythmisches Drücken von Tasten, zufällige Pausen und unregelmäßige Verhaltensmuster. Sie werden oft Aktionen wie Autorisierung, Anklicken von "Weiterlesen"-Schaltflächen, Verfolgen von Links, Absenden von Formularen, Scrollen durch Feeds usw. durchführen müssen.

Benutzeraktionen können mit beliebten Open-Source-Lösungen für die Browser-Automatisierung wie Selenium simuliert werden, aber es gibt auch andere Optionen wie MechanicalSoup, Nightmare JS und andere.

Um das Scraping für Anti-Bot-Systeme natürlicher erscheinen zu lassen, ist es ratsam, Verzögerungen in unregelmäßigen Abständen zu den Anfragen hinzuzufügen.

Schlussfolgerungen

Anti-Bot-Systeme schützen Websites vor automatisierten Interaktionen, indem sie Netzwerk-, Browser- und Verhaltensinformationen über den Benutzer analysieren. Um diese Systeme zu umgehen, muss jede dieser Ebenen angemessen maskiert werden.

  • Auf der Netzwerkebene können Sie hochwertige Proxys verwenden, insbesondere rotierende Proxys.
  • Um den Browser-Fingerabdruck zu fälschen, können Sie Anti-Detektiv-Browser mit mehreren Konten wie Octo Browser verwenden.
  • Um reale Benutzeraktionen zu simulieren, können Sie Browser-Automatisierungstools wie Selenium verwenden und zusätzlich unregelmäßige Verzögerungen und Verhaltensmuster einbeziehen.

Möchten Sie Ihre Web-Scraping-Einrichtung mit erstklassigen Anti-Detect-Tools verstärken? 

Octo Browser ist Ihre ideale Lösung. Er bietet modernstes Fingerabdruck-Spoofing und müheloses Multi-Account-Management. 

Verwenden Sie den Promo-Code PROXYSCRAPE für ein kostenloses 4-tägiges Basisabonnement für Octo Browser für neue Benutzer. Verpassen Sie nicht diese Gelegenheit, Ihr Web-Scraping-Spiel zu verbessern!

Viel Spaß beim Schaben!