wollen helfen? Hier sind Ihre Möglichkeiten:","Crunchbase","Über uns","Vielen Dank an alle für die großartige Unterstützung!","Schnelle Links","Partnerprogramm","ProxyScrape Premium-Testversion","Proxy-Typen","Proxy-Länder","Proxy-Einsatzfälle","Wichtig","Cookie-Politik","Haftungsausschluss","Datenschutzbestimmungen","Bedingungen und Konditionen","Soziale Medien","Facebook","LinkedIn","Twitter","Quora","Telegramm","Diskord"," © Copyright 2024 - Thib BV | Brugstraat 18 | 2812 Mechelen | Belgien | VAT BE 0749 716 760"]}
Wenn Sie Daten von großen Websites scrapen, ist es sehr unwahrscheinlich, dass Sie nicht mit einem CAPTCHA konfrontiert wurden, um zu beweisen, dass Sie ein Mensch sind. Als Web Scraper wissen Sie vielleicht schon, warum Cybersecurity-Experten gezwungen waren, sie zu erfinden. Sie waren das Ergebnis Ihrer Bots, die endlose Website-Anfragen automatisierten, um auf sie zuzugreifen. Selbst echte Benutzer mussten sich also mit CAPTCHAs auseinandersetzen, die in verschiedenen Formen auftreten. Sie können CAPTCHAs jedoch umgehen, unabhängig davon, ob Sie ein Web Scraper sind oder nicht, was das Ziel dieses Artikels sein soll. Aber zuerst wollen wir uns ansehen, was CAPTCHAs sind.
CAPTCHA steht für Completely Automated Public Turing Test to tell Computers and Humans Apart. Das ist ein ziemlich langes Akronym, nicht wahr? Vielleicht fragen Sie sich jetzt, was der letzte Teil dieses Akronyms, der Turing-Test, bedeutet - nun, es ist ein einfacher Test, um festzustellen, ob ein Mensch oder ein Bot mit einer Webseite oder einem Webserver interagiert.
Schließlich unterscheidet ein CAPTCHA Menschen von Bots und hilft Cyber-Sicherheitsanalysten dabei, Webserver vor Brute-Force-Angriffen, DDoS und in manchen Situationen auch vor Web-Scraping zu schützen.
Lassen Sie uns herausfinden, wie CAPTCHAs Menschen von Bots unterscheiden können.
Sie finden CAPTCHAs in den Formularen einer Website, einschließlich Kontakt-, Registrierungs-, Kommentar-, Anmelde- oder Abmeldeformularen.
Herkömmliche CAPTCHAs enthalten ein Bild mit gestreckten oder verschwommenen Buchstaben, Zahlen oder beidem in einem Feld mit einer Hintergrundfarbe oder einem transparenten Hintergrund. Dann müssen Sie die Zeichen identifizieren und in das nachfolgende Textfeld eingeben. Dieser Prozess der Identifizierung von Zeichen ist für Menschen einfacher, für einen Bot jedoch etwas kompliziert.
Andererseits können einige fortgeschrittene Bots mit Hilfe von maschinellem Lernen im Laufe der Jahre verzerrte Buchstaben abfangen. Infolgedessen haben einige Unternehmen wie Google herkömmliche CAPTCHAs durch hochentwickelte CAPTCHAs ersetzt. Ein solches Beispiel ist ReCAPTCHA, das Sie im nächsten Abschnitt kennenlernen werden.
ReCAPTCHA ist ein kostenloser Dienst, den Google anbietet. Er fordert die Nutzer auf, Kästchen anzukreuzen, anstatt Text zu tippen, Rätsel zu lösen oder mathematische Gleichungen aufzustellen.
Ein typisches ReCAPTCHA ist fortschrittlicher als herkömmliche Formen von CAPTCHAs. Es verwendet Bilder und Texte aus der realen Welt, wie z. B. Verkehrsampeln auf Straßen, Texte aus alten Zeitungen und gedruckten Büchern. Dadurch müssen sich die Nutzer nicht auf CAPTCHAs der alten Schule mit verschwommenem und verzerrtem Text verlassen.
Es gibt drei wichtige Arten von ReCAPTCHA-Tests, um zu überprüfen, ob Sie ein Mensch sind oder nicht:
Dies sind die ReCAPTCHAs, die die Benutzer auffordern, ein Kästchen anzukreuzen, das wie in der obigen Abbildung "Ich bin kein Roboter" lautet. Auch wenn es auf den ersten Blick so aussieht, als ob sogar ein Bot diesen Test durchführen könnte, werden mehrere Faktoren berücksichtigt:
Wenn das ReCAPTCHA nicht verifizieren kann, dass Sie ein Mensch sind, wird es Sie vor eine weitere Herausforderung stellen.
Diese ReCAPTCHAs bieten den Nutzern neun oder sechzehn quadratische Bilder, wie Sie auf dem obigen Bild sehen können. Jedes Quadrat stellt einen Teil eines größeren Bildes oder verschiedene Bilder dar. Der Benutzer muss Quadrate auswählen, die bestimmte Objekte, Tiere, Bäume, Fahrzeuge oder Ampeln darstellen.
Wenn die Auswahl des Benutzers mit der Auswahl anderer Benutzer übereinstimmt, die den gleichen Test durchgeführt haben, wird der Benutzer überprüft. Andernfalls präsentiert das ReCAPTCHA einen anspruchsvolleren Test.
Wussten Sie, dass ReCAPTCHA überprüfen kann, ob Sie ein Mensch sind oder nicht, ohne Kontrollkästchen oder andere Benutzerinteraktionen zu verwenden?
Dies geschieht, indem das System die bisherige Interaktion des Benutzers mit Websites und sein allgemeines Verhalten im Internet berücksichtigt. In den meisten Fällen kann das System anhand dieser Faktoren feststellen, ob Sie ein Bot sind.
Andernfalls würde auf eine der beiden zuvor genannten Methoden zurückgegriffen.
CAPTCHAs können ausgelöst werden, wenn eine Website ungewöhnliche Aktivitäten feststellt, die einem Bot-Verhalten ähneln. Zu diesem ungewöhnlichen Verhalten gehören unbegrenzte Anfragen innerhalb von Sekundenbruchteilen und das Anklicken von Links mit einer viel höheren Rate als bei Menschen.
Dann würden einige Websites automatisch CAPTCHAs einsetzen, um ihre Systeme zu schützen.
Was die ReCAPTCHAs betrifft, so ist nicht genau klar, was sie auslöst. Allgemeine Ursachen sind jedoch Mausbewegungen, der Browserverlauf und die Verfolgung von Cookies.
Jetzt haben Sie einen klaren Überblick darüber, was CAPTCHAs und Rechaptchas sind, wie sie funktionieren und was sie auslöst. Nun ist es an der Zeit zu untersuchen, wie sich CAPTCHAs auf Web-Scraping auswirken.
CAPTCHAs können das Scraping im Web behindern, da die meisten Scraping-Vorgänge von automatisierten Bots durchgeführt werden. Lassen Sie sich jedoch nicht entmutigen. Wie zu Beginn dieses Artikels erwähnt, gibt es Möglichkeiten, CAPTCHAs beim Scrapen des Webs zu umgehen. Bevor wir dazu kommen, wollen wir uns damit befassen, was Sie vor dem Scrapen beachten müssen.
Wenn Sie eine Verbindung zu einer Website herstellen, senden Sie Informationen über Ihr Gerät an die verbindende Website. Diese kann diese Informationen verwenden, um den Inhalt an die Spezifikationen Ihres Geräts anzupassen und die Daten zu verfolgen. Wenn sie also herausfinden, dass die Anfragen von demselben Gerät stammen, wird jede Anfrage, die Sie danach senden, blockiert.
Eine weitere Tatsache, die Sie beachten sollten, ist, dass die Ziel-Website Ihre IP-Adresse nicht auf eine schwarze Liste gesetzt hat. Sie werden Ihre IP-Adresse wahrscheinlich auf eine schwarze Liste setzen, wenn Sie zu viele Anfragen mit Ihrem Scraper/Crawler senden.
Durch die Rotation der HTTP-Header und Proxys (mehr dazu im nächsten Abschnitt) mit einem Pool wird sichergestellt, dass mehrere Geräte von verschiedenen Standorten aus auf die Website zugreifen. Sie sollten also in der Lage sein, das Scraping ohne Unterbrechung durch CAPTCHAs fortzusetzen. Allerdings müssen Sie sicherstellen, dass Sie die Leistung der Website auf keinen Fall beeinträchtigen.
Zusätzlich zu den oben genannten Schlüsselfaktoren müssen Sie die folgenden CAPTCHAs kennen, wenn Sie Web-Scraping mit einem Bot durchführen:
Das bloße Ändern des Benutzer-Agenten reicht nicht aus, da Sie eine Liste von Benutzer-Agenten-Zeichenfolgen erstellen und diese dann rotieren müssen. Diese Rotation führt dazu, dass die Ziel-Website Sie für ein anderes Gerät hält, während in Wirklichkeit ein Gerät alle Anfragen sendet.
Als beste Praxis für diesen Schritt wäre es gut, eine Datenbank mit echten Benutzer-Agenten zu führen. Löschen Sie außerdem die Cookies, wenn Sie sie nicht mehr benötigen.
Eine einfachere und technisch weniger aufwendige Methode, ein CAPTCHA zu lösen, wäre die Nutzung eines CAPTCHA-Lösungsdienstes. Diese nutzen künstliche Intelligenz (KI), maschinelles Lernen (MI) und eine Reihe anderer Technologien, um ein CAPTCHA zu lösen.
Wenn Sie Ihren Scraper jeden Sekundenbruchteil direkt auf eine URL zugreifen lassen, würde die empfangende Website misstrauisch werden. Infolgedessen würde die Ziel-Website ein CAPTCHA auslösen.
Um ein solches Szenario zu vermeiden, könnten Sie den Referer-Header so einstellen, dass es so aussieht, als würde von einer anderen Seite verwiesen werden. Dies würde die Wahrscheinlichkeit verringern, als Bot erkannt zu werden. Alternativ könnten Sie den Bot veranlassen, andere Seiten zu besuchen, bevor er den gewünschten Link aufruft.
Honeypots sind versteckte Elemente auf einer Webseite, die Sicherheitsexperten verwenden, um Bots oder Eindringlingen eine Falle zu stellen. Obwohl der Browser den HTML-Code wiedergibt, sind die CSS-Eigenschaften so eingestellt, dass sie nicht sichtbar sind. Im Gegensatz zu Menschen wäre der Code des Honigtopfs jedoch für die Bots sichtbar, wenn sie die Daten abgreifen. Daher tappten sie in die vom Honigtopf aufgestellte Falle.
Sie müssen also sicherstellen, dass die CSS-Eigenschaften aller Elemente auf einer Webseite nicht verborgen oder unsichtbar sind, bevor Sie mit dem Scraping beginnen. Erst wenn Sie sicher sind, dass keines der Elemente ausgeblendet ist, stellen Sie Ihren Bot für das Scraping ein.
Dieser Artikel soll Ihnen eine umfassende Vorstellung davon vermitteln, wie Sie CAPTCHAs beim Scrapen des Webs vermeiden können. Die Umgehung eines CAPTCHAs kann ein komplizierter Prozess sein. Mit den in diesem Artikel besprochenen spezifischen Techniken können Sie den Bot jedoch so entwickeln, dass CAPTCHAs vermieden werden.
Wir hoffen, dass Sie alle in diesem Artikel beschriebenen Techniken nutzen werden.