Scrapoxy: Das ultimative Tool für uneingeschränktes Web-Scraping

Kratzen, Leitfäden, How to's, Jun-15-20245 Min. gelesen

Web Scraping ist zu einem unverzichtbaren Werkzeug für Entwickler, Datenwissenschaftler und IT-Experten geworden, die wertvolle Daten aus Websites extrahieren möchten. Allerdings kann die Herausforderung, Verbote zu vermeiden, Anfrageraten zu verwalten und die Anonymität zu wahren, entmutigend sein. Hier kommen ProxyScrape und Scrapoxy - zweileistungsstarke Tools, die, wenn sie integriert werden, Web Scraping effizienter und effektiver machen.

In diesem Beitrag zeigen wir Ihnen, wie Sie ProxyScrape mit Scrapoxy kombinieren können, um eine nahtlose Lösung für Ihre Web-Scraping-Anforderungen zu erhalten. Legen wir los!

Möchten Sie stattdessen ein Video sehen? - Dann schau dir das an!

Einführung in Scrapoxy und ProxyScrape

Was ist Scrapoxy?

Scrapoxy ist ein Proxy-Management-Tool, das die Integration von Proxys in Ihre Web-Scraping-Projekte vereinfacht. Es stellt sicher, dass Ihre Scraping-Aktivitäten unentdeckt bleiben, indem es die Proxys rotieren lässt und die Anfrageraten verwaltet.

Was ist ProxyScrape?

ProxyScrape ist ein robuster Dienst, der eine breite Palette von Proxy-Lösungen anbietet, darunter kostenlose Proxy-Listen, Premium-Proxys, Residential-Proxys und eine Web-Scraping-API. Mit Funktionen wie Geo-Targeting, JavaScript-Rendering und Aktionsausführung ist ProxyScrape so konzipiert, dass selbst die komplexesten Scraping-Aufgaben bewältigt werden können.

Die Bedeutung von Proxies beim Web Scraping

Die Verwendung von Proxys ist aus mehreren Gründen wichtig:

  • Datenerfassung: Proxies ermöglichen es Ihnen, Daten von Websites zu sammeln, ohne blockiert zu werden.
  • Anonymität: Sie helfen, Ihre Anonymität zu wahren, indem sie Ihre IP-Adresse maskieren.
  • Umgehung von Beschränkungen: Mit Proxies können Sie geografische Beschränkungen umgehen und auf Inhalte aus verschiedenen Regionen zugreifen.

Integration von ProxyScrape mit Scrapoxy

Die Integration von ProxyScrape mit Scrapoxy ist ein unkomplizierter Prozess, der die Effizienz Ihres Web-Scrapings erheblich steigern kann. Folgen Sie diesen Schritten, um loszulegen:

Schritt 1: Beziehen Sie Proxys von ProxyScrape

  • Melden Sie sich bei ProxyScrape an: Besuchen Sie die Website ProxyScrape und melden Sie sich für ein Konto an.
  • Wählen Sie Ihren Proxy-Plan: Wählen Sie je nach Ihren Bedürfnissen entweder die kostenlose Proxy-Liste oder einen Premium-Plan, der private oder dedizierte Proxys bietet.
  • Laden Sie die Proxy-Liste herunter: Greifen Sie auf Ihr Dashboard zu und laden Sie die Liste der Proxys im .txt-Format herunter.

Schritt 2: Scrapoxy anbringen

Um Scrapoxy einzurichten, müssen Sie zunächst verstehen, dass es als Docker-Container arbeitet. Dies ermöglicht eine einfache Bereitstellung und Verwaltung des Proxy-Managers. Befolgen Sie diese Schritte, um Scrapoxy auf Ihrem lokalen Rechner zum Laufen zu bringen:

  • Falls noch nicht installiert, installieren Sie zunächst Docker.
  • Starten Sie das **Terminal** und führen Sie den folgenden Befehl aus:
docker run -d -p 8888:8888 -p 8890:8890 -v ./scrapoxy:/cfg -e AUTH_LOCAL_USERNAME=admin-e AUTH_LOCAL_PASSWORD=password-e BACKEND_JWT_SECRET=secret1-e FRONTEND_JWT_SECRET=secret2-e STORAGE_FILE_FILENAME=/cfg/scrapoxy.json fabienvauchelles/scrapoxy
  • Ersetzen Sie admin, password, secret1 und secret2 durch Ihre eigenen Werte.
  • Sie können nun mit dem Benutzernamen "admin" und dem Passwort "password" auf die Benutzeroberfläche unter http://localhost:8890 zugreifen.

Schritt 3: Neues Projekt einrichten

In Scrapoxy bezieht sich ein Projekt auf einen bestimmten Satz von Konfigurationen und Proxys, die Sie für eine bestimmte Web-Scraping-Aufgabe verwalten. In jedem Projekt können Sie die zu verwendenden Proxys definieren, Anmeldeinformationen einrichten und Anfrageraten und Rotationsrichtlinien konfigurieren. Dieser modulare Ansatz erleichtert den Umgang mit den Anforderungen unterschiedlicher Websites und verbessert die Gesamteffizienz und Erfolgsquote Ihrer Web Scraping-Aktivitäten.

Lassen Sie uns zunächst ein Projekt einrichten, damit wir mit den nächsten Schritten fortfahren können:

  • Klicken Sie auf der Startseite auf die Schaltfläche "Neues Projekt erstellen".
  • Hier wird ein Formular angezeigt, in das Sie die oben genannten Informationen eintragen müssen:
  • Name: Eindeutiger Bezeichner für das Projekt;
  • Benutzername: Authentifizierungs-Benutzername, der für die Proxy-Authentifizierung in Anfragen verwendet wird 
  • Passwort: Authentifizierungspasswort, das für die Proxy-Authentifizierung in Anfragen verwendet wird 
  • Token erneuern: Klicken Sie auf diese Schaltfläche, um Benutzernamen und Passwort zu erneuern;
  • Mindestanzahl von Bevollmächtigten: Die Mindestanzahl von Bevollmächtigten, die online sind, wenn der Projektstatus CALM ist;
  • Proxys automatisch drehen: Wenn diese Option aktiviert ist, werden Proxys automatisch in zufälligen Abständen innerhalb des angegebenen Verzögerungsbereichs gedreht;
  • Auto Scale Up: Wenn diese Option aktiviert ist, wechselt der Projektstatus bei Erhalt einer Anfrage auf HOT, und alle Proxys werden gestartet;
  • Auto Scale Down: Wenn diese Option aktiviert ist, wechselt der Projektstatus zu CALM, wenn nach einer bestimmten Verzögerung keine Anfragen mehr eingehen, und alle Proxys werden angehalten;
  • Abfangen von HTTPS-Anfragen mit MITM: Wenn aktiviert, fängt Scrapoxy HTTPS-Anfragen und -Antworten ab und ändert sie.
  • Zertifikat: Installieren Sie dieses CA-Zertifikat, um Sicherheitswarnungen in Browsern oder Scrapern zu vermeiden;
  • Beibehaltung des gleichen Proxys mit Cookie-Injektion: Wenn aktiviert, injiziert Scrapoxy ein Cookie, um denselben Proxy für eine Browsersitzung beizubehalten (Sticky Cookie);
  • User-Agent außer Kraft setzen: Wenn aktiviert, überschreibt Scrapoxy den User-Agent-Header mit dem Wert, der einer Proxy-Instanz zugewiesen ist. Alle Anfragen, die mit dieser Instanz gestellt werden, haben denselben User-Agent-Header;

Innerhalb des Projekts können wir unsere Proxys mit einer Funktion verknüpfen, die in Scrapoxy Connector genannt wird. Im nächsten Schritt wollen wir uns ansehen, was das bedeutet.

Schritt 4: ProxyList Connector einrichten

Wie der Name schon sagt, fungiert ein Connector als Brücke zwischen Ihrem Proxy-Anbieter und Scrapoxy. Er ermöglicht es Ihnen, Proxys von Ihrem Anbieter zu beziehen und sie effektiv zu verwalten. Da Scrapoxy nicht jeden Proxy-Anbieter direkt unterstützen kann, können Sie eine Liste von Proxys eines beliebigen Anbieters eingeben, die dann in Scrapoxy integriert werden. In Scrapoxy wird dieser Connector als ProxyList bezeichnet. Nachfolgend finden Sie eine Schritt-für-Schritt-Anleitung, wie Sie eine Liste von Proxys in den ProxyList-Konnektor integrieren.

Bevor wir den Konnektor erstellen, müssen wir einen neuen Berechtigungsnachweis erstellen. Wie der Name schon sagt, ermöglicht ein Credential die Authentifizierung von Proxys über einen Connector. In diesem Beispiel verwenden wir einen ProxyList-Konnektor. Da wir unsere Proxy-Liste bereits haben, brauchen wir sie in Scrapoxy nicht zu authentifizieren. Denken Sie jedoch daran, dass wir jedes Mal, wenn wir einen Konnektor erstellen, eine Anmeldeinstanz für ihn benötigen. Im ProxyList-Konnektor dient ein Berechtigungsnachweis lediglich als Platzhalter.

In den folgenden Abschnitten werden wir Sie zunächst durch die Einrichtung eines Berechtigungsnachweises und anschließend durch die Konfiguration des ProxyList-Connectors führen

  • Öffnen Sie die Scrapoxy-Benutzeroberfläche, gehen Sie zu Ihrem gewünschten Projekt und wählen Sie Marktplatz:
  • Erstellen Sie einen neuen Berechtigungsnachweis:
  • Wählen Sie Proxy-Liste, um eine neue Berechtigung zu erstellen (ggf. Suche verwenden).
  • Füllen Sie das Formular aus, indem Sie einen Namen für diese Berechtigung eingeben und auf "Erstellen" klicken.
  • Klicken Sie auf der linken Seite auf "Konnektoren", erstellen Sie einen neuen Konnektor und wählen Sie Proxy List als Provider:
  • Füllen Sie das Formular mit den folgenden Informationen aus:
    • Berechtigungsnachweis: Der vorherige Berechtigungsnachweis;
    • Name: Der Name des Anschlusses;
    • # Proxies: Die Anzahl der zu erstellenden Instanzen.
    • Proxies Zeitüberschreitung: Maximale Dauer für die Verbindung zu einem Proxy, bevor dieser als offline betrachtet wird;
    • Proxies Kick: Wenn aktiviert, maximale Dauer, die ein Proxy offline sein darf, bevor er aus dem Pool entfernt wird;
    • Freeproxies Zeitüberschreitung: Wie Proxies Timeout, aber für den Freeproxies-Pool;
    • Freeproxies Kick: Wie Proxies Kick, aber für den Freeproxies-Pool.

Hinzufügen einer Proxy-Quelle

  • Klicken Sie auf dem Anschluss auf Aktualisieren.
  • Fügen Sie die Proxy-Liste ProxyScrape in den Textbereich ein und klicken Sie auf das Plus-Symbol.

Scrapoxy unterstützt die folgenden Formate:

  • ip:port
  • ip:port:benutzername:passwort
  • http://ip:port
  • http://username:password@ip:port
  • https://ip:port
  • https://username:password@ip:port
  • socks://ip:port (shortcut for socks5://ip:port)
  • socks://username:password@ip:port (shortcut for socks5://username:password@ip:port)
  • socks4://ip:port
  • socks4://benutzername:passwort@ip:port
  • socks5://ip:port
  • socks5://benutzername:passwort@ip:port

 Starten Sie den Stecker

  • Starten Sie das Projekt;
  • Starten Sie den Stecker.

Schritt 5: Integrieren Sie Scrapoxy in Ihren Web-Scraping-Prozess.

In diesem Beispiel zeigen wir, wie man Scrapoxy mit der berühmten Python-HTTP-Bibliothek Requests integriert.

  • Installieren Sie die Bibliothek
    • Pip-Installationsanfragen
  • Abrufen von CA-Zertifikat und Projekt-Token
    • Öffnen Sie die Scrapoxy-Benutzeroberfläche, und gehen Sie zu den Projekteinstellungen;
    • Klicken Sie auf CA-Zertifikat herunterladen und speichern Sie die Datei (merken Sie sich das Projekt-Token (Format: USERNAME:PASSWORD));
  • Erstellen und Ausführen des Skripts
    • Erstellen Sie eine Datei namens requests.py mit dem folgenden Inhalt:
import requests
ca = "/tmp/scrapoxy-ca.crt"
proxy = "http://USERNAME:PASSWORD@localhost:8888"
r = requests.get(
   "https://fingerprint.scrapoxy.io",
   proxies={"http": proxy, "https": proxy},
   verify=ca
)
print("proxy instance:", r.headers["x-scrapoxy-proxyname"])
print(r.json())

Ersetzen Sie USERNAME und PASSWORD durch die Zugangsdaten, die Sie zuvor kopiert haben.

Scrapoxy fügt in jede Antwort einen x-scrapoxy-proxyname-Header ein, der den Namen der für die Anfrage zugewiesenen Proxy-Instanz angibt.

Weitere Beispiele für die Anwendung von Scrapoxy finden Sie unter diesem Link.

Bewährte Praktiken für effektives Web Scraping

Um das Beste aus ProxyScrape und Scrapoxy herauszuholen, sollten Sie die folgenden bewährten Verfahren beachten:

  • Proxys rotieren: Wechseln Sie regelmäßig die Proxys, um eine Erkennung und Sperrung zu vermeiden.
  • Verwalten Sie die Anfrageraten: Halten Sie die Anzahl der Anfragen in einem vernünftigen Rahmen, um eine Überlastung der Ziel-Website zu vermeiden.
  • Bleiben Sie unentdeckt: Verwenden Sie Kopfzeilen und Cookies, um menschliches Verhalten zu imitieren und zu vermeiden, dass Ihre Scraping-Aktivitäten auffallen.

Real-World Anwendungsfall 

Nehmen wir an, Sie holen sich Produktdaten von einer E-Commerce-Website. Durch die Integration von ProxyScrape mit Scrapoxy können Sie:

  • Produkt-URLs abrufen: Verwenden Sie die Proxys von ProxyScrape, um Produkt-URLs zu sammeln, ohne blockiert zu werden.
  • Extrahieren Sie Produktdetails: Drehen Sie Proxys mit Scrapoxy, um Produktdetails wie Preis, Verfügbarkeit und Bewertungen zu erfassen.
  • Effiziente Datenspeicherung: Speichern Sie die extrahierten Daten zur Analyse in einer Datenbank.

Schlussfolgerung

Die Integration von ProxyScrape mit Scrapoxy bietet eine nahtlose Lösung für effizientes Web Scraping. Durch die Verwendung von Proxys zur Wahrung der Anonymität, zur Umgehung von Beschränkungen und zur Verwaltung von Anfrageraten können Sie Ihre Datenextraktionsmöglichkeiten erheblich verbessern.

Sind Sie bereit, Ihr Web Scraping auf die nächste Stufe zu heben? Melden Sie sich noch heute für ProxyScrape an und beginnen Sie mit der Integration in Scrapoxy, um ein reibungsloses, effizientes und leistungsstarkes Scraping zu ermöglichen.

Wir würden uns freuen, von Ihren Erfahrungen mit ProxyScrape und Scrapoxy zu hören! Teilen Sie Ihre Erfolgsgeschichten, Herausforderungen und Tipps in den Kommentaren unten mit. Und vergessen Sie nicht, weitere Inhalte zum Thema Web Scraping in unserem Blog zu entdecken. Viel Spaß beim Scrapen!