Ethik im Web Scraping

Kratzen, Jan-25-20225 Min. gelesen

Web Scraping ist kein neues Konzept, da das gesamte Internet darauf basiert. Wenn Sie z. B. den Link eines Youtube-Videos auf Facebook teilen, werden die Daten abgegriffen, damit die Leute die Miniaturansicht des Videos in Ihrem Beitrag sehen können. Es gibt also unendlich viele Möglichkeiten, Data Scraping zum Nutzen aller einzusetzen. Aber es gibt

Inhaltsübersicht

Web Scraping ist kein neues Konzept, da das gesamte Internet darauf basiert. Wenn Sie z. B. den Link eines Youtube-Videos auf Facebook teilen, werden die Daten abgegriffen, damit die Leute die Miniaturansicht des Videos in Ihrem Beitrag sehen können. Es gibt also unzählige Möglichkeiten, Data Scraping zum Nutzen aller einzusetzen. Das Scraping von Daten aus dem Internet birgt jedoch auch einige ethische Aspekte.

Nehmen wir an, Sie beantragen eine Krankenversicherung und geben dem Anbieter im Gegenzug für die erbrachten Leistungen gerne Ihre persönlichen Daten. Was aber, wenn ein Fremder mit Ihren Daten Web Scraping betreibt und sie für persönliche Zwecke verwendet? Dann kann es unangenehm werden, oder? Hier kommt die Notwendigkeit, ethisches Web Scraping zu praktizieren. 

In diesem Artikel werden wir den Verhaltenskodex für das Web-Scraping und die rechtlichen und ethischen Erwägungen erörtern.

Verhaltenskodex für Web Scraping

Um legales Web-Scraping zu betreiben, müssen Sie sich an die folgenden einfachen Regeln halten.

Machen Sie das Internet nicht kaputt - Sie müssen wissen, dass nicht alle Websites Tausende von Anfragen pro Sekunde verkraften können. Einige Websites lassen das zu, aber andere können Sie sperren, wenn Sie mehrere Anfragen über dieselbe IP-Adresse senden. Wenn Sie beispielsweise einen Scraper schreiben, der Hyperlinks verfolgt, sollten Sie ihn zunächst an einem kleineren Datensatz testen und sicherstellen, dass er tut, was er tun soll. Außerdem müssen Sie die Einstellungen Ihres Scrapers so anpassen, dass eine Verzögerung zwischen den Anfragen möglich ist. 

robots.txt-Datei anzeigen - Die Websites verwenden robots.txt-Dateien, um Bots mitzuteilen, ob die Website gecrawlt werden kann oder nicht. Wenn Sie Daten aus dem Internet extrahieren, müssen Sie die robots.txt-Datei genau verstehen und respektieren, um rechtliche Konsequenzen zu vermeiden. 

Teilen Sie, was Sie können - Wenn Sie die Erlaubnis zum Scrapen von öffentlich zugänglichen Daten erhalten und diese scrappen, können Sie sie veröffentlichen (z. B. auf datahub.io), damit andere sie weiterverwenden können. Wenn Sie einen Web Scraper schreiben, können Sie dessen Code teilen (z. B. auf Github), damit andere davon profitieren können. 

Geben Sie heruntergeladene Inhalte nicht illegal weiter - Manchmal ist es in Ordnung, Daten für persönliche Zwecke zu scrapen, selbst wenn die Informationen urheberrechtlich geschützt sind. Es ist jedoch illegal, Daten weiterzugeben, zu deren Weitergabe Sie nicht berechtigt sind.

Sie können höflich fragen - Wenn Sie für Ihr Projekt Daten von einer bestimmten Organisation benötigen, können Sie diese direkt fragen, ob sie Ihnen die gewünschten Daten zur Verfügung stellen kann. Andernfalls können Sie auch die primären Informationen der Organisation auf ihrer Website verwenden und sich die Mühe ersparen, einen Web Scraper zu erstellen. 

Ethische Erwägungen beim Web Scraping

Beim Scrapen von Daten aus dem Internet müssen Sie die folgenden ethischen Grundsätze beachten.

Stehlen Sie nicht die Daten

Sie müssen wissen, dass Web Scraping unter bestimmten Umständen illegal sein kann. Wenn die Geschäftsbedingungen der Website, die wir scrapen wollen, den Nutzern das Kopieren und Herunterladen von Inhalten verbieten, sollten wir diese Daten nicht scrapen und die Bedingungen der Website einhalten.

Es ist in Ordnung, Daten zu scrapen, die sich nicht hinter dem passwortgeschützten Authentifizierungssystem befinden (öffentlich zugängliche Daten), vorausgesetzt, Sie machen die Website nicht kaputt. Es kann jedoch ein potenzielles Problem darstellen, wenn Sie die ausgelesenen Daten weitergeben. Wenn Sie beispielsweise Inhalte von einer Website herunterladen und sie auf einer anderen Website veröffentlichen, wird Ihr Scraping als illegal angesehen und stellt eine Verletzung des Urheberrechts dar. 

Machen Sie das Netz nicht kaputt

Wenn Sie einen Web Scraper schreiben, fragen Sie eine Website wiederholt ab und greifen potenziell auf eine große Anzahl von Seiten zu. Für jede Seite wird eine Anfrage an den Webserver gesendet, der die Website hostet. Der Server verarbeitet die Anfrage und sendet eine Antwort an den Computer zurück, auf dem der Code ausgeführt wird. Die Anfragen, die wir senden, verbrauchen die Ressourcen des Servers. Wenn wir also innerhalb eines kurzen Zeitraums zu viele Anfragen senden, können wir verhindern, dass andere normale Benutzer während dieser Zeit auf die Website zugreifen.

Die Hacker führen häufig Denial-of-Service-Angriffe (DoS) durch, um das Netzwerk oder den Rechner lahmzulegen und ihn für die vorgesehenen Benutzer unzugänglich zu machen. Sie tun dies, indem sie Informationen an den Server senden, die einen Absturz auslösen, oder indem sie die Ziel-Website mit Datenverkehr überfluten. 

Die meisten modernen Webserver enthalten Maßnahmen zur Abwehr der unrechtmäßigen Nutzung ihrer Ressourcen, da DoS-Angriffe im Internet weit verbreitet sind. Sie achten auf eine große Anzahl von Anfragen, die von einer einzigen IP-Adresse kommen. Sie können diese Adresse blockieren, wenn sie innerhalb eines kurzen Zeitraums mehrere Anfragen sendet.

Fragen und teilen

Je nach Umfang Ihres Projekts lohnt es sich, die Kuratoren oder Eigentümer der Daten, die Sie abrufen wollen, zu fragen. Sie können sie fragen, ob sie über Daten in einem strukturierten Format verfügen, das für Ihr Projekt geeignet ist. Wenn Sie ihre Daten für Forschungszwecke in einer Weise nutzen wollen, die sie möglicherweise interessiert, können Sie sich die Mühe ersparen, einen Web Scraper zu schreiben. 

Sie können auch anderen die Mühe ersparen, einen Web Scraper zu schreiben. Wenn Sie z. B. Ihre Daten oder Ihre Dokumentation als Teil des Forschungsprojekts veröffentlichen, möchte vielleicht jemand Ihre Daten zur Verwendung erhalten. Wenn Sie möchten, können Sie anderen eine Möglichkeit bieten, Ihre Rohdaten in einem strukturierten Format herunterzuladen, und so die

Vorsicht ist besser als Nachsicht

Datenschutz- und Urheberrechtsgesetze sind von Land zu Land unterschiedlich. Sie müssen die in Ihrem Umfeld geltenden Gesetze prüfen. In Ländern wie Australien ist es beispielsweise illegal, persönliche Daten wie Telefonnummern, E-Mail-Adressen und Namen zu sammeln, selbst wenn diese öffentlich zugänglich sind.

Sie sollten sich an den Verhaltenskodex für Web Scraping halten, wenn Sie Daten für Ihren persönlichen Gebrauch auslesen. Wenn Sie jedoch große Datenmengen für kommerzielle oder Forschungszwecke sammeln wollen, müssen Sie sich wahrscheinlich rechtlich beraten lassen.

Proxies für ethisches Web Scraping

Sie wissen, dass Proxys eine breite Palette von Anwendungen haben. Ihr Hauptzweck besteht darin, die IP-Adresse und den Standort des Nutzers zu verbergen. Proxys ermöglichen es den Benutzern auch, beim Surfen im Internet auf geografisch eingeschränkte Inhalte zuzugreifen. So können die Nutzer auf die versteckten Seiten zugreifen, da Proxys die Inhalte und geografischen Beschränkungen umgehen.

Sie können Proxys verwenden, um die Leistung des Scrapers zu maximieren, da sie die Blockierraten reduzieren. Ohne sie können Sie nur minimale Daten aus dem Web auslesen. Das liegt daran, dass Proxys die Crawl-Raten übertreffen, so dass die Spider mehr Daten extrahieren können. Die Crawl-Rate gibt die Anzahl der Anfragen an, die Sie in einem bestimmten Zeitrahmen senden können. Diese Rate variiert von Website zu Website. 

Auswahl der Proxys

Sie können Proxys je nach den Anforderungen Ihres Projekts auswählen. Sie können entweder einen privaten Proxy oder einen gemeinsamen Proxy verwenden.

  • Private Proxys sind am besten geeignet, wenn Ihr Projekt eine hohe Leistung und eine maximale Verbindung benötigt.
  • Gemeinsam genutzte Proxys eignen sich gut für kleine Projekte mit begrenztem Budget.
  • Von kostenlosen Proxys wird bei der Extraktion von Daten aus dem Internet abgeraten. Der Grund dafür ist, dass sie öffentlich zugänglich sind und oft für illegale Aktivitäten genutzt werden.

Neben der Auswahl von Proxys für Ihr Projekt können Sie auch die IP-Quellen ermitteln. Es gibt drei Kategorien von Proxyservern. 

Datacenter Proxies - Dies sind die billigsten und praktischsten Proxies für Web Scraping. Diese IPs werden auf unabhängigen Servern erstellt und effizient genutzt, um groß angelegte Scraping-Projekte durchzuführen.

Einwohnermeldeämter - Sie können schwer zu erhalten sein, da sie mit Dritten verbunden sind. 

Mobile Proxies - Sie sind am teuersten und eignen sich hervorragend, wenn Sie Daten erfassen müssen, die nur auf mobilen Geräten sichtbar sind.

Schlussfolgerung zur Ethik des Web Scraping

Bisher haben wir besprochen, dass Sie Daten aus dem Internet extrahieren können, wenn Sie die rechtlichen und ethischen Aspekte beachten. So sollten Sie beispielsweise keine Daten aus dem Internet stehlen. Sie dürfen keine Daten weitergeben, für die Sie keine Rechte besitzen. Wenn Sie die Daten einer Organisation für Ihr Projekt benötigen, können Sie sie höflich fragen, ob sie ihre Rohdaten in einem strukturierten Format zur Verfügung stellen können. Andernfalls können Sie Ihren Web Scraper schreiben, um Daten von der Website zu extrahieren, wenn sie es erlauben. Außerdem haben wir besprochen, dass Sie je nach den Anforderungen Ihres Projekts verschiedene Proxys wählen können. Sie können die IPs des Rechenzentrums oder des Wohnorts verwenden, da diese für Web Scraping weit verbreitet sind.