Stellvertreter für akademische Forschung

Vertretungen, 12. September 20215 Min. gelesen

In der akademischen Forschung müssen Unmengen von Daten aus verschiedenen Quellen gesammelt werden, unabhängig davon, ob es sich um quantitative oder qualitative Forschung handelt. Da diese Online-Daten sehr umfangreich sind, müssen akademische Forscher auf Technologien zurückgreifen, um sie zu extrahieren. Eine solche automatisierte Technik, die wir in diesem Artikel untersuchen wollen, ist Web Scraping. Allerdings ist Web

In der akademischen Forschung müssen Unmengen von Daten aus verschiedenen Quellen gesammelt werden, unabhängig davon, ob es sich um quantitative oder qualitative Forschung handelt. Da diese Online-Daten sehr umfangreich sind, müssen sich akademische Forscher auf Technologien verlassen, um sie zu extrahieren.

Eine solche automatisierte Technik, die wir in diesem Artikel untersuchen wollen, ist Web Scraping. Web-Scraping allein würde jedoch keine fruchtbaren Ergebnisse liefern. Sie müssen sich auch auf Proxys verlassen und ethische Überlegungen anstellen.

Doch zunächst werden wir die Art dieser Daten untersuchen.

Die wichtigsten Merkmale von Online-Daten für die akademische Forschung

Für die akademische Forschung bestehen die Daten im Web aus strukturierten, unstrukturierten und halbstrukturierten quantitativen und qualitativen Daten. Sie sind über das Web in Blogs, Tweets, E-Mails, Datenbanken, Webseiten, HTML-Tabellen, Fotos, Videos usw. verstreut.

Bei der Extraktion solch großer Datenmengen aus dem Internet müssen Sie oft mehrere technische Herausforderungen bewältigen. Diese Herausforderungen ergeben sich aus dem Umfang, der Vielfalt, der Wahrhaftigkeit und der Geschwindigkeit der Daten. Schauen wir uns jede dieser Variablen an:

Volumen - Das Datenvolumen wird in Zettabytes (Milliarden von Gigabytes) gemessen, da es sich um große Mengen handelt.

Vielfalt - Zweitens haben die Repositories oder Datenbanken, in denen diese Daten gespeichert werden, verschiedene Formate und beruhen auf mehreren technologischen und rechtlichen Standards.

Geschwindigkeit -Drittens sind die Daten im Web dynamisch, da sie mit unglaublicher Geschwindigkeit erzeugt werden.

Wahrhaftigkeit - Das letzte Merkmal der für die Forschung verfügbaren Daten ist die Wahrhaftigkeit der Daten. Da die Daten aufgrund ihres freien und offenen Charakters anonym im Internet interagieren, wäre kein Forscher in der Lage zu bestätigen, ob die benötigten Daten im Internet verfügbar sind, was ihre Qualität bestätigen würde.

Aufgrund der oben genannten Variablen wäre es für akademische Forscher unpraktisch, die Datenerfassung manuell zu starten. Die am weitesten verbreitete Praxis der Datenerfassung für die Forschung ist daher das Web-Scraping. Wir werden dies im nächsten Abschnitt untersuchen.

Wie kann Web Scraping Ihnen bei Ihrer akademischen Forschung helfen?

Web Scraping ist also die automatische Extraktion von Webdaten aus Quellen wie akademischen Zeitschriften, Forschungsforen, akademischen Arbeiten, Datenbanken und anderen Quellen, die Sie für die akademische Forschung zur weiteren Analyse benötigen.

Web Scraping besteht aus den folgenden Phasen:

Website-Analyse

Hierbei handelt es sich um die Untersuchung der zugrunde liegenden Struktur einer Einheit, in der die Daten gespeichert sind. Bei dieser Einheit kann es sich um eine Website oder ein Repository wie eine Datenbank handeln. Das Ziel dieser Untersuchung ist es, zu verstehen, wie die von Ihnen benötigten Daten gespeichert werden. Dazu muss man die Bausteine verstehen, aus denen die Web-Architektur besteht: HTML, CSS, XML usw. für Auszeichnungssprachen und MySQL für Web-Datenbanken.

Web-Crawling

Beim Website-Crawling werden automatisierte Skripte mit Hilfe von Hochsprachen wie Python erstellt, um die Webseiten zu durchsuchen und die benötigten Daten zu extrahieren. Sie haben die Möglichkeit, Skripte von Grund auf zu erstellen oder ein bereits entwickeltes Skript zu erwerben.

Python enthält Bibliotheken wie Scrapy und Beautiful Soap Library zum automatischen Crawlen und Parsen von Daten. Mehr über Web-Crawling und Scraping erfahren Sie in diesem Artikel.

Organisation der Daten

Nachdem das Crawling-Tool die erforderlichen Daten von einer Website oder einem Repository gesammelt hat, müssen Sie diese bereinigen, vorverarbeiten und für die weitere Analyse organisieren. Daher kann ein programmatischer Ansatz notwendig sein, um Ihre Zeit zu sparen. Auch hier enthalten Programmiersprachen wie Python Bibliotheken für die Verarbeitung natürlicher Sprache (NLP), die Ihnen bei der Organisation und Bereinigung von Daten helfen.

Inzwischen sollten Sie erkannt haben, dass es ziemlich schwierig ist, den gesamten Scraping-Prozess zu automatisieren. Er erfordert ein gewisses Maß an menschlicher Aufsicht.

Nun haben Sie einen Überblick über den gesamten Web-Scraping-Prozess gewonnen. Nun ist es an der Zeit, sich mit den ethischen Aspekten des Web Scraping zu befassen, denn Sie müssen wissen, was Sie beim Scraping tun dürfen und was nicht.

Ethische Aspekte des Web Scraping für die akademische Forschung

Nur weil Sie die automatischen Crawling-Tools haben, heißt das, dass Sie überall scrapen können? Einschließlich der Forschungsdaten, die sich hinter einer Anmeldeseite oder einem privaten Forum befinden?

Obwohl es in Bezug auf Web Scraping rechtliche Grauzonen gibt, sollten Sie beachten, dass es unethisch ist, Daten zu scrapen, auf die ein normaler Nutzer nicht zugreifen darf.

Schließlich kann Web-Scraping zum Beispiel den Eigentümern einer Website unbeabsichtigten Schaden zufügen. Diese Schäden und Gefahren lassen sich nur schwer vorhersagen und definieren.

Hier sind einige der wahrscheinlichen schädlichen Folgen von Web Scraping:

Individueller Datenschutz

Ein Forschungsprojekt, das sich auf die Erfassung von Daten von einer Website stützt, kann versehentlich die Privatsphäre von Personen gefährden, die an Aktivitäten auf der Website beteiligt sind. Wenn ein Forscher beispielsweise die von einer Website gesammelten Daten mit anderen Online- und Offline-Ressourcen vergleicht, gibt er unabsichtlich preis, wer die Daten erstellt hat.

Organisatorischer Datenschutz und Geschäftsgeheimnisse

Genauso wie Einzelpersonen das Recht auf Privatsphäre haben, haben auch Organisationen das Recht, bestimmte Teile ihrer Tätigkeiten privat und vertraulich zu halten.

Andererseits könnten durch automatisches Scraping leicht Geschäftsgeheimnisse oder vertrauliche Informationen über die Organisation, zu der die Website gehört, aufgedeckt werden. Beispielsweise könnte ein intelligenter Benutzer durch Zählen der Stellenanzeigen auf einer Website für Personalbeschaffung die ungefähren Einnahmen des Unternehmens ermitteln. Ein solches Szenario würde zu einer Schädigung des Rufs des Unternehmens führen und könnte sogar finanzielle Verluste nach sich ziehen.

Sinkender Wert der Organisation

Wenn Sie auf eine Website zugreifen, ohne auf das Frontend oder die Benutzeroberfläche zuzugreifen, kommen Sie nicht in den Genuss von Marketingkampagnen, die eine Website zur Umsatzsteigerung einsetzt. Ebenso könnte ein Web-Scraping-Projekt zu einem Produkt führen, das die Kunden wahrscheinlich nicht vom eigentlichen Produktinhaber kaufen werden. Dies würde wiederum zu finanziellen Verlusten für die Organisation führen, da ihr Wert sinkt.

Scraping von Social-Media-Daten für die akademische Forschung

Soziale Medien sind eine der wichtigsten Quellen für die Gewinnung verschiedener Formen von Daten für die Forschung. Das liegt an den verschiedenen Informationen, vom sozialen Verhalten bis hin zu politischen Nachrichten. Aus ethischer Sicht ist es jedoch nicht so einfach, alle Daten zu sammeln, wie es vielleicht klingt.

Einer der Gründe dafür ist, dass die sozialen Medien eine Fülle von persönlichen Daten enthalten. Auch diese Daten werden durch eine Reihe von Rechtsvorschriften geschützt. Außerdem schreiben die ethischen Standards der wissenschaftlichen Gemeinschaft vor, dass Sie die Privatsphäre der Nutzer schützen müssen. Das bedeutet, dass Sie um jeden Preis Schaden vermeiden müssen, der sich aus der Verbindung mit den Personen ergibt, auf die sich Ihre Forschung bezieht.

In der Tat können Sie keine Ihrer Versuchspersonen, die mit Ihrer Forschung in Verbindung stehen, in ihrem privaten Umfeld sehen. Das gilt natürlich auch für den Zugriff auf deren Facebook-Profile, Pinnwand oder private Nachrichten, auf die Sie keinen Zugriff haben.

Bei der Durchführung quantitativer Forschung werden Sie natürlich niemanden persönlich durch ein Datenleck schädigen. Achten Sie also bei der Durchführung qualitativer Forschung darauf, dass Sie keine persönlichen Informationen preisgeben, indem Sie Nutzerbeiträge als Beweise anführen.

Die ultimative Lösung wäre die Anwendung der Pseudonymisierungstechnik, die es Ihnen ermöglicht, Daten zu recherchieren und die Aktivitäten des Subjekts zu verfolgen, ohne dessen Privatsphäre zu verletzen.

Wie Proxies das ethische Scraping für die akademische Forschung unterstützen könnten

Proxies könnten eine große Rolle spielen, wenn es darum geht, Daten für die akademische Forschung zu sammeln. Es gibt riesige Datenpools aus verschiedenen Quellen, aus denen man auswählen kann, und Einschränkungen machen die Forschung komplexer. Proxies können Ihnen helfen, viele dieser Hindernisse zu überwinden. Lassen Sie uns herausfinden, wie.

Umgehung von Geobeschränkungen nach Standort - Einige Zeitschriften und wissenschaftliche Arbeiten schränken den Zugang für Nutzer aus bestimmten Ländern ein. Durch die Verwendung von Proxys können Sie diese Beschränkung umgehen, da sie Ihre IP-Adresse verschleiern. Darüber hinaus können Sie Proxys für verschiedene Standorte auf der ganzen Welt auswählen, damit die Proxys Ihren Standort nicht preisgeben.

Automatisieren Sie den Prozess der Datenerfassung - Wie Sie im vorherigen Abschnitt festgestellt haben, können Web Scraper eine Menge Daten auslesen. Sie sind jedoch nicht in der Lage, die von Websites auferlegten Beschränkungen wie Captchas zu umgehen. Proxys können Ihnen helfen, solche Beschränkungen zu überwinden und Scraper dabei unterstützen, die meisten Daten zu erfassen.

Mehr Sicherheit und Anonymität - Wenn Sie Forschungsprojekte für Unternehmen durchführen, könnten Sie Opfer von Hackern werden. Denn die Hacker könnten Ihre Verbindung abfangen und vertrauliche Daten stehlen. Hinter einem Proxyserver sind Sie jedoch anonym, da Ihre IP-Adresse verborgen ist. Dadurch wird der Hacker daran gehindert, Ihre Daten zu stehlen.

Welche Art von Proxys ist am besten geeignet?

Sie können entweder die Proxys für Rechenzentren oder für Privatanwender verwenden, um Ihre IP-Adresse unter den verfügbaren Proxys zu maskieren.

Mit Residential Proxies können Sie einen Pool von IP-Adressen aus mehreren Ländern verwenden, was wir bereits oben besprochen haben.

Wenn Sie einen Pool von Proxys verwenden, können Sie diese außerdem so rotieren, dass sie für die Ziel-Website als unterschiedliche Zugriffsquellen erscheinen. So ist es am unwahrscheinlichsten, dass Sie eine IP-Sperre erhalten.

Außerdem zeigen bestimmte Forschungswebsites Nutzern aus verschiedenen Ländern unterschiedliche Informationen an. Ein weiterer Vorteil rotierender Proxys besteht darin, dass Sie Ihren Standort wechseln und überprüfen können, ob sich die Daten auch mit diesen verschiedenen Proxys ändern. Auf diese Weise können Sie sicherstellen, dass Ihre Recherchen aus mehreren Quellen aus verschiedenen Ländern umfassend und effektiv sind.

Proxies im Datenjournalismus

Wenn Datenjournalisten Zeitschriftendaten auslesen, sind die meisten Journalisten darauf bedacht, sich selbst zu identifizieren. Einige Journalisten sind der Meinung, dass es unerlässlich ist, sich zu identifizieren, wenn sie Daten von bestimmten Websites abrufen. Dies ist vergleichbar damit, sich jemandem vorzustellen, bevor man ein Interview führt.

Wenn Sie also ein Journalist sind und sich ausweisen möchten, müssen Sie einen Vermerk in den HTTP-Header schreiben, der Ihren Namen enthält, und dass Sie ein Journalist sind. Sie können auch Ihre Telefonnummer angeben, falls der Webmaster Sie kontaktieren möchte.

Wenn Sie dagegen ein Journalist sind, der sich nicht zu erkennen geben möchte, wenn er Daten für Geschichten sammelt, können Sie die Daten mit Hilfe von Proxys anonym abrufen. Allerdings müssen Sie sich dabei an die besten ethischen Praktiken halten und die Regeln der Website befolgen, wie wir oben bereits erwähnt haben. Dieses Szenario ist vergleichbar mit der Durchführung eines verdeckten Interviews, bei dem die Person nicht weiß, dass Sie sie befragen.

Schlussfolgerung

Wir hoffen, dass Sie den Prozess des Data Scraping für die akademische Forschung verstanden haben. Beim Scrapen von Daten gibt es ethische Richtlinien, die Sie befolgen müssen, ohne den Eigentümern der Website unbeabsichtigt Schaden zuzufügen.

Proxys können unter solchen Umständen Ihre Rettung sein und die in diesem Artikel genannten Einschränkungen überwinden.

Wir wünschen Ihnen viel Spaß bei der Lektüre und hoffen, dass Sie die in diesem Artikel erwähnten Methoden zum Scraping von Forschungsdaten für Ihre Forschung einsetzen werden.

von: ProxyScrape