Wie man Google-Suchergebnisseiten (SERPs) scrapen kann

Anleitungen, Kratzen, Aug-02-20215 Min. gelesen

Es bedarf keiner weiteren Erläuterung, dass Google die am häufigsten genutzte Plattform für Suchanfragen von Menschen auf der ganzen Welt ist. Laut der Statista-Website beträgt der Anteil von Google am weltweiten Suchmarkt 87,35 %. Außerdem hat die Statistik gezeigt, dass Google jährlich mehr als 2 Billionen Nutzer hat und über 130 Billionen Seiten indexiert. Diese Statistiken beweisen, dass Google

Es bedarf keiner weiteren Erläuterung, dass Google die am häufigsten genutzte Plattform für Suchanfragen von Menschen auf der ganzen Welt ist. Laut der Statista-Website beträgt der Anteil von Google am weltweiten Suchmarkt 87,35 %. Außerdem hat die Statistik gezeigt, dass Google jährlich mehr als 2 Billionen Nutzer hat und über 130 Billionen Seiten indiziert. 

Diese Statistiken beweisen, dass Google über umfassende öffentlich zugängliche Daten zu seinen SERPs verfügt, die für Internet-Vermarkter und andere gleichermaßen wertvoll sind. Daher ist das Scraping von SERPs zu einer Priorität unter Internet-Vermarktern geworden. Wenn Sie jedoch eine bestimmte Anzahl von Anfragen überschreiten, wird Google Ihre IP-Adresse sperren.

In diesem Artikel geht es also darum, wie man SERPs scrapen kann, ohne gesperrt zu werden. Zuvor werden wir die Grundlagen des Web Scraping behandeln.

Was ist Web Scraping?

Nehmen wir an, Sie müssen eine große Menge an Daten von mehreren Webseiten kopieren. Zunächst könnten Sie versucht sein, den Inhalt zu kopieren und in eine Tabellenkalkulation einzufügen. Da es sich jedoch um ein umfangreiches Webdokument handelt, wäre die manuelle Extraktion der Daten sehr zeitaufwändig. Daher müssen Sie den Scraping-Prozess automatisieren, was Ihnen viel Zeit sparen würde.

Dieser Automatisierungsprozess des Scrapings von Daten wird als Web Scraping bezeichnet. Mit dieser Methode können Sie die HTML-Quelle herunterladen, ohne die URL der Website in einen Browser eingeben zu müssen.

Weitere Informationen über Web Scraping finden Sie hier. 

Was ist ein Search Engine Results Pages (SERP) Scraping?

Genau wie Web Scraping ist Scraping SERP der Prozess des Extrahierens der ersten 10 oder mehr Ergebnisse einer Google-Suche für eine Reihe von Schlüsselwörtern. Die meisten Unternehmen für Suchmaschinenoptimierung (SEO) verwenden diese Technik, um die Platzierungen der Websites ihrer Kunden für die angestrebten Schlüsselwörter zu verfolgen. 

Es kann auch andere Gründe geben, Scraping für SERPS durchzuführen, z. B. Anzeigenüberprüfung, Lead-Generierung und Content-Aggregation.

In der Regel gibt es Automatisierungstools für das Scraping von SERPs, die Sie in den nächsten Abschnitten dieses Artikels kennenlernen werden. Alternativ können Sie auch Ihr eigenes Skript mit Programmiersprachen wie Python erstellen. Dies können Sie jedoch nur tun, wenn Sie sich im Programmieren sicher fühlen und über höhere technische Kenntnisse verfügen. Darüber hinaus können Sie auch cURL verwenden, um Google SERPs zu scrapen.

Sobald diese Tools Daten von relevanten Webseiten abrufen, speichern sie diese in Datenbanken, CSV-Dateien, XML- oder JSON-Dateien. Dann liegen diese Daten in einem strukturierten Format vor, anhand dessen Sie feststellen können, ob Ihre SEO-Bemühungen richtig funktionieren. Das liegt daran, dass Sie die Platzierungen Ihrer Seite im Laufe der Zeit sehen können.

Außerdem bestehen die SERPs nicht nur aus textlichen Inhalten, sondern auch aus Bildern, Videos, Featured Snippets, lokalen Suchkarten und vielem mehr.

Im nächsten Abschnitt werden Sie einen wichtigen Vorteil des Scrapings von SERPs entdecken.

Wie hilft das Scraping von SERPs bei der Wiederherstellung von Schäden, die durch Hacker verursacht wurden?

Wenn Sie gehackt werden, hat das immer negative Folgen für Sie. Ihre gehackte Website und ihre Anmeldedaten können im Dark Web landen. Hacker könnten sogar Backlinks verkaufen oder Dark-Web-Malware auf Ihrer Website ausführen. Ebenso wirkt sich das Hacken negativ auf die Suchmaschinenoptimierung aus.

Einer der wichtigsten Vorteile des Scrapings von SERPs in Google ist die Fähigkeit, die potenziellen Schäden zu identifizieren, die Hacker verursachen würden. Wenn Sie hart daran gearbeitet haben, Ihre SEO-Rankings in den SERPs zu erreichen, können Hacker leicht in Ihre Sicherheitseinstellungen eindringen und alle Ihre SEO-Bemühungen zunichte machen. 

Ausführliche Informationen darüber, wie Hacker Ihre SEO-Bemühungen unterwandern, finden Sie hier.

Laut einer Umfrage gaben 48 % der SEO-Experten an, dass Google viele Monate brauchte, um den ursprünglichen Zustand ihrer SERF-Ergebnisse wiederherzustellen. 

Die Verfolgung der SERPs für Ihre Websites liefert hilfreiche Erkenntnisse darüber, was mit Ihren Rankings geschieht. Sie helfen Ihnen auch, die potenziellen Ergebnisse Ihrer Rankings während der Hackversuche zu bestimmen. So können Sie Google schnell darum bitten, Ihre früheren Platzierungen wiederherzustellen. Dadurch würden die Ausfallzeiten Ihrer Website und die Einbußen im Suchmaschinen-Ranking drastisch minimiert.

Wenn Ihre Website hingegen mit Malware infiziert ist, würde dies Ihre Platzierung in den Suchmaschinen beeinträchtigen. Die Wahrscheinlichkeit, dass Ihre Website auf eine schwarze Liste gesetzt wird, ist ebenfalls größer. Nach Angaben von Godaddy gilt dies vor allem für Websites kleiner Unternehmen. 90 % der Godaddy-Websites wussten nicht, dass sie mit Malware infiziert waren.

Das kontinuierliche Scannen aller Ihrer SERPs ermöglicht es Ihnen also, potenzielle Hacking-Versuche im Voraus zu erkennen, und hilft Google sicherlich, Ihre Ergebnisse wiederherzustellen.

Wie lassen sich Google-Suchergebnisse auslesen?

Wie ich bereits erwähnt habe, gibt es mehrere Möglichkeiten, wie Sie Google SERPs scrapen können. In diesem Abschnitt werden Sie mehrere Möglichkeiten entdecken, wie Sie es tun können.

Visueller Web Scraper

Octoparse

Dies ist ein allgemeines Web Scraper Tool, das Sie zum Scrapen von Google SERPs verwenden können. Es scrapt nicht nur SERPs, sondern kann auch Daten von Google Maps auslesen.

Eines der wichtigsten Merkmale von Octoparse ist, dass es geschickt die Anti-Scraping-Maßnahmen der Ziel-Websites umgeht. Außerdem müssen Sie kein Programmierer sein, um das visuelle Scraping-Tool zu nutzen. Es ist sehr benutzerfreundlich und sowohl als Cloud-basierte Lösung als auch als installierbare Software erhältlich.

Weitere Informationen über Octoparse finden Sie hier.

Browser-Erweiterung

Webscraper.io 

Webscraper.io ist eine kostenlose Erweiterung für den Google Chrome Webbrowser. Sie kann Daten aus Google-Webseiten in Form von HTML und CSS extrahieren. Anschließend kann sie die Daten im CSV-Format exportieren. Die Version der Browser-Erweiterung ist völlig kostenlos und reicht aus, um Ihre Scraping-Aktivitäten zu verwalten. Wenn Sie sich für die cloudbasierte Option entscheiden, fallen Kosten an.

Sie können damit auch Google Maps extrahieren und in eine Datenbank konvertieren. Mehr Informationen über diese Erweiterung finden Sie hier.

Google Suche API

Wussten Sie, dass Google eine offizielle Möglichkeit bietet, Daten aus seiner Suchmaschine zu extrahieren? Obwohl sie, wie unten erwähnt, ihre Grenzen hat, ist sie derzeit für jeden verfügbar, der die SERP-Daten benötigt. Hier sind die Einschränkungen:

  • Im Vergleich zu visuellen Web-Scrapern, Browser-Erweiterungen oder anderen Web-Scraping-Tools liefert es nur begrenzte Informationen.
  • Google hat es mit der Absicht entwickelt, eine einzelne Website oder weniger Websites zu durchsuchen. Sie können es jedoch so konfigurieren, dass es das gesamte World Wide Web (WWW) durchsucht, was viel technisches Know-how erfordert.
  • Das ist wahnsinnig teuer, denn es würde ein Vermögen kosten, haufenweise Anfragen zu stellen.

Mit ihren Einschränkungen und Kosten ist die Google-Such-API also nicht die ideale Plattform für das Scraping von SERPs-Ergebnissen. Es ist immer besser, die in diesem Artikel erwähnten alternativen Methoden zu verwenden.

Verwendung von Python, Anfragen und BeautifulSoup

Für diejenigen unter Ihnen, die Experten in der Programmierung mit Python sind, wäre diese Methode sehr praktisch. Sie würde zweifellos in erster Linie die Kosten senken, und Sie haben mehr Kontrolle.

In diesem Programm werden wir die SERPs für die Suchanfrage "Wie lerne ich Python" extrahieren. Um die Sache zu vereinfachen, geben wir die Suchanfrage als Hardcode ein. Nachdem wir die Ergebnismenge ausgelesen haben, geben wir den Titel der Ergebnisse aus. Tauchen wir ein.

import requests from bs4 import BeautifulSoup import random text = 'How to learn Python programming' url = 'https://google.com/search?q=' + text useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36" ) Agent = useragent[random.randrange(len(useragent))] headers = {'user-agent': Agent} req = requests.get(url, headers=headers) soup = BeautifulSoup(req.text, 'lxml') for info in soup.find_all('h3'): print(info.text) print('__________')

Hier werde ich jede einzelne Zeile des Codes deutlich erklären:

Einfuhrgesuche

Wir verwenden die Anfrage-Bibliothek von Python, um die SERP herunterzuladen. Anschließend sendet das Abfragemodul eine get-Anfrage an den Google-Server. Dadurch kann das Programm den HTML-Inhalt der SERP herunterladen.

von bs4 importieren BeautifulSoup

Dann ist die folgende Zeile selbsterklärend, die die BeautifulSoup-Bibliothek lädt. Diese Bibliothek ermöglicht es, HTML- und XML-Dokumente zu parsen.

text = 'Wie man Python programmieren lernt' url = 'https://google.com/search?q=' + text

Dieser Teil des Codes legt die URL der Suchmaschine fest, von der die Daten abgefragt werden sollen. Ich habe also die URL als google.com festgelegt und für die Suchanfrage den Text in der Textvariablen "Wie lerne ich Python-Programmierung" als Suchanfrage angehängt.

useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, wie Gecko) Chrome/92.0.4515.107 Safari/537.36" )

      

Der obige Code setzt dann die Zeichenfolge des Benutzeragenten.

req = requests.get(url, headers=headers)

Der obige Code sendet die Anfrage an den Webserver, um den gewünschten HTML-Inhalt der Suchergebnisse herunterzuladen.

soup = BeautifulSoup(req.text, 'lxml')

Erstellen Sie eine Instanz von BeautifulSoup mit den Daten, die der obige Code aus den 'lxml'-Parsing-Headern angefordert hat. Sie müssen zuerst das 'lxml'-Paket installieren, damit der obige Code funktioniert.

for info in soup.find_all('h3'): print(info.text) print('__________')

Dann werden in einer for-Schleife alle h3-Tags extrahiert, um die Titel anzuzeigen.

Verwendung von Anwohner-Proxys zum Scrapen von Google SERPs

Wie bereits erwähnt, erlegen Suchmaschinen wie Google Beschränkungen auf und sperren Ihre IP-Adresse, wenn Sie das Scraping-Limit überschreiten. Hier spielen Proxys eine entscheidende Rolle bei der Maskierung Ihrer IP-Adresse. Von allen Proxys, die es gibt, sind die Proxys für Privatpersonen die ideale Wahl. Das liegt daran, dass ihre IPs von echten Hausbesitzern stammen.

Wenn Sie jedoch die ersten paar SERPs scrapen, wird Google feststellen, dass Ihr Vorgehen unmenschlich ist. Dann würde es die IP-Adresse Ihres Proxys blockieren, und Sie müssten sich mit Captchas herumschlagen.

In diesem Fall ist das Netz der Wohn-Proxys Ihr Retter. Wenn Sie ein Netz von Proxys für Privatpersonen verwenden, hat jeder eine eindeutige IP-Adresse. Sie könnten also durch Rotation der IP-Adressen von den SERPs kratzen. Ihre Aktionen würden der Suchmaschine dann als menschlich erscheinen.

Eine ausführliche Erläuterung der Wohnrechtsvollmachten finden Sie in diesem Artikel.

Rechtliche Folgen bei der Verwendung von Proxys für Wohngebiete zum Scrapen von Google SERPs

Inzwischen sollten Sie eine klare Vorstellung davon haben, was Residential Proxies sind und wie sie Ihnen helfen können, die IP-Sperren zu umgehen. Nun wollen wir uns mit einem entscheidenden Faktor befassen, den viele Nutzer beim Scraping aus den SERPs von Google vernachlässigen. Das sind die rechtlichen Auswirkungen der Verwendung von Proxys für Wohngebiete.

Zunächst einmal ist es legal, Wohn-Proxys zu verwenden, um die Google-SERPs zu scrapen. In diesem Sinne könnten Sie versucht sein, unbegrenzte Anfragen an Suchmaschinen wie Google zu senden. Dadurch würden die Server von Google mit einer großen Anzahl von Anfragen überlastet. Das ist nicht richtig, auch nicht nach dem Algorithmus der Google SERPs.

Daher müssen Sie sicherstellen, dass Sie der Ziel-Website oder der Suchmaschine, von der Sie Daten auslesen wollen, gegenüber immer respektvoll sind. Außerdem müssen Sie die bestmöglichen Scraping-Praktiken anwenden, einschließlich eines respektvollen Umgangs Ihres Scrapers mit der Zielsuchmaschine.

Sie müssen die Anfragen sofort einschränken oder den Scraping-Prozess stoppen, wenn Sie oder Ihr Proxy-Anbieter eine Beschwerde vom Ziel-Webserver erhalten. Die Beschwerde kann darin bestehen, dass der Ziel-Webserver aufgrund Ihrer unbegrenzten Anfragen eine hohe Arbeitsbelastung erfährt. Daher müssen Sie in solchen Fällen Vorsicht walten lassen.

Häufig gestellte Fragen

Ist es illegal, von Google zu scrapen?

Normalerweise mag Google es nicht, wenn Scraper Daten von ihm abgreifen. Wie ich bereits mehrfach in diesem Artikel erwähnt habe, kann es Ihre IP-Adressen sperren. Außerdem hat Google bisher noch keine Maßnahmen gegen das übermäßige Scrapen von Daten ergriffen. Offensichtlich hätten die SEO-Unternehmen keinen Ausweg, wenn Google solche Maßnahmen ergreifen würde.

Schlussfolgerung

Wir hoffen, dass Sie nun einen Überblick über die verschiedenen Methoden erhalten haben, mit denen Web Scraper Daten aus SERPs auslesen. Schließlich haben Sie erfahren, wie Sie Wohn-Proxys für das Scrapen von SERPs verwenden können, und welche rechtlichen Folgen dies hat.

Wir hoffen, dass Sie diesen Artikel nützlich finden, und halten Sie sich über weitere Artikel auf dem Laufenden.