Web Scraping mit MechanicalSoup

Python, How to's, Scraping, Sep-12-20245 Min. gelesen

Web Scraping ist im digitalen Zeitalter zu einem unverzichtbaren Werkzeug geworden, insbesondere für Webentwickler, Datenanalysten und digitale Vermarkter. Stellen Sie sich vor, Sie könnten schnell und effizient wertvolle Informationen aus Websites extrahieren. An dieser Stelle kommt MechanicalSoup ins Spiel. In diesem Leitfaden werden die Feinheiten der Verwendung von MechanicalSoup für Web Scraping untersucht und praktische Einblicke und Tipps für den Einstieg gegeben.

Die Rolle von MechanicalSoup beim Web Scraping

MechanicalSoup ist eine Python-Bibliothek, die Web-Scraping vereinfacht, indem sie eine unkomplizierte Schnittstelle zur Automatisierung von Interaktionen mit Webseiten bietet. Sie verarbeitet effizient Formulare und Links und kann auf Websites navigieren, die grundlegende Benutzeraktionen wie das Einreichen von Formularen und die Link-Navigation erfordern. Dies macht sie ideal für die Automatisierung von Aufgaben auf Websites mit statischem Inhalt, bei denen kein komplexes Benutzerverhalten erforderlich ist.

Erste Schritte Einrichten von MechanicalSoup für Web Scraping

Bevor wir uns mit den Besonderheiten des Web Scraping befassen, sollten wir zunächst MechanicalSoup einrichten. Der Installationsprozess ist unkompliziert und kann in wenigen Schritten abgeschlossen werden.

Installation von MechanicalSoup

Um MechanicalSoup zu installieren, muss Python auf Ihrem Rechner installiert sein. Dann können Sie pip, den Paketinstaller von Python, verwenden, um MechanicalSoup zu installieren. Öffnen Sie Ihr Terminal und geben Sie den folgenden Befehl ein:

pip install mechanicalsoup

Einrichten Ihrer Umgebung

Nach der Installation von MechanicalSoup ist es wichtig, die Entwicklungsumgebung einzurichten. Sie benötigen einen Code-Editor, wie z.B. Visual Studio Code oder PyCharm, um Ihre Python-Skripte zu schreiben und auszuführen. Stellen Sie sicher, dass Sie auch die Bibliotheken "BeautifulSoup" und "requests" installiert haben.

Erste Schritte mit MechanicalSoup

Die Erstellung Ihres ersten Web-Scraping-Skripts mit MechanicalSoup erfordert ein paar grundlegende Schritte. Beginnen Sie damit, die notwendigen Bibliotheken zu importieren und ein Browser-Objekt zu initialisieren. Hier ist ein einfaches Beispiel, das Ihnen den Einstieg erleichtert:

mechanicalsoup importieren
browser = mechanicalsoup.StatefulBrowser()
browser.open("https://www.scrapethissite.com/pages/")

Die Grundlagen des Web Scraping mit MechanicalSoup

Nachdem wir nun MechanicalSoup eingerichtet haben, wollen wir uns mit den Grundlagen des Web Scraping beschäftigen. Wenn Sie diese Grundlagen verstehen, werden Sie in der Lage sein, komplexere Scraping-Skripte zu erstellen.

Handhabung von Formularen

In MechanicalSoup wird die Methode "select_form()" zum Auffinden und Bearbeiten von Formularen verwendet.
Das Argument gegen select_form() ist ein CSS-Selektor. Im folgenden Codebeispiel verwenden wir diese Seite um ein einfaches Suchformular mit einem Feld auszufüllen. Denn in unserem Fall gibt es nur ein Formular auf der Seite, browser.select_form() reicht aus. Andernfalls müssten Sie die Css-Selektor zum select_form() Methode. Um die Felder des Formulars anzuzeigen, können Sie außerdem die Funktion print_summary() Methode. So erhalten Sie detaillierte Informationen über jedes Feld. Da das Formular zwei Arten von Elementen - Textfelder und Schaltflächen - enthält, müssen wir nur das Textfeld ausfüllen und das Formular dann absenden:

Mechanische Suppe importieren 


browser = mechanicalsoup.StatefulBrowser()
browser.open("https://www.scrapethissite.com/pages/forms/?page_num=1")

# Wählen Sie das Formular aus
such_form = browser.select_form()

print(suche_form.print_summary())
search_form.set("q",'test')

browser.submit_selected()

Hier ist das Ergebnis des obigen Codes.

<input class="form-control" id="q" name="q" placeholder="Search for Teams" type="text"/>
<input class="btn btn-primary" type="submit" value="Search"/>

Handhabung der Paginierung

Beim Web-Scraping müssen oft mehrere Seiten mit Daten bearbeitet werden. MechanicalSoup bietet keine direkte Funktion, um mit Hilfe von Paginierungs-Links durch die Seiten zu paginieren.
In der Beispiel-Website, die wir verwenden, sieht die Paginierung wie folgt aus:

Hier sehen Sie, wie die HTML-Struktur aussieht:

So what we will do is first select the list that holds the pagination links with "browser.page.select_one('ul.pagination')".
Then with ".select('li')[1::]" we select all "<li>" elements inside 'pagination' list starting from the second element. This will return a list of "<li>" elements and then we paginate each one of them in a "for loop" starting from the second element and for each "<li>" element we extract the "<a>" tag and then use it in "follow_link()" method to navigate to that page.
Here is the full example:

Mechanische Suppe importieren


browser = mechanicalsoup.StatefulBrowser()
browser.open("https://www.scrapethissite.com/pages/forms/?page_num=1")

for link in browser.page.select_one('ul.pagination').select('li')[1::]:
    next_page_link = link.select_one('a')
    browser.follow_link(nächste_seite_link)
   print(browser.url)

Einrichten von Proxies

Beim Scraping von Websites oder bei der Automatisierung von Web-Interaktionen kann die Verwendung von Proxys entscheidend sein, um geografische Beschränkungen zu umgehen, Ratenbeschränkungen zu verwalten oder IP-Sperren zu verhindern. Mit MechanicalSoup in Kombination mit der "requests"-Bibliothek können wir Proxy-Konfigurationen nahtlos integrieren, so dass Sie diese Vorteile effektiv nutzen können. Hier erfahren Sie, wie Sie Proxys in MechanicalSoup für Ihre Web-Scraping-Aufgaben einrichten können:

import mechanicalsoup
import requests

def create_proxy_browser():
    # Define your proxy configuration (example values)
    proxies = {
        "http": "rp.proxyscrape.com:6060:username:password",
        "https": "rp.proxyscrape.com:6060:username:password",
    }

    # Create a session object with proxy settings
    session = requests.Session()
    session.proxies.update(proxies)

    # Optionally, you can add headers or other session settings here
    session.headers.update({
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    })

    # Create a MechanicalSoup StatefulBrowser using the configured session
    browser = mechanicalsoup.StatefulBrowser(session=session)
    return browser

# Usage
browser = create_proxy_browser()
response = browser.open("https://www.scrapethissite.com/pages/forms/?page_num=1")
print(response.text)  # Outputs the content of the page

Ethische und rechtliche Erwägungen beim Web Scraping

Web Scraping kann ethische und rechtliche Bedenken aufwerfen. Es ist wichtig, diese Überlegungen zu verstehen, um mögliche Probleme zu vermeiden.

Einhaltung der Website-Richtlinien

Prüfen Sie vor dem Scraping immer die Nutzungsbedingungen einer Website. Einige Websites verbieten das Scraping ausdrücklich, während andere spezifische Richtlinien haben können. Die Missachtung dieser Richtlinien kann rechtliche Konsequenzen nach sich ziehen.

Vermeidung der Überlastung von Servern

Häufige Anfragen an eine Website können deren Server überlasten und zu Störungen führen. Verwenden Sie Verzögerungen zwischen den Anfragen und beachten Sie die Datei "robots.txt" der Website, um dies zu verhindern. Hier erfahren Sie, wie Sie eine Verzögerung einbauen können:

Zeitimportieren
time.sleep(2) # Verzögerung für 2 Sekunden

Datenschutz

Stellen Sie sicher, dass die von Ihnen gesammelten Daten nicht gegen Datenschutzbestimmungen wie die DSGVO verstoßen. Personenbezogene Daten sollten mit Sorgfalt behandelt und nur bei Bedarf erhoben werden.

Schlussfolgerung

Web Scraping mit MechanicalSoup bietet eine leistungsstarke und flexible Lösung für Webentwickler, Datenanalysten und Digital Marketer. Wenn Sie die in diesem Leitfaden beschriebenen Schritte befolgen, können Sie effizient wertvolle Daten aus Websites extrahieren, sich wiederholende Aufgaben automatisieren und sich einen Wettbewerbsvorteil in Ihrem Bereich verschaffen.

Ob Sie nun ein erfahrener Profi sind oder gerade erst anfangen, MechanicalSoup bietet Ihnen die Werkzeuge, die Sie für Ihren Erfolg benötigen. Denken Sie immer daran, ethische und rechtliche Aspekte zu berücksichtigen, bewährte Verfahren zu befolgen und Ihre Fähigkeiten kontinuierlich zu verbessern.

Sind Sie bereit, Ihre Web-Scraping-Fähigkeiten auf die nächste Stufe zu heben? Fangen Sie noch heute an, mit MechanicalSoup zu experimentieren, und schöpfen Sie das volle Potenzial der Webdatenextraktion aus. Viel Spaß beim Scrapen!

von: ProxyScrape