Web-Scraping mit Python: Websitedaten nach einem Login auslesen

Mit den Python-Bibliotheken BeautifulSoup und Requests ziehen Sie beliebige Daten aus dem Netz. Auch Infos hinter einer Anmeldemaske stehen Ihnen offen.

Artikel verschenken

4

16.03.2020, 06:00 Uhr

Lesezeit: 14 Min.

heise+ exklusiv

Von

Marvin Strathmann

Web-Scraping mit Python: Websitedaten nach einem Login auslesen
- Scraping-Grundlagen
Vierten Absatz scrapen
Komplexere Logins

Mit einigen Zeilen Python-Code und der Bibliothek BeautifulSoup können Sie nahezu jede beliebige Information von Websites auslesen und in Ihrem Python-Programm automatisch weiterverarbeiten. Aber manche Daten sind nicht öffentlich zugänglich, Sie können erst darauf zugreifen, nachdem Sie sich an einer Website angemeldet haben.

Um an die Daten hinter einer Anmeldung zu kommen, benötigen Sie neben BeautifulSoup die Bibliothek Requests. Mit einer HTML-POST-Methode geben Sie einer Website Anmeldedaten mit und lesen anschließend mit BeautifulSoup die Infos aus, die dem Programm vorher verborgen waren. Anfallende Cookies speichert Requests, sodass Sie nach einer Anmeldung beliebige Seiten der gewünschten Webseite aufrufen können.

Als erstes Beispiel zeigen wir Ihnen, wie Sie sich bei heise online anmelden und etwas auslesen, das im freien Web nicht verfügbar ist: Den vierten Absatz eines heise+-Artikels. Unangemeldet und ohne Abo bekommt man nach drei Absätzen eine Anmeldemaske vorgesetzt. Die Anmeldemaske dürfte sich etwa hier für alle abofreien Leser langsam einfaden. Kann das Test-Programm den vierten Absatz auslesen, dann wissen Sie als Heise+-Abonnenten, dass das Python-Skript funktioniert. In einem komplexeren Beispiel zeigen wir anschließend, wie Sie sich bei der deutschen Wikipedia anmelden.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

MacBook Neo: Der Schrecken der Windows-Welt

Mit dem MacBook Neo greift Apple den Notebook-Massenmarkt an. Warum dabei ausgerechnet ein iPhone-Chip hilft.

Wie Sie Ihren alten Kindle nach dem Supportende weiternutzen

Amazon klemmt alte Kindle am 20. Mai von seinem Store ab und verhindert den Download gekaufter Bücher. So können Sie ihn weiter benutzen und neue Bücher lesen.

EUDI-Wallet: Welche Rolle PID und PID-Provider im EUDI-Wallet-Ökosystem spielen

Die PID (Person Identification Data) macht den Personalausweis zur digitalen Kernidentität. Ein Überblick, wie die Herausgabe über die Bundesdruckerei abläuft.

Edel-NAS mit KI im Test: Ugreen iDX6011 Pro

Mehr geht kaum: fetter Prozessor, extraschnelles LAN, reichlich RAM. Ins iDX6011 Pro packt Ugreen alles, was gut und teuer ist. Wir haben es getestet.

Anker, Medion, Nothing: Over-Ear-Kopfhörer bis 150 Euro im Test

Schon für wenig Geld gibt es gute Kopfhörer. Und in einer Hinsicht sind Anker Space 2, Medion HX-1 Pro und Nothing Headphone (a) sogar dem High End überlegen.

Familienarchiv statt Datengrab: Wie Sie Bilder und Videos richtig speichern

Wer seine wertvollen Fotos einfach auf den nächsten USB-Stick schiebt, riskiert den Totalverlust. Was Sie über Formate und Speichermedien wissen müssen.