Mit Python und Selenium: Corona-Daten vom RKI-Dashboard scrapen

Dynamische Webseiten sind schwer zu scrapen. Über Selenium automatisieren Sie einen kompletten Browser und holen sich damit auch Daten hinter Javascript-Code.

Artikel verschenken

17

Das Corona-Dashboard vom RKI

(Bild: Screenshot)

22.01.2021, 17:05 Uhr

Lesezeit: 21 Min.

heise+ exklusiv

Von

Marvin Strathmann

Mit Python und Selenium: Corona-Daten vom RKI-Dashboard scrapen
Driver einrichten
Erste Versuche
Daten suchen
Regionale Daten holen
Landkreise nach Fallzahl
Ausgabe
Fazit

Fußballergebnisse, aktuelle Nachrichten oder Wetterberichte – Daten aus dem Web lassen sich mit Python und den Bibliotheken BeautifulSoup und Requests recht simpel ins eigene Programm holen. Die Informationen können Sie dann aufbereiten und in das Format bringen, das Sie gerade benötigen.

Dieser Ansatz funktioniert aber nur bei statischen Websites. Sobald Javascript ins Spiel kommt, wird es kompliziert. Dann stehen die Daten nicht in einem einfach auslesbaren div-Element, sondern sie werden oft dynamisch geladen, etwa nachdem Sie auf einen Button geklickt, ein Häkchen gesetzt oder Text in eine Suche eingegeben haben. Wenn Sie trotzdem dynamische Webinhalte scrapen möchten, hilft Selenium.

Selenium ist eigentlich ein kostenloses Framework, um Webanwendungen automatisiert zu testen. Wenn etwa ein Tester bei jede Änderungen nicht dauernd dasselbe Webformular neu ausfüllen möchte, dann gibt er Selenium die Befehle vor und das Framework leitet sie an einen gewünschten Browser weiter. Mit dieser Vorgehensweise können Sie nicht nur Webanwendungen testen, sondern auch Javascript-Webseiten scrapen, etwa das Corona-Dashboard des Robert-Koch-Instituts (RKI). So holen Sie sich aktuelle regionale Corona-Daten für Ihren Landkreis, ohne die quälend langsame Website selbst besuchen zu müssen.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Plattenspieler-Kaufberatung: Worauf Sie achten sollten

Musik auf Vinyl liegt weiter im Trend und die Auswahl an Plattenspielern steigt. Darauf sollten Sie achten, wenn Sie ins Vinyl-Hobby einsteigen möchten.

, Copyxspace, stock.adobe.com / heise medien

USB-C: Warum Sie eigentlich immer das falsche Kabel anschließen

Das richtige Kabel für USB-C-Verbindungen zu finden, ist ein Glücksspiel: Das eine lädt zu langsam, beim anderen kriechen die Daten im Schneckentempo. Was tun?

Nur für neue ARM-CPUs: Windows 11 26H1 lässt AMD und Intel außen vor

Die neue Windows-11-Version 26H1 erscheint nur für Komplettsysteme mit neuen ARM-Prozessoren. Prozessoren von AMD oder Intel werden sie nie zu Gesicht bekommen.

Tschüss Big Tech: Vierzehn sichere E-Mail-Alternativen aus Europa im Vergleich

Gmail, iCloud, Outlook – die größten E-Mail-Anbieter sitzen in den USA. Mit diesen europäischen Alternativen erklären Sie Ihre digitale Unabhängigkeit.

Abofalle Auto: Folgekosten durch digitale Services – mehr Transparenz gefordert

Vernetzte Services sorgen für mehr Komfort und Sicherheit beim Neuwagen. Doch nach ein paar Jahren wird es oft unübersichtlich. So auch beim Mégane E-Tech.