Google Groundsource: KI-Training mit 2,6 Millionen historischen Flutereignissen

Google will mit dem Projekt Groundsource die Vorhersage von Überschwemmungen verbessern. Dazu wertet eine KI Nachrichtenartikel in über 80 Sprachen aus.

1

Google hat diese Weltkarte veröffentlicht, die die Häufigkeit von Hochwasserereignissen in Groundsource darstellt. Rote Punkte kennzeichnen Hochwasserereignisse aus dem GDACS – die Auswertung von Nachrichtenquellen hat also die Zahl und die Ausbreitung der erfassten Hochwasserereignisse deutlich erhöht.

(Bild: Google)

13:17 Uhr

Lesezeit: 3 Min.

Von

Malte Kirchner

Überschwemmungen sind eine tödliche Gefahr und oftmals schwer vorherzusagen. Künstliche Intelligenz könnte die Vorhersagen verbessern. Doch das Problem ist, dass geeignetes Trainingsmaterial bislang nicht in ausreichender Zahl vorlag. Hier will Google jetzt mit einem neuen Projekt namens Groundsource einen Beitrag leisten, indem es Nachrichtenartikel aus aller Welt in über 80 Sprachen auswertet und daraus geeignetes Datenmaterial extrahiert. 2,6 Millionen historische Flutereignisse wurden bereits als Open-Access-Datensatz veröffentlicht.

Dass KI-Modelle aus dem Wissen um die Vergangenheit brauchbare Vorhersagen für die Zukunft treffen können, hat Google bereits mit seinem WeatherNext-Vorhersagemodell gezeigt – dessen Nachfolger WeatherNext 2 bereits deutlich höhere Geschwindigkeiten erreicht. Dass Googles KI-Modelle bei Hurrikan-Vorhersagen sogar menschliche Experten in den Schatten stellen können, bestätigten jüngst auch unabhängige Forscher.

Chaotische Datensituation

Anders als bei Wetterdaten war die Datensituation bei Flutereignissen deutlich chaotischer. Laut Google fehlt eine standardisierte Beobachtungsinfrastruktur. Bestehende Datenbanken wie die satellitengestützte Global Flood Database (GFD) und das Dartmouth Flood Observatory (DFO) erfassen vor allem große, langanhaltende Katastrophen und haben physikalische Grenzen. Andere Datensammlungen sind zu klein, um KI-Modelle im globalen Maßstab zu trainieren.

Die infrage kommenden Nachrichtenartikel mussten zunächst mit einem Bot gesammelt und per Cloud Translation API ins Englische übersetzt werden. Im nächsten Schritt wurde mit dem Gemini-LLM eine Klassifikation vorgenommen: Zwischen Berichten über Warnungen oder politische Debatten musste die KI jene über tatsächliche Ereignisse herausfiltern.

Die übrig gebliebenen Artikel wurden zeitlich und räumlich genau verortet und nach dem Abgleich mit der Google Maps Platform in eine Datenbank eingetragen. Bei manuellen Überprüfungen erwiesen sich 60 Prozent der extrahierten Ereignisse als in Ort und Zeitpunkt exakt korrekt; 82 Prozent waren für die praktische Analyse ausreichend genau, wie Google in einem Blogpost schreibt.

Videos by heise

Vorhersagen bis zu 24 Stunden im Voraus

Die Daten umfassen 2,6 Millionen Flutereignisse in mehr als 150 Ländern und einen Zeitraum vom Jahr 2000 bis heute. Besonders viele Daten liegen für den Zeitraum von 2020 bis 2025 vor, da die Zunahme digitaler Nachrichten hier zu einer höheren Datendichte geführt hat. Google gibt an, dass Ereignisse bis zu 24 Stunden vorhergesagt werden können. Die Vorhersagen werden über Googles Flood Hub bereitgestellt, das Risikohinweise für urbane Gebiete in mehr als 150 Ländern liefert und seine Daten auch mit Katastrophenschutzbehörden in den betroffenen Regionen teilt.

Allerdings gibt es einige Einschränkungen: Das Modell hat aktuell noch eine grobe räumliche Auflösung. Zudem fehlt eine Schnittstelle zu lokalen Radardaten zu Niederschlägen. Für Regionen, die keinen Zugang zu einer solchen Infrastruktur haben, ist das KI-Modell aber besser als nichts. Perspektivisch soll KI auch zur Vorhersage von Erdrutschen und Hitzewellen zum Einsatz kommen.