iX Special 2023
S. 72
Werkzeuge
Datenquellen

Offene Datenquellen für ML-Projekte

Machine Learning macht dann Spaß, wenn man gute Daten hat, auf denen die ausgewählten Algorithmen arbeiten können. Eigene Daten aufzubereiten kann sehr viel Zeit in Anspruch nehmen – warum also nicht für erste ML-Versuche, Weiterbildung oder Prototypen fremde Daten nutzen? Hierfür gibt es einige öffentliche Datenquellen.

Von Ramon Wartala

Egal, ob blutige Anfänger oder KI-Spezialisten – Data Scientists sind zum Training ihrer Machine-Learning-Modelle auf wohldefinierte Daten angewiesen. Dabei spielt es keine Rolle, ob es um den wissenschaftlichen Betrieb, IT-Beratung oder Produktentwicklung geht: Ohne qualitativ hochwertige Daten kommt heute niemand aus. Das zeigt sich auch daran, wie erfolgreich sich datengetriebene Geschäftsmodelle in den letzten Jahren entwickelt haben. Daher verwundert es nicht, dass die üblichen Verdächtigen Google, Facebook und Amazon, aber auch Firmen wie BMW, Deutsche Bahn, Bosch und andere einige ihrer Daten bereitstellen. Die Motivation hinter solchen Angeboten ist allerdings sehr unterschiedlich. Firmen benötigen offene Daten zum Anwerben von Fachkräften im Bereich Data. So öffnen sie ihre Daten auch für Bewerber im Bereich Datenanalyse und Data Science. Kompetenzen dieser Berufsgruppe sind trotz Rezessionsstimmung immer noch stark nachgefragt. Ein professionelles Angebot an offenen Daten kann dabei unterstützen, die Modernität eines potenziellen Arbeitgebers zu untermauern, um seine Attraktivität zu erhöhen. Auch lassen sich damit im Rahmen von Hackathons oder Design Sprints erste Prototypen auch mit unternehmensfremden Personen realisieren.

Auf der Ebene der öffentlichen Verwaltung und der Behörden des Bundes und der Länder greifen das Informationsfreiheitsgesetz von 2005 und das Datennutzungsrecht von 2021, die den Anspruch auf Zugang sowie die Nutzung amtlicher Informationen festlegen (siehe ix.de/z949). Infolge der Gesetzgebung entstanden etliche Webseiten zum Thema Open Data und Open Governance. Das GovData-Portal des Bundes bietet zentral offene Daten von 14 der 16 Bundesländer. Für andere Staaten wie die USA oder Großbritannien gab es solche Portale allerdings schon früher (siehe ix.de/z949).

Kommentieren