Raus aus der Beta-Phase: Google veröffentlicht Suche nach Datensätzen
Mit Dataset Search lassen sich ab sofort in der Suchmaschine Datensätze finden und nach Kategorien wie Veröffentlichungsdatum und Nutzungsrechte filtern.
Google macht die Datensatz-Suche nach einem Jahr Beta-Phase frei verfügbar. Damit lassen sich Studien, Statistiken und andere Datenbündel finden, die besonders für Wissenschaftler und Datenjournalisten interessant sind, um Informationen leichter zu finden, sie weiter zu verarbeiten oder darauf aufbauend eigene Forschung voranzutreiben. Google möchte so ein offenes Daten-Ecosystem schaffen.
In der von der üblichen Suchmaschine separierten Suchoberfläche lassen sich Kategorien auswählen, wie etwa der Veröffentlichungszeitraum, die Nutzungsrechte, und ob der Zugang kostenlos oder kostenpflichtig ist. Auch eine Unterscheidung nach Bildern, Tabellen oder Textdokumenten ist möglich. Google durchforstet dann die Metadaten tausender Quellen im Internet. Bei der Bewertung der Daten kommen Machine-Learning-Modelle zum Einsatz. Auch Erfahrungen aus dem Knowledge Graph, der die rechts erscheinenden Informationstafeln in der normalen Google-Suche bestückt, fließen in die Auswertung ein.
Suchanfragen können über datasetresearch.research.google.com gestellt werden. Ergebnisse werden mit der Überschrift, Quelle und einem Veröffentlichungsdatum links in einer Spalte aufgelistet. Klickt man darauf, öffnet sich zunächst eine große Vorschau rechts neben der Spalte, hier finden sich weitere Informationen und der Link zur Originalquelle. Oberhalb der Ergebnisse lassen sich die Kategorien auswählen. Google zeigt auch an, wie oft eine Quelle bereits in wissenschaftlichen Artikeln zitiert wurde, ebenfalls samt der Links zur wissenschaftlichen Literatursuche Google Scholar.
Die Dataset-Suche hatte Google bereits 2018 eingeführt, allerdings zunächst in einer Beta-Version. Seit dem Start sind die Kategorien eingeführt worden, auch Google Maps wurde für Suchen zu geografischen Themen eingebunden. Neu ist die Verfügbarkeit auf mobilen Geräten. Insgesamt 25 Millionen Datensätze sind laut Google bisher auffindbar, die Sammlung soll natürlich weiter wachsen.
Markups zum Finden der Datensätze
Um die eigenen Daten in der Suche auffindbar zu machen, müssen den entsprechenden Seiten Metadaten, etwa mit dem offenen Standard Schema.org, hinzugefügt werden, die den Inhalt beschreiben. Solche Markups helfen Google beim Finden und Einordnen von Datensätzen.
Regulierung von Künstlicher Intelligenz
Laut Googles Blogbeitrag sind die bisher am häufigsten gesuchten Themen Bildung, Wetter, Krebs, Kriminalität, Fußball und Hunde. Sucht man die Vierbeiner, erscheinen Treffer wie eine Datenbank mit Bildern von 120 Hunderassen, eine Studie zur Intelligenz von Hunden und eine Untersuchung, ob Hunde sich selbst im Spiegel erkennen.
(emw)