Der automatische Daten-Wissenschaftler
Kompetenz in Statistik und Mathematik wird immer gefragter und knapper. In diese Lücke stoßen mehrere Angebote, die eine automatische Auswertung und Interpretation von Daten versprechen.
- Tom Simonite
Kompetenz in Statistik und Mathematik wird immer gefragter und knapper. In diese Lücke stoßen mehrere Angebote, die eine automatische Auswertung und Interpretation von Daten versprechen.
Egal, ob es heute darum geht, Medikamente zu entwickeln, Online-Anzeigen auszuliefern oder ein ganzes Land zu regieren: Immer ist es dabei hilfreich, auf Mitarbeiter zählen zu können, die komplexe Daten analysieren und erklären können. Von Google unterstützte Forscher entwickeln jetzt Software, die einen Teil der Arbeit dieser so genannten Daten-Wissenschaftler automatisieren soll – in der Hoffnung, etwas gegen die Fachkräfteknappheit in diesem Bereich zu tun: Der „automatisierte Statistiker“ wird mit Rohdaten gefüttert und liefert dann Berichte mit Worten und Grafiken, die in dem Material gefundene mathematische Trends beschreiben.
„Die Software macht nicht genau das Gleiche wie ein menschlicher Statistiker, aber sie kann sehr hilfreich sein“, sagt Zoubin Ghahramani, Professor für Information Engineering an der University of Cambridge, der die Software entwickelt hat. Manchmal finde sie sogar Muster, die ein Daten-Analyst aus Fleisch und Blut nicht gesehen hätte.
Computer haben komplexe mathematische Operationen mit großen Datensammlungen enorm erleichtert, und die Umsätze mit Software zur Datenanalyse nehmen zu. Noch immer aber wird menschliche Kreativität und Kompetenz gebraucht, um die richtigen Methoden zur Erklärung der Muster in einer Datensammlung auszuwählen und anzuwenden.
Der automatisierte Statistiker ist eines von einer Handvoll Werkzeugen, die einen Teil der nötigen menschlichen Kompetenz in Software-Form liefern sollen. Beispielsweise konnte das System anhand eines Jahrzehnts an Daten zum Flugverkehr einen neunseitigen Bericht mit vier mathematischen Erklärungen für Trends generieren, die sich zur Erstellung von Prognosen nutzen ließen.
Vor kurzem erhielt Ghahramani von Google eine Zuwendung von 750.000 Dollar zur Förderung des Projekts. Im Lauf dieses Jahres will er eine Version seines Robo-Statistikers online verfügbar machen. Anschließend, so sagt er, will er über ein kommerzielles Angebot nachdenken..
Der automatisierte Statistiker basiert auf einer umfangreichen Sammlung an statistischen Techniken, die sich wie Bausteine kombinieren lassen, um unterschiedliche mathematische Modelle zu generieren, erklärt Ghahramani. Zunächst versucht es die Software mit den einfachsten ihrer eingebauten Methoden. Diejenigen, die gute Ansätze liefern, werden dann für weitere Runden von Experimenten ausgewählt, bei denen zusätzliche mathematische Verfahren hinzukommen. Mit dem so identifizierten besten Modell wird dann der endgültige Bericht erstellt.
Dieser Bericht beschäftigt sich ausschließlich mit den Daten, nicht mit dem Geschehen in der realen Welt. Beispielsweise fand Ghahramanis Automat eine Möglichkeit, die regelmäßige Zunahme der Airline-Aktivität im Sommer mathematisch zu beschreiben – erkannte aber nicht, dass Urlaubsreisen dahinter standen. Auch so liefert er laut Ghahramani aber einen nützlichen Ausgangspunkt für menschliche Daten-Analysten, die dann solche Deutungen oder weitere Analysen vornehmen können.
In einem Bericht warnte die Royal Statistical Society Großbritanniens vergangenes Jahr vor einer “Klemme“ bei der Versorgung mit Daten-Wissenschaftlern; die Nachfrage nach Datenkompetenz wachse in allen möglichen Branchen. Und wie LinkedIn meldete, hatten diejenigen seiner Mitglieder, die nach eigenen Angaben über statistisches Können verfügen, 2014 die besten Chancen, einen neuen Job zu bekommen oder das Interesse von Personalvermittlern auf sich zu ziehen.
Wenn der automatisierte Statistiker tatsächlich zu einem kommerziellen Produkt wird, wird er ein weiterer Dienst im gut besetzten Feld der Angebote für Unternehmen sein, die mehr aus ihren Daten herausholen wollen. Ein Unternehmen namens Skytree etwa hat Anfang Februar das nach seinen Angaben erste kommerzielle Werkzeug herausgebracht, das automatisch das beste Modell zur Erklärung einer bestimmten Datensammlung auswählen kann. Anders als der automatisierte Statistiker liefert der „Automodeler“ allerdings keine fertigen Berichte in natürlicher Sprache. Zu den Kunden von Skytree zählen Versicherungen und Kreditkartenfirmen, die damit Betrugsfälle aufdecken wollen.
Alex Gray, der Chefwissenschaftler von Skytree, ist zugleich Associate Professor am Georgia Institute of Technology. Den automatisierten Statistiker bezeichnet er als interessantes Forschungsprojekt. Seine Methoden seien aber nicht effizient genug für die Bearbeitung sehr großer Datensammlungen.
Ein anderes Unternehmen, Narrative Science, bietet einen Dienst, der aus numerischen Daten Berichte in natürlicher Sprache macht. Mitgründer Kristian Hammond, ein Professor an der Northwestern University, erklärt, der automatisierte Statistiker könne die Arbeit von Daten-Wissenschaftlern durchaus effizienter machen. Für Personen ohne statistisches Wissen allerdings seien seine Berichte wenig hilfreich, denn die meisten Geschäftsleute interessierten sich wenig für mathematische Modelle. Stattdessen, so Hammond, wollen sie nur wissen, „ob sie Geld sparen können, wenn sie die Fabrikaktivität von 1 Uhr bis 6 Uhr um 50 Prozent zurückfahren.“
(sma)