Die Champions League des Data-Mining

Das US-Start-up Kaggle organisiert gut dotierte Wettbewerbe, wie man mit neuen Algorithmen Datenhalden brauchbare Prognosen entlocken könnte. Wofür die akademische Forschung Jahre braucht, gelingt hier manchmal in wenigen Wochen.

vorlesen Druckansicht 2 Kommentare lesen
Lesezeit: 4 Min.
Von
  • Rachel Metz

Das US-Start-up Kaggle organisiert gut dotierte Wettbewerbe, wie man mit neuen Algorithmen Datenhalden brauchbare Prognosen entlocken könnte. Wofür die akademische Forschung Jahre braucht, gelingt hier manchmal in wenigen Wochen.

Es gibt Dinge, die lassen sich inzwischen leicht prognostizieren. Wann es Nebel in San Francisco gibt etwa oder Staus in New York – reine Routine. Deutlich schwieriger wird es schon mit Kursentwicklungen an der Börse oder dem Krankheitsverlauf eines HIV-infizierten Patienten. Solche Aufgaben will das Start-up Kaggle auf eine ungewöhnliche Art lösen helfen: Es organisiert Wettbewerbe, in denen die Teilnehmer aus Bergen von Daten scheinbar unmögliche Prognosen herausdestillieren sollen.

Kaggle setzt hierfür Informatiker an Universitäten und Experten in Unternehmen wie Google oder IBM aufeinander an. Demjenigen, der mit seinem Algorithmus die beste Prognose errechnet, winkt ein Geldpreis.

Schöpfer dieser Champions League des Data-Mining ist der australische Ökonom Anthony Goldbloom. Die Idee zu den „Datenkämpfen“ kam ihm durch eine ähnliche Initiative des Videodienstes Netflix. Der hatte zwischen 2006 und 2009 eine Million Dollar für denjenigen ausgelobt, dem es gelänge, die Genauigkeit der Filmempfehlungssoftware um zehn Prozent zu verbessern.

Die Popularität des Netflix-Wettbewerbs zeigte Goldbloom, wie viele kluge Köpfe bereit sind, sich an harten Datenrätseln zu versuchen. Während eines Praktikums beim britischen Wirtschaftsmagazin Economist ging ihm wiederum auf, wie viele Unternehmen auf wahren Datenschätzen sitzen, aber nicht das Personal haben, sie zu heben.

Könnte man nicht beide Lager zusammenbringen? Und mit einem Wettbewerb dazu motivieren, mehr aus existierenden Daten herauszuholen?

Der erste Test fand im April 2010 statt. Goldbloom versprach 1000 Dollar fĂĽr die treffsicherste Prognose, welches Land den Eurovision Song Contest gewinnen wĂĽrde. Seitdem hat Kaggle 30 Wettbewerbe durchgefĂĽhrt, von denen aktuell noch fĂĽnf laufen.

In dieser Zeit ist die Kaggle-Community auf 27.000 Mitglieder angewachsen. Und sie liefert handfeste Ergebnisse. In einem der ersten Wettbewerbe stellte ein Forscher der Drexel University anonymisierte Daten von HIV-Patienten zur Verfügung. Alle enthielten einen genetischen Marker, anhand dessen sich im Prinzip der weitere Verlauf der Immunerkrankung vorhersagen lässt.

Es dauerte nur eineinhalb Wochen, bis Kaggle-Mitglieder eine Prognose-Genauigkeit von 70 Prozent für den weiteren Krankheitsverlauf erreicht hatten. Die konnten sie durch einen Abgleich mit bekannten medizinischen HIV-Daten ermitteln. Die akademische Forschung hatte vier Jahre gebraucht, um auf diese Treffsicherheit zu kommen. Am Ende des dreimonatigen Wettbewerbs hatten die Teilnehmer ein Modell entwickelt, mit dem sich Prognosen mit 77-prozentiger Zuverlässigkeit machen ließen.

Teil des Reizes von Kaggle sei, dass man sehen könne, wie man mit guten Lösungen im „Leader Board“ aufsteige, sagt Goldbloom. „Und alle wollen auf der Leiter nach oben.“

Will Cukierski schätzt nicht nur diesen Kick. Durch die Teilnahme an einem Wettbewerb verbesserten sich auch die Chancen auf dem Arbeitsmarkt, glaubt der Biomedizin-Student von der Rutgers University. Er hat bereits bei fünf Kaggle-Ausschreibungen mitgemacht und in einer sogar gewonnen. „Es ist Spaß und Geschäft, von beidem etwas“, sagt Cukierski.

Obwohl die meisten Teilnehmer aus dem Data-Mining kommen, gewinnen bislang am häufigsten die fachfremden Mitstreiter. Vielleicht liege es daran, dass sie das Problem aus einem neuen Blickwinkel betrachteten, mutmaßt Goldbloom.

Barbara Chow zum Beispiel, Direktorin für Bildung bei der William and Flora Hewlett Foundation, erhofft sich von diesen Querdenkern eine Antwort auf die Frage, wie man die Aufsätze von Studenten automatisch und zuverlässiger als bislang bewerten kann. Sie hat für die Stiftung auf Kaggle 60.000 Dollar Preisgeld ausgesetzt. Bis zum 30. April haben die Teilnehmer noch Zeit. Zwar gibt es keine Garantie, dass dann jemand eine brillante Lösung gefunden hat. Aber die Stiftung habe überzeugt, dass Kaggle „Zugang zu den richtigen Leuten“ habe.

Zu Leuten wie Cukierski zum Beispiel. Sein Team arbeitet zurzeit mit Hochdruck daran, ein automatisches Bewertungssystem zu entwickeln. „Unsere vorläufigen Ergebnisse zeigen, dass wir damit schon dicht an den Fähigkeiten von Menschen dran sind“, sagt Cukierski. (nbo)