Datenforscherin: "Künstliche Intelligenz ist kaputt"

In KI-Modellen könnten immer mehr Trainingsdaten verarbeitet werden, was die Monopolbildung unterstütze, warnt die New Yorker Praktikerin Sophie Searcy.

In Pocket speichern vorlesen Druckansicht 376 Kommentare lesen
Künstliche Intelligenz: Überall in Europa entscheiden schon Algorithmen

(Bild: whiteMocca/Shutterstock.com)

Lesezeit: 6 Min.
Inhaltsverzeichnis

Firmen und Forschungseinrichtungen, die Algorithmen für Künstliche Intelligenz (KI) entwickeln, werden immer datenhungriger. Dies verdeutlichte Sophie Searcy, Data Scientist beim "KI-Bootcamp" Metis in New York, auf der am Samstag zu Ende gegangenen Konferenz "AI Traps" in Berlin. "Die Leute in Unternehmen reden nur noch darüber, wie sie Daten bekommen." Mit immer umfangreicheren Trainingsdaten-Sets wollten sie immer bessere KI-Lösungsmodelle entwickeln.

Sophie Searcy, Data Scientist beim "KI-Bootcamp" Metis in New York

(Bild: Stefan Krempl)

Leistungsfähigere Algorithmen an sich seien nicht schlecht, erläuterte Searcy. Sie hälfen dabei, dass Maschinen die "echte Welt" besser und schneller einschätzen könnten. Jedes KI-Modell sei letztlich eine kleine Funktion, um "etwas Größeres einzufangen". Es gehe dabei um Lernprozesse in der Form, dass Erfahrungen verarbeitet würden, um bestehende Modelle so zu aktualisieren, dass sie auch für künftige Entwicklungen nützlich sind.

Bei der Erkennung von Fröschen anhand von Frosch-Fotos beispielsweise könnte es immer neue Spezies geben, die Aufnahmen zudem in einem immer wieder anderen Licht oder von einem anderen Winkel aus gemacht sein. Je mehr dieser Variablen berücksichtigt und verarbeitet werden könnten, desto genauer arbeite der Algorithmus. Bislang ist es dabei laut der Praktikerin am schwierigsten, anhand verfügbarer Trainingsdaten einzuschätzen, "wie ein Modell mit Daten arbeitet, die man nicht hat".

Bisher habe es gute Gründe gegeben, nicht alle existierenden Daten zu sammeln, verdeutlichte Searcy anhand des Frosch-Beispiels. Weil man immer wieder das gesamte Datenset auf einmal habe beobachten müssen, sei die Trainingszeit durch das Einfügen neuer Bilder exponentiell gewachsen, was die Komplexität enorm erhöht habe.

Diese systembedingte Bremswirkung wird der Expertin zufolge durch Verwendung stochastischer Gradientenabstiegsverfahren nun zunehmend aufgehoben. Stochastic Gradient Descent (SGD) verringere die Menge an Testdaten durch eine zufällige Auswahl. Sie können so einfacher weiterverarbeitet werden. "Deep Fakes" etwa lebten von diesem Prozess. Die Folge sei der rasant wachsende Datenhunger der Entwickler von KI-Modellen. Jeder drehe nur noch an den virtuellen Stellschrauben für Algorithmen und schaue darauf, wie sich durch das Sammeln von immer mehr Trainingsdaten Genauigkeitsverluste reduzieren und höhere Erkennungsraten erzielen ließen.

Der große Nachteil dieses Prozesses sei, dass damit Monopole auf Daten und Inhalte gefördert würden, monierte Searcy. Die den Markt beherrschenden Techkonzerne wie Amazon, Facebook, Google oder Microsoft könnten damit auch den Arbeitsmarkt kontrollieren und KI-Entwickler an sich binden. Damit hätten sie auch eine gewisse Machtposition selbst gegenüber der Politik und den Regulierern, die schwer zu brechen sei. Generell würden KI-Modelle eingesetzt, um menschliche Arbeit zu ersetzen oder sonst allenfalls neue Tätigkeitsformen zu ermöglichen. Diese Mechanismen seien "schlecht für jeden", die Allgemeinheit profitiere nicht davon. Searcys Resümee: "Künstliche Intelligenz ist kaputt."

Vorgaben für Ethik, Transparenz oder Open Source für KI reichen Searcy zufolge nicht aus, um die Datenmonopole in die Schranken zu weisen. Der Anspruch der Google-Mutter Alphabet etwa, die Technik nur einzusetzen, wenn die Vorteile für die Allgemeinheit die Schäden für Einzelpersonen überwiegen, sei die verhasste Lachnummer in der Branche, meinte die Insiderin: "Die Firmen werden sich nie von sich aus dafür entscheiden, das Richtige zu tun." Auf Open Source setzten sie auch nur, "wenn es für sie nützlich ist" und darüber Dritte leichter eingespannt werden könnten. Etwa bei der Gesichtserkennung oder Regierungsaufträgen gebe es aber keinerlei Anreiz dafür, Modelle frei zu veröffentlichen.

Searcy forderte daher eine deutlich strengere Regulierung der datengetriebenen Branche. "Die Industrie muss als inhärentes Risiko behandelt werden" – so wie Pharmafirmen, die ein neues Arzneimittel entwickelten, unterstrich sie. Angesichts des "hohen Schadenspotenzial" reiche auch die Datenschutz-Grundverordnung (DSGVO) nicht aus, wonach etwa biometrische Daten nur zur eindeutigen Identifizierung einer natürlichen Person verwendet werden dürfen und Systeme transparent sein müssen.

Der Künstler Adam Harvey berichtete auf der Tagung anhand von Erkenntnissen aus seinem Projekt "Megapixels", dass Firmen genauso wie Forscher ihre Trainingsdaten-Sets vielfach "wild", also ohne Einwilligung der Betroffenen aufbauten. Das sei beispielsweise bei Daten für die Gesichtserkennung der Fall. Da derlei Systeme nach wie vor hohe Fehlerraten aufwiesen, sei in diesem Bereich die Jagd auf die Daten voll im Gange. Microsoft etwa habe sich für die Datenbank Celeb einfach bei Bildern von Promis sowie weniger bekannten Personen im Web bedient, die Duke University habe für das "Multi-Tracking-Register" DukeMTMC aus einem Fenster des Instituts mit Teleobjektiv Aufnahmen von Studenten gemacht.

Diese Datenbanken seien zwar inzwischen größtenteils offiziell abgeschaltet worden, führte Harvey aus: "Aber man kann sie nicht wirklich aus dem Netz bekommen." So kursierten die Inhalte nach wie vor in "akademischen Torrents" in Peer-to-Peer-Netzwerken "rund um die Welt". Der Aktivist hält es für erwiesen, dass Teile davon etwa von der chinesischen Armee übernommen und nun auch für die Unterdrückung der muslimischen Minderheit in der autonomen Region Xinjiang verwendet werden und fordert, dass die beteiligten Firmen und Hochschulen "dafür haften". Für KI-Versuche sollten die Betreiber zudem allenfalls die biometrischen Daten ihrer eigenen Belegschaft nutzen.

Nicht gut an kamen beim Publikum die Schilderungen des Datenwissenschaftlers Slava Jankin von der Hertie School of Governance über Analyseprojekte in englischen Gemeinden. Dort seien mit Methoden des Social Scoring "Risikoprofile" von Kindern und Jugendlichen erstellt worden, um möglichst frühzeitig zu erkennen, ob diese Missbrauch zum Opfer fallen oder nicht altersgerecht schulreif werden könnten. Ausgewertet habe man dafür etwa auch Akten von Sozialarbeitern. Da aufgrund von Datenschutzbeschränkungen Verknüpfungen mit Registern von Polizei oder Klinken nicht hätten hergestellt werden dürfen, liege die Vorhersagegenauigkeit bei dem System bei 74 Prozent.

Informatiker wüssten offenbar oft gar nicht, was sie tun, kritisierte ein Gastforscher dieses Projekt. Die Folgen für die Betroffenen vor Ort könnten überaus gefährlich sein. "Die Eltern haben das gefordert", verteidigte Jankin den Ansatz. Das technische System solle Sozialarbeiter nicht ersetzen, sondern ihnen die Arbeit erleichtern. Der Kreis spare durch das Projekt Geld. Man habe zudem einen Ethikrat mit Abgesandten von den Eltern und anderen Gemeindevertretern eingerichtet. (bme)