Wie synthetische Datensätze KI-Systeme verbessern sollen
Deep Learning benötigt große Informationsmengen. Aus realen Informationen abgeleitete Fake-Daten sollen helfen.
- Karen Hao
Man kann die schwachen Stoppeln auf seiner Oberlippe sehen, die Falten auf seiner Stirn, die Unreinheiten seiner Haut. Er ist kein echter Mensch, aber er orientiert sich an ihnen – so wie Hunderttausende andere, die von Datagen hergestellt werden, einer Firma, die Fakes von Menschen verkauft.
Diese falschen Personen sind keine Spiel-Avatare oder animierte Figuren für Filme. Sie dienen als künstliche Daten, um damit Deep-Learning-Algorithmen zu füttern. Firmen wie Datagen wollen damit eine Alternative zum teuren und zeitaufwändigen Sammeln von Daten aus der realen Welt anbieten. Das Unternehmen generiert die Informationen maßgeschneidert für den Kunden, wie und wann er es will – und das zu einem relativ günstigen Preis.
Um seine synthetischen Menschen zu erzeugen, scannt Datagen zunächst reale Personen. Das Unternehmen arbeitet mit Zwischenhändlern zusammen, die Menschen dafür bezahlen, in großen Ganzkörperscannern jedes Detail von der Iris über die Hautbeschaffenheit bis hin zur Krümmung der Finger erfassen zu lassen. Aus diesen Rohdaten kreiert das Startup mit Hilfe einer ganzen Reihe von Algorithmen 3D-Darstellungen von Körper, Gesicht, Augen und Händen einer Person.
Nicht einfach "Daumen hoch"
Das Unternehmen mit Sitz in Israel arbeitet nach eigenen Angaben bereits mit vier groĂźen US-Tech-Giganten zusammen, will aber nicht verraten, mit welchen. Sein wichtigster Konkurrent, Synthesis AI, bietet ebenfalls digitale Menschen auf Abruf an. Andere Unternehmen generieren Daten fĂĽr die Finanz-, Versicherungs- und Gesundheitsbranche. Es gibt mittlerweile zahlreiche Firmen auf dem Gebiet.
Einst galten synthetische Daten im Vergleich zu realen als minderwertig. Heute hingegen sieht so mancher Beobachter in ihnen ein Allheilmittel. Echte Daten sind unübersichtlich und mit Fehlern behaftet. Neue Datenschutzbestimmungen erschweren zudem ihr Sammeln. Im Gegensatz dazu lassen sich aus synthetischen Daten viel leichter die unterschiedlichsten Datensätze erstellen. So kann man daraus zum Beispiel perfekte Gesichter unterschiedlichen Alters, unterschiedlicher Form und ethnischer Zugehörigkeit erzeugen. Damit lässt sich dann ein Programm zur Gesichtserkennung entwickeln, das für alle Bevölkerungsgruppen funktioniert.
Aber synthetische Daten haben auch Nachteile. Spiegeln sie die Realität nicht richtig wider, könnte das zu schlechteren Ergebnissen führen als weniger genaue Daten aus der realen Welt – oder zumindest zu den Problemen führen, die diese haben. "Ich mag hier nicht einfach ein "Daumen hoch" setzen und sagen: Oh, das wird so viele Probleme lösen", sagt Cathy O'Neil, eine Datenwissenschaftlerin und Gründerin der auf die Überprüfung von Algorithmen spezialisierte Firma ORCAA. "Denn bei der Methode werden auch viele Dinge nicht beachtet."
Realistisch, nicht real
Deep Learning brauchte schon immer viele Daten. Aber in den letzten Jahren hat sich gezeigt, dass deren Qualität wichtiger ist als ihre Menge. Selbst kleine Mengen richtiger, sauber zugeordneter Daten verbessern die Leistung eines KI-Systems mehr als die zehnfache Menge schlecht aufbereiteter Daten, selbst wenn man leistungsfähigere Algorithmen verwendet.
Das sollten Unternehmen bei der Entwicklung ihrer KI-Modelle berücksichtigen, sagt Ofir Chakon, CEO und Mitbegründer von Datagen. Heute sammeln die Firmen zumeist erst einmal so viele Daten wie möglich und optimieren dann ihre Algorithmen. Stattdessen sollten sie das Gegenteil tun: Den selben Algorithmus verwenden, aber die Qualität ihrer Daten verbessern.
Doch reale Daten für solches iteratives Experimentieren zu sammeln, ist zu kostspielig und zeitintensiv. An dieser Stelle kommt Datagen ins Spiel. Mit einem Generator für synthetische Daten können Teams Dutzende von neuen Datensätzen pro Tag erstellen und sie testen, um herauszufinden, welche die Realität am besten abbilden.
Hunderttausende Kombinationen
Um die Realitätsnähe der Daten zu gewährleisten, gibt Datagen seinen Lieferanten detaillierte Anweisungen, wie viele Personen in jeder Alters- und Gewichtsklasse sowie ethnischer Zugehörigkeit zu scannen sind. Hinzu kommt eine Liste von Aktionen, die sie ausführen sollen, wie etwa in einem Raum herumlaufen oder eine Limonade trinken.
Die Hersteller senden sowohl hochauflösende statische Bilder als auch Motion-Capture-Daten zurück. Die Algorithmen von Datagen erstellen dann hunderttausende Kombinationen aus diesen Daten. Diese synthetisierten Daten werden dann manchmal noch einmal überprüft, etwa künstliche Gesichter mit echten verglichen, um zu sehen, wie realistisch sie wirken.
Datagen generiert beispielsweise Gesichtsausdrücke zur Überwachung der Aufmerksamkeit von Fahrerinnen und Fahrern in smarten Autos. Oder Körperbewegungen, um Kunden in kassenlosen Geschäften zu verfolgen, sowie Iris und Handbewegungen, um die Augen- und Hand-Tracking-Funktionen von VR-Headsets zu verbessern. Laut dem Unternehmen dienten seine Daten bereits zur Entwicklung von Bilderkennungssystemen (Computer Vision), die mehrere Millionen Nutzerinnen und Nutzer verwenden.