KĂĽnstliche Intelligenz soll Geschehen in Videos verstehen lernen
Computer können mittlerweile zuverlässig Objekte auf Standbildern erkennen. Als Nächstes sollen sie jetzt das Interpretieren von Aktivitäten in Video-Daten lernen – eine neue Datensammlung könnte hier Fortschritte ermöglichen.
- Sascha Mattke
Forscher von MIT und IBM haben eine riesige Datensammlung mit Videos veröffentlicht, in der die darin zu sehenden Aktivitäten detailliert beschrieben sind. Das Moments in Time Dataset enthält Schnipsel von jeweils drei Sekunden Länge, in denen von Angeln bis Breakdance alles Mögliche zu sehen ist. Das Projekt ist als Teil von zunehmenden Bemühungen zu verstehen, Maschinen beizubringen, nicht nur Objekte, sondern das Geschehen in Video-Aufnahmen korrekt zu erkennen. Das berichtet Technology Review online in "KI guckt Video".
Der aktuelle Boom bei KI wurde unter anderem durch Erfolge dabei ausgelöst, die Inhalte von statischen Bildern zu erkennen. Dazu mussten tiefe neuronale Netze mit großen gekennzeichneten Datensammlungen trainiert werden. Auch viele heutige KI-Systeme zur Interpretation von Video-Aufnahmen – einschließlich solcher für manche selbstfahrende Autos – identifizieren lediglich Objekte in statischen Bildern, anstatt laufende Aktivitäten zu interpretieren. "Viele Sachen in der Welt verändern sich von einer Sekunde auf die andere", erklärt Aude Oliva, eine an dem Projekt beteiligte Forscherin am MIT. "Wenn man verstehen will, warum etwas passiert, bekommt man von Bewegungen viele Informationen, die in einem Einzelbild nicht erfasst sind."
Laut Olga Russakovsky, die als Assistant Professor an der Princeton University auf maschinelles Sehen spezialisiert ist, war die Entwicklung von nützlichen Video-Datensammlungen bislang schwierig, weil sie mehr Speicherplatz und Rechenleistung erfordern als Standbilder. Doch es geht voran. So hat Google schon im vergangenen Jahr eine Sammlung von acht Millionen gekennzeichneten YouTube-Videos namens YouTube-8M veröffentlicht. Und auch Facebook entwickelt eine Datensammlung mit Aktivitäten auf Video.
Mehr dazu bei Technology Review online:
(sma)