Videosuche nach Drehbuch

Forscher haben ein automatisiertes System entwickelt, mit dem sich einzelne Charaktere in TV-Sendungen identifizieren lassen. Das eröffnet ganz neue Möglichkeiten beim Durchsuchen von Videos.

vorlesen Druckansicht
Lesezeit: 6 Min.
Von
  • Brendan Borrell

Googles Aufkauf des Videodienstes YouTube macht Experten Hoffnung, dass sich die Suche nach Bewegtbildinhalten im Internet bald verbessern könnte. Mehr als 65.000 Videos werden laut YouTube jeden Tag bei dem Anbieter hochgeladen. Bei all diesem Material wird es immer schwieriger, den richtigen Clip zu finden.

Forscher haben nun ein Verfahren entwickelt, das mit einer Kombination aus Gesichtserkennung, Nutzung von Untertiteln sowie den Original-DrehbĂĽchern Gesichter benennen kann, die auf dem Schirm auftauchen. So werden beispielsweise Folgen der TV-Show "Buffy The Vampire Slayer" durchsuchbar, wie das Team zeigte.

"Wir sehen das als ersten Schritt, automatische Beschreibungen von Bewegtbildinhalten zu generieren", erläutert der Computerwissenschaftler Mark Everingham von der University of Leeds, der das Projekt im September auf der "British Machine Vision Conference" vorstellte.

Aktuell durchsuchen weder YouTube noch das bestehende Filmangebot von Google oder der Konkurrent AOL Video die Inhalte von Filmen. Stattdessen setzen sie auf "Metadaten", sprich Textbeschreibungen, die die Nutzer selbst eingeben, um einen durchsuchbaren Videoindex zu schaffen.

Die Nutzer laden häufig Teile ihrer Lieblingssendungen bei den Videoangeboten hoch – eigentlich illegalerweise. Sucht man beispielsweise nach dem Schlagwort "Buffy", finden sich über 2000 Clips auf YouTube, von denen viele mehrere Tausende Mal angesehen wurden. Die meisten sind weniger als fünf Minuten lang und besitzen nur eine sehr grobe Beschreibung. Da heißt es dann beispielsweise zum Clip "Ein neuer Tag": "Hier geht es vor allem um Buffy und Spike. Die Szene zeigt, wie Spike bis zum Ende für Buffy da ist und sie sich danach sehr alleine fühlte."

Laut Everingham wurde schon bei früheren Videosuch-Projekten mit Untertiteln gearbeitet. Eine Nutzung dieser Möglichkeit in Kombination mit dem Originalskript kennt er aber noch nicht. Das Drehbuch liefere die Informationen, "was gesagt wird und wer es sagt" und die Untertitel, "wann was gesagt wird". Everinghams Software kombiniert diese beiden Quellen mit weiteren mächtigen Werkzeugen, die zur Gesichts- und Sprechererkennung ohne Nutzereingaben entwickelt wurden.

Das Beispiel "Buffy" sei ein besonders schwieriges, so Everingham, weil bei Film und Fernsehen die Person, die spricht, nicht immer im Bild sei. Hauptpersonen wie Buffy sprechen manchmal auch aus dem Off oder schauen nicht direkt in die Kamera. Stattdessen werden die Reaktionen anderer Personen gezeigt. Manchmal sind auch mehrere Schauspieler zu sehen oder ein Schauspieler schaut an der Kamera vorbei. All diese Zweideutigkeiten interpretiert ein Mensch ohne Probleme korrekt, ein Computer hat damit bislang Schwierigkeiten. Everinghams Kombimodell zeigt hier jedoch seine Stärken: Laut dem Forscher arbeitet es in 80 Prozent aller Fälle korrekt.

Eine einzelne Folge von "Buffy" kann mit 20.000 Gesichtserkennungsvorgängen einher gehen, aber die meisten dieser Fälle entstehen durch verschiedene Einzelbilder eines einzigen Darstellers in einer Aufnahme. Die Software überwacht charakteristische Merkmale im Gesicht: Nasenlöcher, Pupillen oder Augen, beispielsweise. Wenn diese Merkmale mit dem nächsten Einzelbild übereinstimmen, werden zwei Gesichter als Teil einer einzelnen Spur erkannt.

Sind die charakteristischen Merkmale jedoch unklar, setzt die Software auf eine Beschreibung der Kleidung, um die beiden "unterbrochenen" Gesichtsspuren zu vereinen. SchlieĂźlich beobachtet die Software die Lippen der Schauspieler, um zu identifizieren, wer spricht oder ob ein Schauspieler im Off ist. AnschlieĂźend erstellt das System aus all diesen Daten eine detaillierte Punkt-fĂĽr-Punkt-Beschreibung des Videos.

"Die Grundidee dabei ist, mehr Informationen herauszuziehen, ohne dass der Mensch sie eingeben müsste", meint Alex Berg von der Computer Vision Group an der University of California in Berkeley. "Wenn Sie eine bestimmte Szene mit einer Person sehen wollen, müssen sie erst einmal die Szenen finden, in denen die Person mitspielt." Berg glaubt, dass Everinghams Arbeit komplexere Suchanfragen zu Fernsehsendungen ermöglichen könnte.

Josef Sivic von der Visual Geometry Group an der University of Oxford, an der Everingham zuvor forschte, arbeitete an dem "Buffy"-Projekt mit. Er hält sogar besonders komplizierte Anfragen für möglich: "Sie können dann etwa nach Szenen suchen, in denen Buffy und Spike Hand in Hand in Richtung der Kamera laufen - und zwar nur dann, wenn die Szene draußen spielt."

Timothy Tuttle, Vizepräsident von AOL Video, glaubt, dass in den nächsten fünf bis zehn Jahren immer mehr Menschen ihr Programm nach eigenen Zeitvorstellungen konsumieren werden - "on demand" eben. Technologien wie die von Everingham würden dann womöglich nicht mehr nur aus rein technischen Gründen ausgebremst, sondern aus rechtlichen.

Diese rechtlichen Barrieren könnten fallen, sobald den Inhalteanbietern klar wird, dass sie von einer vollständigen Durchsuchbarkeit ihrer Inhalte finanziell profitieren können. Im Buchbereich ist es langsam so weit: Hier haben etwa die Print-Suchen von Google und Amazon gezeigt, dass sie die Abverkäufe in den letzten zwei Jahren steigerten.

Es ist aber noch völlig unklar, ob solche Suchverfahren auch die DVD-Verkäufe ankurbeln würden. Google bietet bereits "Teaser" von Permium-Video-Inhalten an, meint Michele Covell von dem Anbieter. In manchen Genres, etwa bei Sport-Videos, sei es inzwischen leichter, entsprechende Werbeclips anzubieten, die dann zum kostenpflichtigen Download anregten.

Shumeet Baluja, ein Forscherkollege von Covell, hält die Beschreibung von Webvideo-Inhalten ebenfalls für eine Herausforderung, glaubt aber, dass solchen Clips in den nächsten Jahren immer mehr Metadaten hinzugefügt werden dürften, die die Geschwindigkeit und Genauigkeit der Suche verbessern helfen würden.

Ăśbersetzung: Ben Schwan. (nbo)