Der Sinn der Musik

Seite 4: Der Sinn der Musik

Inhaltsverzeichnis

Die Fraunhofer-Software Soundslike ersetzt die Menschen und analysiert ähnlich wie AudioID das Frequenzspektrum der Musik. Für die Ähnlichkeitsanalyse zählt jedoch nicht der zeitliche Ablauf, sondern Klangfarbe, Instrumentierung, Tempo und Dynamik eines Stücks. Als Grossmann die Software mit einem Bryan-Adams-Song vorführt, empfiehlt Soundslike acht weitere Bryan-Adams-Stücke - der klingt immer gleich, so wie "Edge of Heaven" von Ace of Base und "The Old Apartment" von den Barenaked Ladies (einer Männerband). Das kann man gelten lassen.

Ohne eine Datenbank ist ein digitaler Fingerabdruck so wertlos wie der Fingerabdruck eines Mörders ohne Verbrecherkartei. "Dann nutzt der beste Suchalgorithmus nichts", sagt Erik de Ruijter, der in der Philips-Forschung die Audio-Erkennung leitet. Die Kartei mit den digitalen Fingerprints ist das Kapital der Unternehmen. Philips-Partner Gracenote verfügt nach eigenen Angaben über mehr als vier Millionen digitale Stempel, Shazam nähert sich der Zwei-Millionen-Schwelle.

Die logistische Herausforderung für die Musikdetektive besteht darin, Fingerabdrücke der neuesten Titel zu erstellen, bevor sie auf den Markt kommen. Die technologische Herausforderung liegt darin, die Datenbank möglichst effizient zu durchsuchen. Dabei kommen Techniken aus der Kryptografie zum Einsatz, die langen Nachrichten mit Hilfe so genannter Hash-Funktionen kurze Bitsequenzen fester Länge zuordnen.

Die wahre Bedeutung solcher Fingerprint-Datenbanken wird sich wohl erst mit zunehmender Verbreitung des MPEG-7-Standards erschließen, eben als Element im "semantischen Netz".

Damit MPEG-7 sich als ultimativer Multimediastandard etabliert, muss allerdings auch die Videoerkennung funktionieren, und ob das klappt, ist derzeit noch ungewiss. "Farben und Kanten in einem Video lassen sich schon gut automatisch erkennen", sagt Siegmund Pastoor, der am Berliner Heinrich-Hertz-Institut die Abteilung Interaktive Medien leitet, "aber was wirklich passiert, weiß der Rechner nicht." Dominiert etwa die Farbe Rot, könne es sich um einen Sonnenuntergang, eine Tapete oder um die Nahaufnahme einer Rose handeln.

Das Heinrich-Hertz-Institut und Forscher von der TU Berlin sind Mitglied des neuen europäischen Forschungsnetzwerks Visnet (Networked audiovisual media technologies), das unter anderem die Videoanalyse zum Ziel hat. Thomas Sikora von der TU Berlin, der an Visnet beteiligt ist und zeitweise die Video-Untergruppe der MPEG geleitet hat, rechnet mit marktreifen Anwendungen für die Videoerkennung in fünf Jahren. Wie bei der Audioerkennung wird die Verbreitung von Videos über das Breitband-Internet die Technologie vorantreiben. Ob die künftige Software den MPEG-7-Standard einhalten wird, vermag er allerdings nicht zu sagen. "Man ist erst dabei herauszufinden, wie machtvoll MPEG-7 ist", formuliert Sikora diplomatisch.

Andere Experten werden deutlicher. "Die Fachleute sind sich einig, dass der visuelle Teil des Standards jetzt schon tot ist", sagt Horst Eidenberger von der Technischen Universität Wien. Der Informatiker forscht an videogesteuerten Robotern und verfolgt die Arbeiten an MPEG-7 seit den Anfängen vor sieben Jahren. Forschungsarbeiten zur Erkennung von Torszenen in einem Fußballspiel überzeugen ihn nicht. Ein bestimmter Kamerawinkel, die Trikotfarben sowie lauter Jubel im Stadion waren Kriterien für die Analyse. "Das Ergebnis war schlecht", sagt Eidenberger, "nur 10 bis 20 Prozent der Tore wurden richtig erkannt".

Eidenberger vermutet dahinter ein generelles Problem. Vor Filmszenen kapituliere die geballte Rechenpower. "Computer, wie wir sie kennen, werden niemals in der Lage sein zu verstehen, was in einem Video passiert." Das Web lernt Zuhören, aber es bleibt blind. Nur in der "Videosummarization" gebe es noch Hoffnung. Potenzielle Anwendung: zwölf Stunden Hochzeitsvideo automatisch auf erträgliche 90 Minuten zu komprimieren - die Semantik einer Hochzeit ist eben begrenzt. (sma)