Der Sinn der Musik

Seite 2: Der Sinn der Musik

Inhaltsverzeichnis

Eine solche Sprache, eine Art Werkzeugkasten für die Beschreibung von Multimedia-Inhalten, liefert der Standard MPEG-7, der auf dem XML-Format (Extensible Markup Language) basiert. MPEG-7 legt unter anderem fest, welche Merkmale eines Songs oder eines Films für die Erkennung verwendet werden dürfen, zum Beispiel Frequenzen oder Stille in einem Musikstück, Farben, Umrisse und Bewegung in Videos.

Die möglichen Anwendungen könnten das Web revolutionieren: Sie reichen vom automatischen Management digitaler Archive über E-Commerce bis zu neuartigen Suchmaschinen. Einige Szenarien: Nutzer könnten auf Basis einer Skizze im Netz gezielt nach Immobilien oder auch Menschen suchen. Oder das Web nach Videos mit einer bestimmten Actionsequenz durchforsten. Theoretisch möglich wären auf Basis von MPEG-7 auch völlig neue Formen der Überwachung: Die Computer der Geheimdienste und Polizeibehörden könnten im Netz automatisch nach verdächtigen Bildern fahnden, etwa nach Videosequenzen mit Kinderpornografie.

Viele solcher Anwendungen sind noch Zukunftsmusik. Doch Musikerkennung auf Basis von MPEG-7 steht bereits vor der Marktreife - wie eben die Fraunhofer-Entwicklung AudioID. "Ein Puzzlestein im semantischen Computing", nennt es Brandenburg bescheiden.

Das Prinzip der Audioerkennung ist simpel. Die meisten Programme analysieren das Frequenzspektrum der Musik. Das wichtigste Werkzeug ist die Mathematik. Bei dem Fraunhofer-Verfahren ordnet der Rechner jeden Ton zwischen Brummen und Quietschen, Cello und Piccoloflöte einem von 16 Frequenzbändern zu. In Zeitabschnitten von einigen Millisekunden erstellt die Software für jedes Band eine Statistik der aufgezeichneten Frequenzen und berechnet daraus die "spektrale Flachheit", ein Maß für die tonale Langeweile mit einem Wert zwischen 0 und 1. Der lange Orgelton in "Also sprach Zarathustra" von Richard Strauss liegt nahe bei null, das aufgeregte Gepolter von Metallica nahe bei eins.

Die spektrale Flachheit ist für ein Musikstück so charakteristisch wie die verzweigten Linien eines menschlichen Fingerabdrucks. Beim Menschen reichen zwölf solcher Merkmale, um ihn eindeutig zu identifizieren. Bei einem Song, der auf CD fünfzig und als MP3-Datei fünf Megabyte einnimmt, reicht ein Ausschnitt von wenigen Sekunden. Der digitale Fingerabdruck ist nur ein paar Kilobyte groß.

Die Vorarbeiten für AudioID wurden am Fraunhofer-Institut für Integrierte Schaltungen in Erlangen durchgeführt, wo Brandenburg vor der Gründung seines neuen Instituts beschäftigt war. Bei der vergangenen CeBIT machte seine Forschungsgruppe Schlagzeilen mit "Query by Humming", einer Software, die Musikstücke erkennt, wenn man die Melodie ins Mikro summt oder singt. Ein nettes Spielzeug, aber richtig reich werden kann man damit wohl nicht.

Am Ilmenauer Fraunhofer-Institut arbeitet eine neunköpfige Gruppe an AudioID. Die meisten Mitarbeiter sind Musikfreaks. Gruppenleiter Markus Cremer schrammelte früher in einer Heavy-Metal-Band auf der Gitarre, der Software-Ingenieur Holger Grossmann hat Orgeln programmiert und organisiert heute Gigs in einem Ilmenauer Jazzclub. Wenn die beiden gemeinsam zu Konferenzen fahren, haben sie ein Problem. Im Auto verhandeln sie lange, wer den Sender auswählen darf. Manchmal bleibt das Radio stumm. Für AudioID wüssten sie deshalb sofort eine weitere Anwendung: ein intelligentes Autoradio, das aus mehreren Sendern ein individuelles Hörprogramm mixt. 40 Prozent Jazz für Grossmann und 60 Prozent Heavy Metal für Cremer - er ist der Boss.

Zur Demonstration stöpselt Jazz-Fan Grossmann ein Plastikmikrofon an seinen Laptop und stellt ein paar Lautsprecher davor. Sein MP3-Player spielt "I turn to you" von Christina Aguilera. Nach ein paar Sekunden erscheint auf dem Bildschirm ein Fenster mit Musiktiteln. Ganz oben steht "I turn to you". Der Rechner ist sich sicher: "100 Prozent" verzeichnet die Spalte für die Tipp-Zuverlässigkeit. Auch Dialogfetzen aus der Unterhaltung stören die Erkennung nicht. Erst als Grossmann mit der Hand gegen das Mikro klopft, ändert der Computer seine Favoritenliste. Auf Platz eins steht nun der Rapper LL Cool J, allerdings mit null Prozent Sicherheit.