Wie Shazam Songs erkennt

Seite 2: Diskrete Fourier-Transformation

Inhaltsverzeichnis

Aus seinen Beobachtungen zur Wärmeausbreitung in Festkörpern schloss Jean Baptiste Joseph Fourier, dass sich ein periodisches analoges Signal durch die Addition unendlich vieler Sinus- oder Cosinussignale unterschiedlicher Stärke beschreiben lässt. Die nach ihm benannte Fourier-Transformation (FT) bezeichnet die Rechenvorschriften zur Zerlegung (Analyse) und Zusammensetzung (Synthese) von Analogsignalen. Wissenschaftliche Popularität erlangte die Fourier-Transformation mit der Entwicklung schneller Varianten der aufwendigen Formeln, nämlich der Fast Fourier Transformation (FFT).

Hauptanwendungsfall ist die Zerlegung analoger Signale wie Schallwellen in ihre Frequenzspektren. Zur Analyse des Datenstroms einzelner Werte in einem digitalisierten Analogsignal gibt es die Diskrete Fourier-Transformation (DFT):

Die Formel berechnet die Signalstärke des n-ten Frequenzbands X eines Signals x mit N diskreten Werten. Im Englischen heißen diese Bereiche "Bins". Die Größe oder spektrale Auflösung der Bins ist das Verhältnis von Digitalisierungsrate zur Größe des sogenannten Fensters N. Sie beträgt beispielsweise 86,13 Hz bei der für CDs verwendeten Abtastrate von 44,1 kHz und einer Fenstergröße N von 512. Frequenzunterschiede von weniger als 86,13 Hz sind mit diesen Werten nicht zu unterscheiden.

Es liegt also nahe, die spektrale Auflösung der DFT mit hinreichend großen Werten für N zu verbessern. Jedoch vergrößert sich dadurch der zeitliche Signalabschnitt (Intervall), den die DFT berücksichtigt, was eine Reduzierung der zeitlichen Auflösung bedeutet, mit der die DFT Änderungen der Signalstärken im Frequenzspektrum erkennen kann.

N bestimmt auch die Anzahl der Berechnungen einer DFT, denn zur Bestimmung der Signalstärken aller relevanten Bins eines digitalisierten Analogsignals sind N Ausführungen der gegebenen Formel erforderlich – und zwar für jedes Intervall.

Es gilt also, mit einer guten Wahl für N einen Kompromiss für eine möglichst geringe Anzahl von Berechnungen bei größtmöglicher Auflösung zu finden. (pmk)