Kriminelle Schwingungen

Ein Physiker ist mit einem neuen Verfahren in die Domäne der kriminalistischen Stimm-Identifizierung eingedrungen. Er trifft auf Unglauben – und ist womöglich doch auf der richtigen Spur

In Pocket speichern vorlesen Druckansicht
Lesezeit: 6 Min.
Von
  • Veronika Szentpetery
Inhaltsverzeichnis

Stalker, die ihre Opfer telefonisch belästigen, haben gegen die TV-Kriminalisten beim CSI keine Chance: Die Forensik-Experten befreien die Stimmaufnahmen mit ein paar Mausklicks von Hintergrundgeräuschen, vergleichen sie mit einer Sprechprobe von Verdächtigen und haben den Täter dann rasch identifiziert.

Doch was im Fernsehen problemlos funktioniert, bereitet echten Experten Kopfzerbrechen: Der Identifikation von Menschen anhand von Stimmproben sind im richtigen Leben Grenzen gesetzt.

Diese Grenzen hat Sameh Rahman, Physikprofessor an der Universität Hannover, nach eigenen Angaben ein ganzes Stück weit verrückt: Basierend auf Erkenntnissen der Strukturforschung hat er ein physikalisches Modell für die Analyse der menschlichen Stimme entwickelt, mit dem sich Störgeräusche wie Motorenlärm in Stimmaufnahmen elegant herausfiltern lassen.

Obendrein soll Rahmans Software in der Lage sein zu erkennen, ob zwei Proben vom selben Sprecher stammen – nützlich nicht nur für Kriminalisten, sondern auch für Telefon-Hotlines von Banken, die wissen müssen, ob sie tatsächlich einen Kunden am Hörer haben. Altgediente Phonetiker allerdings wollen dem Fachfremden nicht glauben, dass er ein Problem gelöst hat, mit dem sie seit Jahren kämpfen.

Der aus Ägypten stammende Rahman ist eigentlich Experte für die Untersuchung von Strukturen bei kristallinen Feststoffen. Doch als ihn vor Jahren ein Bekannter um die Übersetzung einer verrauschten arabischen Tonaufnahme bat, packte ihn der Ehrgeiz: Ihm fiel auf, dass Stimmen und Kristalle Gemeinsamkeiten haben. Die dreidimensionalen Strukturen von kristallinen Stoffen wie Kochsalz haben oft Unregelmäßigkeiten, wenn etwa die Abfolge der Atome von Fremdatomen unterbrochen wird.

Ebenso wechseln bei menschlichen Stimmen periodische und unperiodische Frequenzanteile, was man laut Rahman als eindimensionale Struktur ansehen kann. Zu den periodischen Anteilen gehören die Frequenzen der einzelnen Laute. Jede Kombination mehrerer Laute aber verursacht eine Art Rauschen – die unperiodischen Frequenzanteile.

Beide Anteile ergeben bei jedem Menschen eine charakteristische Mischung, die Rahman mit Hilfe eines mathematischen Verfahrens erfasst. Auf ähnliche Weise isoliert er das Frequenzmischprofil von Störgeräuschen und filtert sie aus Aufnahmen heraus.

Beim zweiten Einsatzgebiet seines Modells, der Stimmidentifizierung, digitalisiert Rahman Referenz- und Tatprobe. Dann schlüsselt er mit einem mathematischen Verfahren auf, welche Frequenzen in den Proben vorkommen. Dieses Frequenzspektrum wird in 24 so genannte kritische Frequenzbänder zerlegt – in Bereiche also, in denen die häufigsten und damit am deutlichsten zu hörenden Frequenzen stecken; eine ähnliche Unterteilung nutzt auch unser Ohr beim Hören. Dann werden die Frequenzbänder beider Proben miteinander verglichen.

Da aber ein reiner Frequenzspektrumsvergleich keine eindeutigen Ergebnisse liefern würde, hat Rahman einen zusätzlichen mathematischen Kniff entwickelt, um der Stimme weitere Merkmale zu entlocken. Die Software liefert anschließend einen Übereinstimmungsfaktor: Ab 80 Prozent geht Rahman von einer Stimmidentität aus, zwischen 50 und 80 Prozent sind weitere Tests nötig, unterhalb von 50 Prozent schließt er eine Übereinstimmung aus.

Mit seinem Verfahren ist Rahman als Gutachter bereits gefragt. So lieferte er entscheidendes Beweismaterial gegen zwei Kokain-Dealer: Seine Software zeigte nach Ansicht des Gerichts, dass es tatsächlich diese beiden waren, deren Stimmen auf abgehörten Telefonaten über Drogen-Deals zu hören waren. „Wir erreichen beim Vergleich der Stimmen nahezu die Genauigkeit des menschlichen Gehörs“, sagt Rahman selbstbewusst.

Und anders als eine Auswertung durch einen Phonetiker unterliege seine Methode keinem subjektiven Einfluss. Sie sei unabhängig von Sprache, Grammatik sowie Sprechrhythmus und brauche auch keine Proben mit dem gleichen Text; die Qualität von mitgeschnittenen Telefonaten reiche für aussagekräftige Ergebnisse.