Neugierige Computer

Anonymität ist Vergangenheit: Der Leistungsfähigkeit moderner Computer und der Findigkeit unserer Wissenschaftler ist es zu verdanken, dass die Staaten der ersten Welt heute veritable Überwachungsgesellschaften sein können. Stimmt das?

8

22.01.2009, 02:00 Uhr

Lesezeit: 12 Min.

iX Magazin

Von

Horst Eidenberger

Im Folgenden sollen die heute gebräuchlichen Methoden zur Massenüberwachung dargestellt werden. Der Artikel konzentriert sich auf die derzeit leistungsfähigsten Ansätze und versucht, ihre Funktionsweise aus ähnlichen natürlichen Systemen, insbesondere der menschlichen Wahrnehmung herzuleiten.

Definitionsgemäß handelt es sich bei Massenüberwachung um die flächendeckende Beobachtung ganzer Bevölkerungen. Die Beobachtung muss weder mit der Zustimmung der Beobachteten erfolgen noch zu deren Vorteil sein. Wesentlich ist die breitbandige Datenerfassung, die – bei den heutigen Personalkosten – den Einsatz maschineller Überwachungsmethoden bedingt.

Klassische Anwendungen sind Closed Circuit Television (CCTV), das heißt Videoüberwachung, das Abhören von Telefonen (bei dem Deutschland fast zwanzig Jahre nach dem Ende der DDR wieder weltweit führend ist) und Network Sniffing, das Abhören des Datenverkehrs im Internet. Im Weiteren sollen die audiovisuellen Medien im Mittelpunkt stehen, weil dort die eingesetzten Erkennungsmethoden am reizvollsten sind.

Onlinequellen

Ziel der Massenüberwachung ist zumeist das Erkennen und Verfolgen relevanter Individuen und Situationen. Was relevant ist, definiert der Überwacher, zumeist eine öffentliche Körperschaft (Polizei, Kommunen et cetera). Die gewonnenen Überwachungsdaten müssen dazu gespeichert, indiziert und durchsucht werden. Zur Speicherung personenbezogener Daten gibt es seit einigen Jahren auch eine EU-Direktive, die festschreibt, welche Institution welche Daten (zum Beispiel Mobiltelefongespräche) wie lange (üblicherweise sechs bis 24 Monate) aufzubewahren hat. Entscheidender Schritt ist die Indizierung, die dem Überwacher die effektive Nutzung der Datenflut ermöglicht.

Die Indizierung audiovisueller Massendaten (Hunderter Kameras und Mikrofone) vollzieht sich stets in zwei Schritten: der Extraktion von Merkmalen und dem Verstehen der Bedeutung der Merkmale.

Besser oder schlechter geeignet

Bei einem Merkmal (engl. Feature) handelt es sich gewissermaßen um eine statische, stark verlustbehaftete Zusammenfassung des zeitabhängigen audiovisuellen Datenstroms. Die endlosen Datenflüsse von Mikrofonen und Kameragruppen haben eine für die Auswertung ungünstige Form – sie sind zu umfangreich, zu schnell und orientieren sich zu stark an unserer analogen Lebenswelt. Das heißt, es ist für Computerverfahren sehr schwer, aus dem Gewirr des Überwachungsvideos eines öffentlichen Platzes mit all seinen Störungen (Sonnenstand, Regen, Fettflecken auf den Objekten, Signalrauschen und so weiter) logische Schlüsse zu ziehen.

Gute Merkmale sind hingegen einfach. Typische Beispiele sind Farbverteilungen und Helligkeitskanten, wie sie in den ersten Stufen des menschlichen visuellen Systems wahrgenommen werden, und Rhythmus und Frequenzspektrum, wie sie die Gehörschnecke des Menschen herausfiltert. Diesen Merkmalen ist gemein, dass sie digital sind. Sie lassen sich in endlichen Zahlenkolonnen (Vektoren) darstellen, die sich hervorragend für die Weiterverarbeitung durch auf mathematischen Modellen basierende Logik-Algorithmen eignen.

Gesichter liefern zahlreiche biometrische Merkmale wie Größe, Form, Abstände et cetera (Abb. 1).

Abbildung 1 zeigt als Beispiel für visuelle Merkmale die Vielzahl von Werten, die man aus der Biometrie eines Gesichtes gewinnen kann. Besteht erst einmal der Verdacht, dass sich in einer Videoaufnahme ein Gesicht befindet, zum Beispiel aufgrund der typischen Gesichtsfarben, können schnell Augen (rund, schattig) und Nasenspitze (immer besser ausgeleuchtet als ihre Umgebung) sowie in der Folge der Mund gefunden werden. Die Verhältnisse von Lippenhöhe und -breite sowie von Augenabstand und Augen-Mund-Abstand liefern passable Merkmale für die Identifikation von Personen [a].

Natürliche Erkennung imitieren

Das Gehirn enthält für jeden Kantentyp eigene Neuronen-Gruppen (Abb. 2).

Die einzelnen Bezugspunkte des Gesichtes (aber auch jedes anderen Objekts in einem visuellen Medium) gewinnt man mittels Segmentierung und Kantenextraktion. Die Vielzahl der existierenden Ansätze folgen dabei einem Verfahren, das auch im menschlichen Gehirn neuronal implementiert ist. Abbildung 2 zeigt das Prinzip. Einzelne Neuronengruppen reagieren auf Hell-Dunkel-Kanten – zum Beispiel die Umrisse der Augen in Abbildung 1 –, indem ihre Netzhautdetektoren entsprechend auf die auftreffenden Photonen reagieren und verstärkende und abschwächende Synapsen gebildet werden. Die künstlichen Kantenerkennungs-Algorithmen basieren freilich zumeist auf algorithmisch effizienteren Matrix-Operatoren, die den Videodatenstrom räumlich falten.

Die Fourier-Transformation stellt Signale als Summe von Sinus-Schwingungen dar (Abb. 3)

Wer Audiodaten überwacht, erzeugt zunächst meist ein sogenanntes Spektrum. Abbildung 3 skizziert den – sehr mathematischen – Prozess, der die Funktionsweise der Gehörschnecke des Menschen nachahmt. Beim Hören wird der eindimensionale Eingabedatenstrom in eine Folge von Grundfrequenzen aufgeteilt. Zumeist finden dafür die Sinusschwingungen der Fourier-Transformation Anwendung.

Das zugrunde liegende Modell der Integraltransformationen nach Laplace basiert darauf, dass die Summe gewichteter Schwingungen mit unterschiedlicher Frequenz letztlich wieder dem Originalsignal entspricht. Aus den Gewichten (oft auch als Energieniveaus der Grundschwingungen bezeichnet) lassen sich charakteristische Aussagen über den Inhalt des Audio-Datenstroms ableiten.

Komplexere Merkmale basieren auf einfacheren, das Zusammenspiel führt zum Erkennen einer Situation (Abb. 4).

Diese Beispiele zeigen bereits das Hauptproblem der Merkmals-Extraktion. Die gewonnenen Merkmale sind allzu primitiv. Was sagen schon die Statistiken über Anzahl und Lage von Hell-Dunkel-Kanten und über enthaltene Grundfrequenzen aus? Um diesem Übel beizukommen, bedient man sich Methoden der Künstlichen Intelligenz zur semantischen Anreicherung.

Abbildung 4 skizziert den Prozess. Durch das Einbringen semantischen Wissens, zum Beispiel über die Organisation von Gesichtern, den Aufbau von Sprache, die Architektur von Häusern et cetera und logisches Schließen lassen sich aus den einfachen Merkmalen komplexere, aussagekräftigere gewinnen. Wiederholtes Anwenden dieses Prozesses erlaubt inhaltlich zunehmend relevante Schlussfolgerungen – leider bei (teilweise stark) abnehmender Zuverlässigkeit der Aussagen.

Das Geschaute verstehen

Wie auch immer man Merkmale gewonnen und angereichert hat, nach der Extraktion liegen sie als Datenvektoren vor. Das ist ein wichtiges Prinzip. Es bedeutet, dass jeder Teileigenschaft des Merkmalsbündels eines Objektes (zum Beispiel eines Bildes einer Überwachungskamera) eine Bedeutung zugeordnet wird (etwa „Augenabstand“) und dass sich dieselben Bedeutungen zweier Objekte an denselben Stellen ihrer Merkmalsbündel (Vektoren) befinden.

Die Merkmale liegen als Datenvektoren vor. Merkmalsräume können vieldimensional sein (Abb. 5).

Abbildung 5 veranschaulicht die zweidimensionalen Merkmalsvektoren zweier Populationen von Tieren, wie sie eine Überwachungskamera in einem Zoo aufnehmen könnte. Wäre es die Aufgabe des Überwachungssystems, ständig zu prüfen, dass sich Koalas und Pandas nicht buchstäblich ins Gehege kommen, so würden die durch Merkmalsextraktion gewonnenen Datenvektoren nach ihren typischen Eigenschaften in zwei Gruppen geschieden.

Dabei interpretiert man grundsätzlich jeden Merkmalsvektor als Punkt in einem metrischen Vektorraum (was mathematisch einigermaßen abenteuerlich sein kann), was die Messung von Abständen ermöglicht. Basierend auf dieser Einteilung könnte man nun verfolgen, wo sich die anhand ihrer Merkmalsvektoren identifizierten Tiere aufhalten.

Die sogenannte Klassifikation ist eine typische Anwendung der Massenüberwachung. Dabei wird ein Objekt (Merkmalsvektor) einer von mehreren Gruppe zugeordnet. Klassifikation kann man überall dort erfolgreich einsetzen, wo große Gruppen (Populationen) voneinander unterschieden werden sollen: beispielsweise bei Tieren im Zoo oder Fangruppen im Stadion – gleiche Technik bei gleichem Sozialverhalten. Zum Einsatz kommen meist Methoden des Maschinenlernens oder der Stochastik.

Nach Ähnlichem suchen

Sie versagen allerdings, wo es etwas zu erkennen gilt, das bis zu einem gewissen Grad neu ist. Typisches Beispiel dafür ist das Gesicht einer bestimmten Person, die gefunden werden soll. Dann sind die Suchmethoden des sogenannten Information Retrieval gefragt, die zu einem Merkmalsvektor die ähnlichsten einer Population finden und diese nach Relevanz reihen. Diese Ähnlichkeitssuche wird meist durch – zum Beispiel euklidische – Abstandsmessung umgesetzt, wobei größere Distanz als größere Unähnlichkeit interpretiert wird.

Die Support-Vector-Maschine zerlegt in Gut und Böse (Abb. 6).

Abbildung 6 zeigt eine der derzeit leistungsfähigsten Methoden des Maschinenlernens [b]: die Klassifikation mithilfe einer sogenannten Support-Vector-Maschine (SVM). Die SVM beruht auf einer Reihe von Prinzipien, die für das Maschinenlernen typisch sind. Zunächst folgt sie der oben beschriebenen Grundannahme, Merkmalsvektoren als Punkte in einem Vektorraum zu sehen. In diesem Vektorraum versucht sie, lediglich zwei Gruppen (sozusagen die „Guten“ von den „Bösen“) zu unterscheiden, indem sie eine Grenze zwischen ihnen zieht (englisch Margin).

Lernen durch Stichproben

Da der Merkmalsraum im Allgemeinen mehr als zwei Dimensionen hat, wird es sich dabei um eine Hyperebene handeln. Das nächste wichtige Prinzip ist, dass die SVM diese Grenze mithilfe menschlichen Zusatzwissens zu erlernen versucht. Dazu muss man ihr eine Stichprobe von markierten Punkten bereitstellen, die jeweils eindeutig einer der beiden Gruppen zugeordnet sind. Schließlich erfolgt das Lernen nicht im Merkmalsraum, sondern einem daraus erzeugten Raum, der noch weitaus mehr Dimensionen hat.

Das hat einen einfachen Grund: Je höherdimensional der untersuchte Vektorraum ist, umso größer werden die Abstände zwischen der konstant bleibenden Anzahl von Punkten der Stichprobe. Dadurch wird es leichter, die Grenze zu legen. Diesen Ansatz nennt man kernelbasiertes Lernen. Als Kernel bezeichnet man die Funktion zur Transformation der Datenpunkte in den höherdimensionalen Raum.

Mixtur-Modelle bauen um Merkmalswolken Zäune (Abb. 7).

Einer der derzeit leistungsfähigsten Vertreter der stochastischen Ansätze sind die sogenannten Mixtur-Modelle. Ihr häufigster Vertreter, das Gaußsche Mixtur-Modell (GMM), nutzt die Normalverteilung, um Punktwolken als Gruppen zu erkennen (Abb. 7). Im Gegensatz zum Maschinenlernen ist keine Stichprobe erforderlich, aber man muss dem Algorithmus einen Hinweis geben, um wie viele Gruppen es sich handeln wird. Dann versucht die GMM, die Gruppen als Punktwolken einzufangen, die in jeder Dimension normalverteilt sind.

Schätzen und vergleichen

Dazu wird ein zweistufiger Algorithmus iteriert. Im ersten Schritt werden die Parameter der einzelnen Verteilungen geschätzt. Im zweiten erfolgt ein Vergleich der Schätzung mit dem Merkmalsraum. Anhand der Unterschiede passt man die Parameter so lange an, bis die Gruppen ausreichend gut unterschieden werden können. Wesentlich an diesem Prozess ist, dass die Annahme der Normalverteilung in den Daten tatsächlich gegeben ist. Abbildung 7 zeigt zwei sehr schöne Punktwolken. Wären sie ineinander verschmiert, würde die Unterscheidung dem GMM wesentlich schwerer fallen oder komplett scheitern.

Neben diesen beiden gibt es eine Vielzahl anderer Modelle. Sie kommen aus den genannten Disziplinen ebenso wie aus dem Operations Research, der Künstlichen Intelligenz und anderen. Wichtige Ansätze sind zum Beispiel Markov-Modelle zur Spracherkennung (stochastisch, aber mit Stichprobenlernen) und die schnelle Bayes-Klassifikation.

Was ist möglich, was realistisch?

Trotz aller Ausgefeiltheit der eingesetzten Methoden bleibt die automatische Massenerkennung im Einzelnen immer noch weit hinter den Fähigkeiten des menschlichen Erkennungsapparats zurück. Neben der allgemein geringeren Qualität der gelieferten Aussagen ist insbesondere das Problem der False Positives relevant. So nennt man die fehlerhafte Zuordnung eines stattfindenden Ereignisses (zum Beispiel einer Einzahlung am Schalter) zu einem gesuchten (einem Banküberfall).

Andererseits ermüden Computer nicht und schwanken auch nicht in ihrem Urteil. Bei der massenhaften Auswertung umfassender Mediendatenströme (ein Netzwerk von fünf typischen CCTV-Kameras liefert etwa jede Sekunde ca. 142 MByte an Daten!) sind das gewichtige Argumente. Bei solchen Datenlawinen ist die Speicherung lediglich sinnvoll, wenn maschinell indiziert wird. Sonst wäre es nur möglich, Ereignisse aufzufinden, deren Raum-Zeit-Koordinaten man kennt. Daher wächst der Markt der Massenüberwachungssysteme derzeit stark.

Schon viele freie Produkte liefern gute Software für Personen-, Bewegungs- und Objekterkennung. Stark im Trend liegt die Erkennung der Nummernschilder von Autos, zum Beispiel durch Kantenerkennung und die Anwendung von SVM auf die Zeichen des Schildes. Was noch fehlt, sind Module für die Erkennung und Beurteilung von Situationen auf semantisch höherer Ebene (Verkehrsunfälle, Risikosituationen et cetera). Da dazu ein Erkennungsapparat von der Leistungsfähigkeit des menschlichen Gehirns benötigt würde, ist ein solcher Quantensprung in nächster Zeit nicht zu erwarten.

Fazit

Massenüberwachung ist heute allgegenwärtig. Da stellt sich die Frage, wo die Grenzen der Erkennbarkeit liegen und wie man sich effizient schützt. Die wesentlichen Defizite heutiger Systeme liegen sicherlich in der Merkmalsextraktion. Macht man wesentliche Merkmale unkenntlich, wird die Erkennung schnell unmöglich. Wer eine Sonnenbrille aufsetzt und sich einen falschen Bart anklebt, ist maschinell heute praktisch nicht zu erkennen. Sein Abbild versinkt zwar für vielleicht zwei Jahre in einem riesigen Medienarchiv, ist dort aber so unauffindbar wie die Bundeslade im ersten Indiana-Jones-Film. Mit einem vergleichbar getarnten Auto – also verdecktes Nummernschild – dürfte man am Autoverkehr gar nicht erst teilnehmen. Gerade die Erkennung von Nummernschildern ist jedoch heute schon sehr ausgereift. Hier können nur rechtliche Regelungen und Maßnahmen schützen.

Horst Eidenberger
ist außerordentlicher Universitätsprofessor an der TU Wien und zertifizierter Gutachter am Handelsgericht Wien.

iX-Links

iX-TRACT

Automatisierte Massenüberwachung ist heute ein allgegenwärtiges Element unserer Lebenswelt.
Die Erkennung erfolgt mittels Merkmalsextraktion, Anreicherung durch semantisches Wissen und komplexe Klassifikationsalgorithmen.
Automatisierte Verfahren liefern eine geringere Erkennungsqualität als Menschen, werden aber mit Massendaten fertig, ohne zu ermüden.

(ur)