Build 2017: Automatisierte Video-Überwachung für Jedermann

Microsofts Video Indexer durchsucht Videos automatisch nach Personen, Sprache und Inhalten. Der Service lässt sich kinderleicht von jedem nutzen. Microsoft sieht ihn als Beitrag zur Demokratisierung der Überwachungswerkzeuge.

79

(Bild: heise)

11.05.2017, 07:15 Uhr

Lesezeit: 7 Min.

Von

Hartmut Gieselmann

Auf der Entwicklerkonferenz Build 2017 stellt Microsoft viele neue Dienste vor, die die immensen Daten auf den Cloud-Servern mit Hilfe von künstlicher Intelligenz auswerten. Eine der brisantesten Anwendungen ist dabei die automatisierte Auswertung von Videos, wie sie beispielsweise von Überwachungskameras aufgenommen werden. Mit Microsofts neuem Online-Dienst "Video Indexer" kann nun jeder seine Videos auf die Azure-Server von Microsoft laden und von dessen Algorithmen untersuchen lassen.

Wer sagt was über wen?

Der Video Indexer erkennt automatisch, welche Personen in einer Szene zu sehen sind, dank OCR und Spracherkennung transscribiert er die gesprochenen oder geschriebenen Worte und kann diese einzelnen Sprechern zuordnen. Fremde Sprachen lassen sich automatisch übersetzen und über eine "Sentiment Analysis" kann die Software sogar feststellen, ob eine Person gegenüber einem Thema positiv oder negativ eingestellt ist. Dank Keyframe-Erkennung lassen sich längere Videos automatisch in einzelne Szenen unterteilen.

Der Video Indexer legt besondere Keywords in einer Datenbank ab. Einmal analysiert, lassen sich anschließend Videos nach bestimmten Personen, gesprochenen Wörtern und besonderen Keywords durchsuchen. Ein eingebauter Editor schneidet die Videos dann auf die Passagen zusammen, in den die gesuchten Personen und Themen auftauchen.

Die automatisierte Analyse soll auch Einstellungen aufgenommener Personen erkennen.

(Bild: Microsoft)

Überwachung, Werbung und Unkenntlichmachung

Microsoft zeigte in Seattle mehrere Anwendungsfälle für den Indexer. So ließen sich die Videos nach "explicit content" durchsuchen und die entsprechenden Stellen maskieren. Das wäre nicht nur für Fernsehstationen interessant, die Live-Übertragungen zeitversetzt senden, um "unpassende" Inhalte auszufiltern, sondern auch für Sicherheitsfirmen. Wenn sie aufgrund von Gesetzen gezwungen würden, Aufzeichnungen herauszugeben, könnten sie vorab Gesichter einiger aufgenommenen Personen unkenntlich machen. Drittens lassen sich die aus den Videos gewonnenen Metadaten zur gezielten Schaltung von Werbung und für Vorschlagsysteme mit anderen Videos nutzen, die die selben Personen zeigen oder ähnliche Themen behandeln.

Als Beispiele für Firmen, die die Video-Analyse-Technik bereits nutzen, nannte Microsoft zum einen Genetec, einen US-Spezialisten für Video-Überwachungssysteme, sowie Ooyala, die sich auf die Kommerzialisierung von Video-Angeboten im Web spezialisiert haben.

Lernende und wachsende Datenbank

Da der Video Indexer über eine offene API verfügt, können andere Anbieter maßgeschneiderte Angebote entwickeln, die auf spezielle Nutzergruppen zugeschnitten sind. Dabei skaliert die Rechenleistung mit den Anforderungen. Laut Microsoft ließen sich auf Wunsch sogar Exabytes an Videodaten verarbeiten. Bedingung ist jedoch, dass die Videos auf Microsofts Azure-Server zur Auswertung geladen werden. Eine Offline-Analyse ist nicht vorgesehen. Microsoft betonte jedoch, dass man durch eine globale Verteilung der eigenen Server-Zentren sicherstellen könne, dass die Daten einen vorgeschriebenen regionalen Raum oder bestimmte Landesgrenzen nicht verlassen.

Bislang lassen sich nur aufgezeichnete Filme analysieren, man arbeite aber an einer Echtzeitanalyse der Streams von Überwachungskameras. Für die kommerzielle Nutzung halte man eine Datenbank mit den Gesichtern von rund 170.000 "berühmten" Personen vor, die ohne ein weiteres Anlernen vom Video Indexer erkannt würden. Unbekannte Personen muss der Anwender bei ihrem ersten Auftauchen selbst identifizieren, fortan werden sie vom Algorithmus erkannt.

Für den Video Indexer kommen verschiedne Analyse-Technologien zum Einsatz. Künftig ist auch die Erkennung von Objekten und Emotionen geplant. — Für den Video Indexer kommen verschiedene Analyse-Technologien zum Einsatz. Künftig ist auch die Erkennung von Objekten und Emotionen geplant.

(Bild: Microsoft)

Demokratisierte Überwachung

Dank der Weiterentwicklung der KI-Algorithmen will Microsoft die Analyse-Möglichkeiten des Video Indexers kontinuierlich ausbauen. So sei es derzeit noch nicht möglich, die Körperhaltung einer Person einwandfrei zu erkennen, etwa ob sie sitzt oder steht und was sie gerade macht. Glaubt man jedoch den auf der Keynote vorgestellten Plänen, so soll dies künftig ebenso möglich werden, wie eine automatische Erkennung von Objekten und Gegenständen. Microsoft bewarb diese Möglichkeiten etwa mit der lückenlosen Überwachung von Arbeitern an ihrem Arbeitsplatz.

Microsoft lädt auf der Webseite des Video Indexers ein, den Dienst kostenlos mit eigenen Videos auszuprobieren. Damit gibt der Software-Konzern jedem Privatmann und jeder Firmenleitung äußerst leistungsfähige Instrumente in die Hand, die bislang nur Geheimdiensten zur Verfügung standen und eine massenhafte Auswertung von Videoaufnahmen ermöglichen.

Peter Jäger, Senior Director Developer Experience and Evangelism von Microsoft Deutschland, spricht in diesem Zusammenhang von einer "Demokratisierung" der Überwachungswerkzeuge. "Sie sollen nicht nur einer kleinen Elite zugänglich sein, sondern allen Menschen", erklärte Jäger im Interview mit heise online. Wie diese Werkzeuge letztlich eingesetzt werden, müsse jedoch kritisch diskutiert werden: "Wenn ein Sportstudiobetreiber von uns beispielsweise die Auswertung von Kameraaufnahmen aus der Umkleide verlangt, dann lehnen wir das natürlich ab. Das tun wir nicht", erklärte er.

Microsoft habe sich dazu einem Verhaltenskodex verschrieben, der den unmoralischen Einsatz der Technik verbiete. Dazu unterstütze Microsoft die Partnership on AI und baue beispielsweise Sicherheits-Schalter ein, die den K.I.-Code jederzeit zurücksetzen oder deaktivieren könnten. Schließlich solle die K.I. dem Menschen bei der Arbeit nur helfen, und ihn nicht irgendwann ersetzen. Insgesamt habe man sich sieben Grundsätzen im Umgang mit K.I. verschrieben, die beispielsweise eine Transparenz der Algorithmen fordern, die so entworfen werden müssen, dass sie nicht missbraucht werden können und stets neutral bleiben, sodass sie niemanden diskriminieren. Microsoft orientiere sich dabei nicht allein daran, welche Praktiken in welchem Land legal oder illegal sind. "Wir tun nicht alles, nur weil es irgendwo vom Gesetz her erlaubt wäre. Die Würde des Menschen muss jederzeit gewährt sein", betonte Jäger.

Wer überwacht die K.I.?

In Bezug auf die Überwachung am Arbeitsplatz erklärte Jäger, diese sei für sicherheitsrelevante Bereiche gedacht und setze stets die Inkenntnissetzung und das Einverständnis der Mitarbeiter voraus. Allerdings könne Microsoft nicht überprüfen, ob sich die Firmen auch tatsächlich daran halten. Microsofts Algorithmen seien derzeit in der Lage, nur eine begrenzte Anzahl von Personen auf Videos zu erkennen. "Wir können derzeit zwar die Spieler auf einem Fußballfeld tracken, aber nicht die zigtausend Zuschauer im Stadion."

Doch auch wenn sich Microsoft in Abstimmung mit den sieben K.I.-Geboten einer "guten Sache" meint verschrieben zu haben, wird der Video Indexer sicherlich kontroverse Debatten entfachen: Ist eine Analysetechnik, die zur Überwachung und Zensur missbraucht werden kann, tatsächlich im Wortsinn amoralisch? Sollte ein Konzern jede Technik entwickeln und kommerzialisieren, die technisch machbar ist? Sollte diese Technik dann tatsächlich für jeden frei zugänglich sein? Und wer entscheidet, wann und wo die Technik eingesetzt wird und wann ihr Einsatz unmoralisch ist und Menschen schadet? Für die Antworten ist sicherlich ein ähnlicher gesellschaftlicher Diskurs nötig, wie er seit Jahren um die Gentechnik geführt wird.

Disclaimer: Microsoft hat die Reise- und Unterbringungskosten des Autoren zur Build-Konferenz bezahlt.

(hag)