Maschine versteht Sprache, Gesten und Augenbewegungen

Das Deutsche Forschungszentrum für Künstliche Intelligenz hat mit Partnern einen Computer entwickelt, der auf Stimmen, Fingerbewegungen und Gesten hört.

In Pocket speichern vorlesen Druckansicht 14 Kommentare lesen
Lesezeit: 4 Min.
Von
  • Gerd Martin

Wer hätte sich nicht schon einmal gewünscht, dass einem der Computer die Wünsche von den Augen abliest? Das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) hat nun einen ersten Prototypen des Projektes SmartKom fertiggestellt. Kernstück ist ein Apparat, der auf Stimmen, Fingerbewegungen und Gesten statt strenger formaler Befehle achtet.

Hinter SmartKom steht eine, wie das DFKI schreibt, völlig neue Technik, die fehlertolerante Interaktionen zwischen Mensch und Computer erlaubt. Auch könne sich SmartKom an verschiedene Benutzer anpassen. Neben der Sprache verstehe SmartKom auch andere menschliche Ausdrucksformen, darunter Zeigen, Kopfnicken und Kopfschütteln. Noch wähnt man sich aber nicht am Ziel der Entwicklung; das DFKI will SmartKom erst noch eine "kinderleichte Handhabung" verpassen.

In dem Leitprojekt des Bundesforschungsministeriums arbeiten Wissenschaftler und Experten aus der Wirtschaft fachübergreifend zusammen. Die Mitarbeiter aus den verschiedenen wissenschaftlichen und technischen Disziplinen steuern Know-how aus den Bereichen Mustererkennung (Sprach-, Bild-, Gestik, und Mimikerkennung) und "Muster–Verstehen" bei, ferner greift man auf Wissensverarbeitung (Intentionserkennung, Präsentationsplanung, Graphik- und Sprachgenerierung), Kognitionswissenschaft (Benutzermodellierung, Evaluation) sowie Software-Engineering (Systemdesign und –integration) zurück. Die Koordination liegt beim DFKI in Saarbrücken

Eines der Hauptprobleme, das man bei der SmartKom-Entwicklung überwinden müsse, sei die nahtlose Integration und die koordinierte semantische Verarbeitung der vielfältigen und sich ergänzenden Ausdrucksformen, so der wissenschaftliche Leiter von SmartKom, Professor Wolfgang Wahlster. So müsse SmartKom Sprache, Gestik, Mimik, Stifteingabe und graphische Steuerung parallel erfassen und "verstehen". Zudem sei SmartKom auch für Biometrie-Eingaben ausgelegt, sodass zum Beispiel ein Fingerabdruck auf einem Mobilcomputer ein bestimmtes Benutzerprofil aktiviert. Daneben gelte es, so der DFKI-Direktor, eine "robuste" Verarbeitung von möglicherweise ungenauen, mehrdeutigen und teilweise unkorrekten Eingaben sicherzustellen. "Kontextsensitive Interpretation" laute die Devise des angestrebten Dialogs zwischen Mensch und SmartKom-Maschine.

Der Prototyp demonstriert schon recht anschaulich das Prinzip der "multimodalen Mensch-Maschine-Kommunikation": Zum Beispiel könnte in einem Kinoauskunfts-Szenario die Analyse natürlicher Zeigegesten dazu benutzt werden, ein Informations- und Reservierungssystem über verkürzte sprachliche Eingaben und Gesten zu steuern. Deutet der Benutzer während einer Äußerung wie "Den Film möchte ich gern sehen. Wo kommt der?" auf einen Filmtitel, der in einer Graphik auf dem Monitor erscheint, interpretiert SmartKom beide Eingaben, sucht im Internet nach Kino-Palästen in der Nähe und weist dem mundfaulen Poppkorn-Vertilger die Wege. Um zu reservieren, braucht der Unterhaltungssuchende entsprechend nur auf eines der Kinos zu zeigen und den Wunsch akustisch kund zu tun.

Wie Wahlster weiter erläuterte, sollen mit SmartKom nun Kernfunktionen für intelligente Kommunikationsassistenten entwickelt werden. In drei Jahren würden die klugen Kisten in der Lage sein, die Sprache ihrer Benutzer, ihre Gestik und Mimik im Zusammenspiel zu analysieren. Die Schöpfer erwarten von ihren Kommunikationsassistenten "Anpassungsfähigkeit an individuelle Benutzer und die Fähigkeit, auch mehrdeutige und unvollständige Eingaben sinnvoll im Gesprächszusammenhang zu interpretieren".

Ersten Testergebnissen zufolge finden die Probanden den Umgang mit SmartKom "einfach". Auch mache SmartKom Spaß, weil es etwas Neues sei und zudem "interessant, lustig und unkompliziert". Anscheinend erntet SmartKom aber auch deshalb Zustimmung und Sympathie, weil er "normale Dialoge" ermöglicht. "Wow, er spricht ja mit mir!", sollen Probanden spontan nach dem ersten Kontakt gesagt haben. Den Einsatz intelligenter künstlicher Assistenten stützen aber auch rein praktische Erwägungen. Amerikanische Forscher haben nämlich herausgefunden, dass die Kommunikation gegenüber der weit verbreiteten Menütechnik von Point-of-Sales-Boxen um das Fünffache beschleunigt wird, wenn man Alltagssprache, natürliche Zeigehandlungen und graphisch präsentierte Information kombiniert.

Das SmartKom-Konsortium räumt der Mensch-Maschine-Interaktion gute Marktchancen ein. Zu den Mitgliedern des Projekts gehören neben Universitätsinstituten aus München, Stuttgart und Erlangen-Nürnberg auch Forschungszentren wie das DFKI und das EML, aber auch die Industrieunternehmen Siemens, Philips, DaimlerChrysler und Sony. Insbesondere im Bereich der neuen UMTS-Dienste sehen die SmartKom-Protagonisten gute Marktchancen. Gerd Martin (dz)