Stargazer: KI-Kameraroboter macht das Filmen von Tutorials einfacher

Bei der Aufzeichnung von Tutorials muss niemand mehr die Kamera bedienen – das kann der an der Universität Toronto entwickelte Roboter "Stargazer" übernehmen.

In Pocket speichern vorlesen Druckansicht 1 Kommentar lesen

(Bild: Li Jiannan)

Lesezeit: 3 Min.

Informatiker der University of Toronto haben einen interaktiven Kameraroboter entwickelt, der das Drehen von Lehrvideos erleichtern soll. Der Stargazer genannte Roboter erstellt automatisiert dynamische Tutorials und hebt Einschränkungen der Arbeit mit einer statischen Kamera auf.

"Die Lehrkräfte sind zum Unterrichten da. Die Rolle des Roboters ist es, beim Filmen zu helfen, also die schwere Arbeit zu übernehmen", umschreibt Jiannan Li, Doktorand am Fachbereich Informatik an der Faculty of Arts & Science und leitender Forscher des Stargazer-Projektes die Problemstellung. Das Projekt beschreiben die Wissenschaftler in der Studie "Stargazer: An Interactive Camera Robot for Capturing How-To Videos Based on Subtle Instructor Cues", der in Proceedings of the 2023 CHI Conference on Human Factor in Computing Systems veröffentlicht ist.

Der Roboter führt eine einzelne Smartphone-Kamera an einem Roboterarm mit sieben Freiheitsgraden. Das ermöglicht es ihm, sich zusammen mit dem Videosubjekt zu bewegen und Objekte, die von Interesse sind, selbstständig zu verfolgen. Dabei erkennt das System subtile Hinweise der Lehrkraft wie etwa aus Körperbewegungen, Gestik und Sprache. Sie werden von der Kamera und weiteren Sensoren wie einer Tiefenkamera erfasst. Die Sprache wird von einem Funkmikrofon aufgenommen und an die Microsoft Azure Speech-to-Text Sprachsoftware weitergeleitet. Der transkribierte Text wird zusammen mit einer benutzerdefinierten Eingabeaufforderung von dem Sprachmodell GPT-3 interpretiert. Es übersetzt die Absicht des Lehrenden in einen passenden Kamerabildausschnitt.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Die Steuerbefehle für die Kamera erfolgen auf natürliche Weise, wie die Forscher schreiben. So reicht etwa das Zeigen auf einzelne Objekte aus, um die Kamera zu einem Schwenk zu veranlassen. Neben Gesten wird auch die Sprache analysiert und in Robotersteuerbefehle umgewandelt. Sagt der Lehrende beispielsweise, dass er einen Gegenstand von oben in einen anderen einfügt, dann setzt Stargazer dies sofort in einer Kameraansicht von oben um, um so den optimalen Bildausschnitt für den Betrachter auszuwählen. Das funktioniert nahezu in Echtzeit. Konkrete Bewegungsanweisungen benötigt der Roboter nicht. Der Dozent kann sich vollends auf die Kommunikation mit dem Zuschauer konzentrieren.

In der Studie musste das System seine Funktionsfähigkeit unter Beweis stellen. Sechs Lehrkräfte absolvierten zunächst je zwei Übungsdurchgänge, bevor sie Lehrvideos mit Stargazer produzieren konnten. Dabei zeigten sie die Wartung von Skateboards, stellten interaktive Skulpturen her und zeigten, wie das Einrichten von Virtual-Reality-Headsets vorgenommen wird. Nach Angaben der Forschenden konnten alle Teilnehmer mit der Roboterkamera Videos in zufriedenstellender Qualität erzeugen.

Das Team arbeitet nun daran, das Vokabular subtiler Absichten zu erweitern, um so die Zusammenarbeit mit dem Roboter zu verbessern und noch ansehnlichere Videos produzieren zu können. Dabei wollen die Forscher insbesondere die Kombination von Signalen wie etwa aus Blick und Körpersprache genauer untersuchen. Auch soll das Potenzial von Kameradrohnen und Kamerarobotern auf Rädern erforscht werden, um in größeren Umgebungen automatisiert Videos zu produzieren.

Die Wissenschaftler räumen ein, dass Stargazer noch nicht für die Masse gemacht ist, es gebe allerdings einen Markt für professionelle Roboter-Filmausrüstung. Der verwendete Roboterarm sei für Lehranwendungen auch noch zu teuer, außerdem sei er auf externe Sensoren angewiesen, was die Anwendung noch kompliziert mache.

(olb)