Ich bin eine Woche lang mit einer Wanze herumgelaufen

Der Open-Source-Kettenanhänger Omi (ehemals Friend) schickt jedes gesprochene Wort in die Cloud und fasst jedes Gespräch zusammen. Ist das legal?

In Pocket speichern vorlesen Druckansicht 52 Kommentare lesen

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Lesezeit: 15 Min.
Von
  • Jan-Keno Janssen
Inhaltsverzeichnis

Für rund 60 Euro (plus Zoll) bekommt man den Mithör-Anhänger Omi (ehemals Friend). Hard- und Software sind Open-Source. c't 3003 hat das problematische Gerät ausprobiert und die rechtliche Situation abgeklärt.

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, eine Halskette, die eine Wanze ist. Ja, wirklich, ich habe hier die sogenannte Omi-Halskette um den Hals. Vorher hieß die Friend und die kostet 60 Euro. Da ist ein Mikrofon drin und die hört permanent zu. Also wirklich permanent. Die schickt die ganze Zeit Audiodateien in die Cloud und lässt die dort transkribieren. Ja, und das alles wird gespeichert. Und zusätzlich gibt es auch eine Zusammenfassung jedes einzelnen Gesprächs, was ich so führe. Also jedes Gespräch, was ich erlebe, egal ob privat oder beruflich oder sonst was. Und noch krasser, Omi verspricht, dass es aus dem ganzen täglichen Laberbrei einzelne Termine raushört und die dann automatisch in meinem Kalender speichert.

In diesem Video finde ich heraus, ob man womöglich eine Straftat begeht, wenn man das Ding benutzt und auch, ob das Gerät die versprochenen Funktionen wirklich liefert. Kleiner Spoiler schon mal, ich habe zwischendurch wirklich daran gezweifelt, ob das wirklich wahr ist, was ich da auf meinem Smartphone-Display gesehen habe.

Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei …

Also, das hier ist der Omi-Anhänger. Und falls ihr jetzt denkt, hä, da war doch neulich schon mal so ein Ding Thema bei 3003, das hieß aber Friend oder so. Ja, das ist korrekt. Da ging es aber nur um die Ankündigung eines solchen Mithör-Anhängers. Und wir haben ja jetzt einen da. Es gibt einen kommerziellen, nicht-Open-Source-Anhänger, der heißt Friend und ist bislang nicht erhältlich. Es gibt aber auch einen Open-Source-Anhänger, der schon länger in Entwicklung ist und, ja, der hieß bislang auch Friend, wurde aber nun in Omi umbenannt. Und das wird vermutlich mit dem Nicht-Open-Source-Friend-Anhängermacher zu tun haben. Die haben ihr Produkt nämlich laut United States Patent & Trademark Office als Marke angemeldet. Nick Shevchenko, der Macher des Open-Source-Anhängers, der hat zwischenzeitlich auch einen Rap-Diss-Track gegen den anderen Friend-Macher hochgeladen. Aber, okay.

Ich habe hier jetzt also die Open-Source-Variante namens Omi um den Hals hängen. Und da ist tatsächlich nicht nur die Software Open-Source, sondern auch die Hardware. Man kann sich das Ding mit Standard-Bauteilen und einem 3D-Drucker selbst bauen. Also, ich muss jetzt selber nochmal auf die Bezeichnung gucken. Seeed Studio Xiao NRF52840 Sense Board ist das Herzstück. Da muss man ja allerdings noch einen Akku einbauen und das Gehäuse 3D-Drucker. Da hatte ich keine Lust zu. Deswegen habe ich das Ding komplett bestellt. Das hat dann inklusive Versand 60,90 Euro gekostet. Ja, okay. Und dann hat der Zoll halt nochmal 17,38 Euro obendrauf berechnet. Keine Ahnung, was da schiefgelaufen ist. Ist auch egal. Jedenfalls sieht das Ding tatsächlich auch sehr selbst gebastelt aus. Also, hier ist auch lustig dieser definitiv mit der Bastelschere ausgeschnittene Danke-Zettel. Aber auf jeden Fall hat das Teil auf Anhieb funktioniert. Ich habe die benötigte App auf meinem iPhone installiert. Auf Koppeln gedrückt. Ja, und fertig. Das war wirklich sehr unfrickelig.

Ja, und jetzt ist das Teil wirklich permanent mit meinem Telefon verbunden und transkribiert alles. Ich kann euch jetzt auf jeden Fall mal live zeigen, wie das da funktioniert: "Test, Test, Test. Schubidum, Schwuppdizität, Lieblingswort." Ja, und dieses Transkribieren, das macht es halt wirklich den ganzen Tag. Anders als zum Beispiel bei aktuellen Google- oder Samsung-Smartphones, die ja lokal auf dem Gerät transkribieren können, macht Omi quasi eine Standleitung zu dem Transkriptions-Cloud-Service Deepgram auf und streamt da permanent alles hin, was das Mikrofon so hört. Also der Omi-Anhänger ist mit Bluetooth mit meinem Telefon gekoppelt, das Handy streamt das Audio zu Deepgram und Deepgram schickt Text zurück. Und pro Stunde gingen da bei meinem Test übrigens mehr als 80 MB Daten rüber. Also gerade unterwegs mit Mobilfunk-Internet kann das teuer werden. Und die permanente Übertragung geht natürlich auch auf den Akku des Telefons. Der Akku vom Omi-Anhänger selbst, der hält erstaunlich lange, nämlich bis zu sechs Tage lang. Und kann über USB-C geladen werden.

So, aber jetzt wird's krass: Man kriegt nicht nur jedes im Alltag gesprochene Wort, sondern die Software erkennt die jeweiligen Gespräche auch und fasst sie dann zusammen. Das passiert natürlich auch in der Cloud über einen KI-Dienstleister. Kurzer Einschub, ganz wichtig: Ich hab natürlich bei meinen Tests immer alle Personen vorher um Erlaubnis gebeten, dass ich die Gespräche mit dem Ding hier transkribieren lasse. Also ganz wichtig. Ja, und auf jeden Fall funktioniert diese Erkennung und Zusammenfassung gruselig gut. Also da hab ich manchmal wirklich gedacht: Ist das jetzt Zauberei oder was? Also ohne, dass ich irgendwas mache. Jetzt nicht: Hier fängt jetzt ein neues Gespräch an, hier hört das alte auf, sondern das klappt alles komplett automatisch. Achso, ja, und die Gespräche können auf Deutsch sein, aber die Zusammenfassung zeigt die App bislang nur englischsprachig an. Hier seht ihr zum Beispiel die Zusammenfassung eines 3003-Team-Meetings. Und das stimmt tatsächlich alles. Und das Krasse ist, dass da sogar Action-Items raus destilliert worden sind, also konkrete Aktionen, die einzelne Teammitglieder machen wollen. Und noch krasser: Wenn das System irgendwo im Gespräch einen konkreten Termin raushört, kann man sich den auf Wunsch automatisch in den Kalender eintragen lassen. Und auch das, muss ich leider sagen, hat in meinen Tests gut funktioniert. Also das System hat seinen eigenen Namen falsch geschrieben, also "Omi" mit "H" und auch "Heizkette" statt "Halskette" gehört, aber naja, steckt noch in den Kinderschuhen. Das Erstaunliche ist sowieso, dass die Transkription oft unvollständig ist und auch so komisch fragmentarisch, aber dass die Zusammenfassungen daraus sind trotzdem gut, weil ja, die KI schließt die Lücken.

So. Und wahrscheinlich liegt zwischen so einem Arbeitsmeeting und so einem privaten Gespräch ja sicherlich auch einige Zeit Pause dazwischen. Ja, ich habe deshalb mal als Experiment zwei Ausschnitte aus YouTube-Videos direkt ohne Pause hintereinander abgespielt und zwar mit exakt den gleichen Sprechern und um das mal etwas schwieriger zu machen, sogar mit Regiolekt. Also einmal Elden Ring, die ganze Geschichte auf Hessisch und einmal Halo, die ganze Geschichte auf Hessisch. Beide von Game Two. Und ja, das Omi-System hat die Themen nicht nur korrekt erkannt, sondern auch wirklich gut zusammengefasst. Achtung! Wenn ihr Spoiler zu den Spielen sehen wollt, mal kurz vorspulen. Ja, das habe ich wirklich einfach direkt hintereinander abgespielt und da hat er sofort alles erkannt, obwohl es die gleichen Sprecher waren. Oder hier bin ich einfach Schuhe kaufen gewesen und ja, das wurde auch erkannt. Ich habe wirklich Schuhgröße 47. Also die Omi-Software packt dann auch an jedes Gespräch so ein Tag dran, also so was wie "Arbeit", "Persönlich", "Sozial" oder "Gesundheit".

Ja, und ihr hört da vielleicht raus, dass ich das Ganze rein aus technischer Sicht sehr beeindruckend finde. Und ja, ich kann mir sogar vorstellen, warum man das praktisch finden kann. Alleine dieses automatische Termin-Erstellen. Das finde ich schon auch ziemlich praktisch. Aber für mich steht auch ganz klar fest, dass ich das Teil nach diesem Test nicht mehr benutzen werde, weil das einfach allen anderen Menschen um mich herum total unfair und rücksichtslos gegenüber ist. Weil natürlich wollen die meisten Menschen nicht, dass ihre privaten Gespräche mit mir archiviert werden. Im Arbeitsumfeld ist das Ganze meiner Erfahrung nach etwas weniger unbeliebt, aber auch da gibt es natürlich viele Leute, die das verständlicherweise nicht wollen.

Interessant ist auch, wer eigentlich die API-Kosten für das ganze Zeug bezahlt. Also, wenn ich mir hier die Open-Source-Version anschaue, dann muss ich da eigene API-Tokens reinwerfen. Aber hier in meiner Version, da ist das alles freigeschaltet. Das heißt, ich kann 24/7 Audio in der Cloud transkribieren lassen und zusammenfassen lassen. Das kostet ja Geld. Also der Macher von dem Projekt, Nick Shevchenko, ja, der sitzt in San Francisco, der ist 24 Jahre alt, hat schon zwei Start-ups verkauft und sagt, er sei ein Peter-Thiel-Fellow, also von dem durchaus umstrittenen Silicon-Valley-Milliardär. Das kann also sein, dass das Geld von Investoren oder so kommt. Wir haben Shevchenko mal gefragt und bislang keine Antwort bekommen. Wenn da vor Veröffentlichung des Videos was eintrudelt, dann würde ich das hier jetzt reinschneiden.

Ja, kurz vor Veröffentlichung des Videos hat sich Nick Shevchenko tatsächlich ganz freundlich bei uns gemeldet. Wegen Zeitzonenproblemen sage ich mal, haben wir allerdings kein Interview mehr vor Veröffentlichung hinbekommen. Ich werde aber sehr wahrscheinlich trotzdem mit ihm sprechen und das, was ich rausbekomme, schreibe ich dann in einen angepinnten Post. Wenn ihr noch was wissen wollt von ihm, könnt ihr mir das auch schreiben. Ich versuche ihn das dann zu fragen.

Aber ich habe am Anfang ja angekündigt, es gibt ja im deutschen Strafgesetzbuch den § 201 "Verletzung der Vertraulichkeit des Wortes" und da steht drin: "Mit Freiheitsstrafe bis zu drei Jahren oder mit Geldstrafe wird bestraft, wer unbefugt 1. das nicht öffentlich gesprochene Wort eines anderen auf einen Tonträger aufnimmt oder 2. eine so hergestellte Aufnahme gebraucht oder einem Dritten zugänglich macht."

Ich versuche dazu noch eine rechtliche Einschätzung zu bekommen, die schneide ich euch hier gleich noch rein.

Also wenn wir uns beide jetzt unterhalten und ich erzähle dir von meinem letzten Arztbesuch und ich weiß nicht, dass du gerade einen schönen Halsschmuck an deinem Nacken trägst, sondern das ein Gerät ist, was unser Gespräch aufzeichnet, dann kann es sein, dass du dich strafbar machst. Denn nach § 201 StGB wird die Vertraulichkeit des Wortes geschützt und insofern, dass nicht öffentliche Gespräche nicht aufgezeichnet werden dürfen.

Etwas anderes ist es im Datenschutzrecht. Für jede Verarbeitung von personenbezogenen Daten, also das Gerät speichert ja immer das Gespräch, ist es so, dass diese Daten, die da aufgezeichnet werden, eine Datenverarbeitung sind und eine Datenverarbeitung darf ich immer nur dann vornehmen, wenn eine Rechtsgrundlage vorliegt. Und da die Eingriffe in das Persönlichkeitsrecht derart tief sind, ist hier nur denkbar im Datenschutzrecht eine Einwilligung und mit der Einwilligung ergeben sich dann weitere Probleme. Beispielsweise ist es so, dass die Einwilligung immer widerruflich gegeben werden muss. Das bedeutet, wenn ich dir eine Einwilligung gebe, musst du gewährleisten, dass wenn ich die Einwilligung widerrufe, dass dieser Widerruf auch gegenüber dem Anbieter dann durchgesetzt wird. Und das ist oftmals schwer umzusetzen.

Schwierig ist auch die Tatsache, dass Einwilligungen dokumentiert werden müssen, denn sonst könnte ich ja sagen, ich habe dir gar keine Einwilligung gegeben. Dann ist es schwierig, dann bist du in einem Beweisproblem und müsstest mir dann sagen, ja, nein, du hast mir ja aber aufgeschrieben, du hast mir deine Einwilligung gegeben, hier steht das. Also das ist in der Praxis eigentlich kaum umsetzbar. Dann muss die Einwilligung auch informiert erfolgen. Das bedeutet, du musst mir erzählen, wenn du dieses Gerät nutzt, was alles da passiert in der Datenverarbeitung. Und da wird es immer ganz schwierig bei KI, wenn selbst Entwickler beispielsweise nicht genau wissen, was die KI macht. Wie willst du mir denn dann erzählen, was KI mit meinen Daten macht? Insofern haben wir hier auch ein Problem. Und dann habe ich noch gar nicht angefangen von Geschäftsgeheimnissen. Also beim beruflichen Umfeld ist ein Einsatz von solchen Geräten definitiv abzusehen.

Also die KI-gestützte komplette Selbstbespitzelung, die scheint ja wirklich für viele Leute sehr interessant zu sein. Also nehmen wir mal Microsofts geplante Recall-Funktion oder halt, dass solche Ganztagesaufnahmegeräte direkt von zwei unterschiedlichen Start-ups parallel entwickelt werden. Aber bei mir und bei euch, also wenn ich mir eure Kommentare so anschaue, stößt solches Zeug eher wenig auf Gegenliebe. Also wie man überhaupt auf die Idee kommt, so ein Teil fürs Privatleben benutzen zu wollen. Also das Problem mit der Unfairness gegenüber meinen Gesprächspartnerinnen und -partnern habe ich ja schon erwähnt. Aber stellt euch mal vor, irgendwer bekommt Zugriff auf die Transkripte aller eurer privaten Gespräche. Also da dreht sich mir wirklich der Magen um. Und ich denke, dass das nicht nur mir so geht. Ich finde aber auf jeden Fall wichtig, darüber zu berichten, weil ich möchte gerne wissen, dass da draußen solche Hard- und Software existiert.

Für berufliche Meetings sehe ich sowas allerdings differenzierter. Allein, weil da ja eh oft manuell mitgeschrieben wird, also oft auch in die Cloud mitgeschrieben wird. Also das jetzt zu automatisieren, dagegen sprechen zwar auch ein paar Sachen. Und zwar natürlich Falschtranskriptionen. Die können, wenn man sich da ohne Überprüfung darauf verlässt, natürlich für riesige Probleme sorgen. Natürlich kann bei menschlichem Mitschreiben auch mal gesagt werden: "So, das und das mal jetzt bitte nicht notieren. Das ist jetzt nur für diesen Raum." Aber ja gut, da kann man vermutlich irgendwie mit umgehen. Das ist ja auch längst eine Funktion, die zum Beispiel Microsoft in Teams anbietet. Aber eine komplette 24/7-Aufzeichnung des Alltags. Ich kann mir nicht vorstellen, dass es viele Leute gibt, die da keine Bauchschmerzen haben. Oder? Gerne in die Kommentare schreiben und gerne abonnieren.


c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.

(jkj)