Snips: Raspi-Sprachassistent ganz ohne Cloud bauen

Mit einem Raspberry Pi und dem Projekt Snips baut man einen Sprachassistenten á la Alexa, Siri & Co. zusammen, der ohne Sprachübertragung in die Cloud auskommt.

Artikel verschenken

21

Mit dem abgebildeten Matrix Voice Standard Mikrofonaufsatz lauscht der selbstgebastelte Assistent in den Raum.

10.05.2019, 07:00 Uhr

Lesezeit: 12 Min.

c't Magazin

Von

Jan Mahn

Snips: Raspi-Sprachassistent ganz ohne Cloud bauen
Offline-Sprachassistent von Snips
Peripherie einbinden
MQTT-App selbst gebaut

Artikel in c't 11/2019 lesen

Sprachassistenten funktionieren fast alle nach dem gleichen Prinzip: Die Mikrofone, eingebaut in "smarten" Lautsprechern, Fernsehern und anderen Haushaltsgeräten, lauschen in den Raum und analysieren permanent das Gehörte. Sie tragen ein trainiertes Modell in sich, um das sogenannte Hotword zu erkennen: "Alexa", "Siri" oder "Hey, Google". Wurde diese Phrase erkannt, schneiden sie das Gehörte mit und übertragen den Audiostream der nächsten Sekunden an die Cloud des Herstellers. Der Nutzer erkennt das meist über einen Signalton und eine leuchtende LED. In der Cloud passiert dann die Analyse des Audio-Schnipsels. Das Gesprochene wird mit dafür trainierten neuronalen Netzen in Text übersetzt.

Danach ist eine weitere Übersetzungsleistung nötig. Aus einem transkribierten Text wie "schalte Lampe im Wohnzimmer ein" muss ein weiteres System herausfischen, was der Nutzer damit gemeint hat, ob er etwa eine Frage gestellt oder einen Befehl gegeben hat. Neben der Absicht ("Lampe ein") muss das Programm Parameter in der Botschaft finden ("im Wohnzimmer").

Auf einige Absichten des Nutzers können die Hersteller-Clouds selbst antworten, etwa Wetterberichte erstellen oder einen mittelmäßigen Witz als Text zurückgeben. Für andere Fähigkeiten haben sich die Cloud-Anbieter Schnittstellen ausgedacht, über die Drittanbieter wie Hersteller von steuerbaren Lampen das Verständnis für weitere Sätze nachrüsten können. Bei Amazons Alexa heißen diese Skills. Technisch gesehen sind das APIs auf dem Server eines Drittanbieters, die den in Text übersetzten Satz des Nutzers erhalten und ein Ereignis auslösen oder Text zurückgeben, den der Assistent dann vorliest.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Gefahr im All: Wie Roboter und Plasmastrahlen vor Weltraumschrott retten sollen

Von Navigation bis Wettervorhersage – die moderne Welt hängt an Satelliten. Die Müllwolke im Orbit droht alles zum Absturz zu bringen. Doch es gibt Lösungen.

Vinylflattener zum Glätten von Schallplatten im Selbstbau

Meine selbst entwickelte Bügelmaschine für Vinylplatten glättet Wellen und macht sie nicht nur optisch wieder schöner, sondern kann auch den Klang verbessern.

Astro-Objektive im Praxistest

Sigma-Ultraweitwinkel-Objektive (Sony-E-Mount) für die Astrofotografie: von 14 bis 28 mm, mit hoher Lichtstärke und exzellenter Sternabbildung bis in die Ecken.

Microsoft Office: Drei gute Alternativen ausprobiert

Wer nach datenschutzfreundlichem und günstigerem oder kostenlosem Ersatz für die MS-Office-Programmen sucht, findet mindestens drei gute Alternativen.

Noise-Cancelling-Kopfhörer für 21 Euro: Das taugt der Ugreen HiTune Max5c

Der HiTune Max5c verspricht für schmales Geld aktive Geräuschunterdrückung, lange Laufzeiten, LDAC und Multipoint-Verbindung. Doch wie gut klingt der Kopfhörer?

Chatkontrolle: EU-Rat will das freiwillige Scannen von Chats dauerhaft erlauben

Im Ringen um die Chatkontrolle hat der Rat seine Position gefunden – und weicht in mehreren Punkten deutlich von der Position des Parlaments ab.

Beliebte Bestenlisten

Alle bestenlisten

Der beste Full-HD-Beamer für Heimkino, TV & Konsole

Die besten Tuner für DAB+ zum Nachrüsten für die Stereoanlage

Top 10: Die beste Smartwatch 2025 im Test

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}