Neue iPhone-App erzeugt und klont Stimmen ohne Cloud-Anbindung

Eine kostenlose App für iPhone ermöglicht Textvertonung und Stimmklonung. Sie zeigt die Möglichkeiten lokaler KI auf dem Gerät.

vorlesen Druckansicht 11 Kommentare lesen
Bildschirmfotos von Echovo

Bildschirmfotos der App Echovo: Die Bedienoberfläche (links) mit der Auswahl zwischen TTS und Voice Cloning sowie die Anzeige von Statistik (rechts) nach dem Erzeugen von Clips.

(Bild: heise medien)

Lesezeit: 2 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Eine neue kostenlose iPhone-App, mit der sich Texte vertonen oder Stimmen klonen lassen, zeigt die derzeit schon vorhandenen technischen Möglichkeiten auf, Künstliche Intelligenz lokal auf einem Gerät zu betreiben. Echovo von Harim Kang macht sich dabei das chinesische Qwen3-TTS-Modell von Alibaba Cloud zunutze. Laut Entwickler findet die gesamte Verarbeitung on-device statt. Die Ergebnisse können sich hören lassen.

Qwen3-TTS ist ein Open-Source-Modell, das im Januar 2026 veröffentlicht und mit fünf Millionen Stunden Sprachdaten trainiert wurde. Anders als ähnliche Modelle von ElevenLabs oder OpenAI für Text-to-Speech (TTS) wurde es speziell für lokale Inferenz optimiert. In der App Echovo werden elf Sprachen unterstützt. Mit Akzenten und Dialekten tut sich das Modell allerdings schwer, was die KI-Erzeugung beim Klonen von Stimmen entlarvt – dennoch trifft das Modell Sprachmelodie und Besonderheiten recht gut.

Die Entwickler haben die App für das iPhone mithilfe des MLX-Frameworks (Metal-accelerated Machine Learning) realisiert, das GPU- und Neural-Engine-Beschleunigung nutzt. Es sorgt für eine effizientere Nutzung des verfügbaren Arbeitsspeichers und ermöglicht, dass das KI-Modell komplett in den Shared Memory geladen werden kann.

Nach der Installation der App stehen zwei Modelle von je 1,9 GByte Größe zum Download bereit. Das Base-Modell genügt für Text-to-Speech mit einer Standardstimme sowie zum Klonen von Stimmen. Mit dem CustomVoice-Modell können bei TTS verschiedene Stimmen ausgewählt werden.

Videos by heise

Die Erzeugung erfolgt je nach verwendetem Gerät teilweise schneller als in Echtzeit der Audioaufnahme – etwa, als wir die iPhone-App auf einem Mac mit M4 Pro ausprobierten. Die App zeigt Echtzeit-Metriken, die den Real-Time-Factor, die tatsächliche Verarbeitungszeit, den RAM-Verbrauch, die Eingabelänge und die Wärmeentwicklung des Chips ausgeben. Durch die On-Device-Erzeugung fallen im Gegensatz zu den verfügbaren Cloud-Diensten keinerlei Kosten an. Für das Voice-Cloning genügt bereits ein drei Sekunden langer Clip. Auf einem iPhone 17 Pro Max wurde ein geklonter Clip mit einem RTF von 4,074 erzeugt.

Für die beste Performance wird ein Gerät mit A17 Pro oder neuerem Chip empfohlen. Zusätzlich wird Speicherplatz für die heruntergeladenen Modelle benötigt. In unseren Versuchen funktionierte die Generierung mithilfe der App problemlos. Allerdings berichten vereinzelt Nutzer, dass die Generierung bei ihnen nicht so gut funktioniert.

(mki)