Spracherkennungs-SDK für iOS-Entwickler [Update]

Wer seine iPhone-, iPod-touch- oder iPad-Anwendungen um Speech-to-Text- und Text-to-Speech-Funktionen erweitern will, kann nun auf die "Dragon Mobile"-Technik von Nuance zurückgreifen.

In Pocket speichern vorlesen Druckansicht
Lesezeit: 2 Min.

Der Spracherkennungsspezialist Nuance ist schon seit längerem in Apples App Store vertreten: So ist es mit Dragon Dictation beispielsweise möglich, Texte auf Deutsch, Englisch, Französisch, Italienisch oder Spanisch zu diktieren, um etwa SMS oder E-Mails zu verfassen. Der Hersteller hat die in seinen Apps enthaltene Technik nun in Form eines "Dragon Mobile"-Software Development Kit (SDK) auch für Entwickler bereitgestellt.

Zur Nutzung bietet Nuance ein Self-Service-Portal an, über das Developer die entsprechenden Funktionsbausteine herunterladen können. Neben der Spracherkennung (Speech-to-Text) ist auch die Ausgabe von Texten per Sprache möglich (Text-to-Speech). Das SDK steht für iOS 3 und iOS 4 bereit, außerdem ist eine Android-Version verfügbar (ab 2.1). Unterstützt werden derzeit Englisch (UK/US), europäisches Spanisch, Französisch, Deutsch, Italienisch und Japanisch für die Spracheingabe und "mehr als 35 Sprachen" für die Sprachausgabe.

Zum genauen Preismodell der SDK-Nutzung machte Nuance zunächst keine Angaben. Es lässt sich nach Anmeldung kostenlos herunterladen und dann 90 Tage nutzen. "Ist die Applikation dann marktreif, erlaubt ein Stufenmodell, den Preis an die Anforderungen der Entwickler und ihrer Applikationen anzupassen", so Nuance in einer Mitteilung. Die Spracherkennung erfolgt über einen Cloud-Dienst auf den Servern von Nuance, eine Internet-Verbindung muss also bestehen.

[Update:] Ein Nuance-Sprecher gab mittlerweile gegenüber Mac & i Details zur Bezahlung des "Dragon Mobile"-SDK bekannt. Die Preise beginnen demnach bei 1000 Dollar für 50.000 Transaktionen und sind via PayPal zu entrichten. Eine Transaktion sieht dabei wie folgt aus: "Der Partner sendet ein Voice-File zu Nuance und wir transkribieren dieses." Auch für einzelne Text-to-Speech-Operationen wird jeweils eine Transaktionsgebühr fällig.

Wem 50.000 Transaktionen nicht ausreichen, der kann in mehreren Stufen nachkaufen – bis hoch zu 6500 Dollar für 500.000 Stück. Der Preis variiert entsprechend je nach Volumen zwischen 2 und 1,3 US-Cent pro Transaktion. (bsc)