Interview: „Unter 800 Millisekunden merkt man nicht mehr, dass es eine KI ist“
KI‑gestützte Telefonassistenten sollen Anrufe bearbeiten. Wie das bei Fonio funktioniert, erklärt CEO Daniel Keinrath.
(Bild: incrediblephoto / Shutterstock.com)
Überlastete Leitungen, lange Warteschleifen und knappe Personalressourcen gehören für viele Arztpraxen und andere Einrichtungen im Gesundheitswesen inzwischen zum Alltag. Gerade zu Stoßzeiten bündeln sich Terminwünsche, Rezeptanfragen und organisatorische Rückfragen – häufig zulasten der eigentlichen Patientenversorgung. Telefonassistenten sollen helfen, Anrufe zu strukturieren und Routineaufgaben zu automatisieren, ohne zusätzliche personelle Ressourcen binden zu müssen.
Helfen sollen zahlreiche KI-gestützte Telefonassistenten wie 321 MED, Docmedio, Vitas, Medivoice oder Doctolibs Aaron, die Gespräche entgegennehmen, Termine buchen oder Anfragen vorsortieren. Der Anbieter Fonio gibt an, derzeit knapp 400 Kundinnen und Kunden im Gesundheitsbereich zu betreuen.
(Bild: Fonio)
Im Gespräch mit heise online erklärt Fonio-Mitgründer und CEO Daniel Keinrath, wie das System aufgebaut ist und wo derzeit die größten technischen Herausforderungen liegen.
Wo läuft Ihre Infrastruktur – insbesondere vor dem Hintergrund aktueller politischer und regulatorischer Entwicklungen?
Wir hosten nahezu alles lokal bei Hetzner in Deutschland und arbeiten bewusst nicht mit Hyperscalern, wodurch alle unsere Daten in der EU bleiben. Anders wäre das, was wir aktuell machen, auch kaum umsetzbar. Vor allem im DACH-Raum gibt es eine hohe Sensibilität beim Thema Datenschutz – und die ist in den letzten Monaten noch einmal deutlich gestiegen. Früher haben vor allem große Enterprise-Kunden nach On-Premise-Lösungen gefragt. Mittlerweile hören wir das auch von kleineren Unternehmen. Viele wollen explizit EU-Data-Residency und keine Infrastruktur über US-Anbieter.
Videos by heise
Welche KI steckt technisch hinter Ihrem System?
Eine komplette Eigenentwicklung wäre unrealistisch. Unser Anspruch ist es, immer die beste verfügbare KI-Telefonie am Markt zu bieten. Deshalb haben wir unser System agnostisch aufgebaut. Wir nutzen Modelle von OpenAI und Google. Wenn ein besseres Modell auf den Markt kommt, können wir es flexibel integrieren.
Wie funktioniert Ihre Architektur konkret?
Man kann sich das wie einen Orchestration-Layer vorstellen. Zuerst stellen wir die Telefonverbindung her – bildlich gesprochen wie einen Zoom-Call ohne Video. Wenn der Anrufer spricht, wird das Gesagte per Speech-to-Text transkribiert. Ein feinjustiertes LLM generiert daraufhin eine Antwort. Parallel laufen API-Requests, etwa für Kalenderzugriffe oder RAG-Abfragen aus Dokumenten. Anschließend wandelt ein Text-to-Speech-Modell die Antwort in natürliche Sprache um, die wieder über die Telco-Verbindung ausgespielt wird. All das muss extrem schnell passieren, damit es sich wie ein echtes Gespräch anfühlt.
Wie schnell ist „extrem schnell“?
Wir liegen mittlerweile häufig unter 800 Millisekunden Gesamt-Latenz. Das ist eine wichtige Schwelle – unterhalb davon nehmen Menschen in der Regel nicht mehr wahr, dass sie mit einer KI sprechen.
Ist Latenz noch immer die größte Herausforderung?
Inzwischen nicht mehr. Früher war Latenz unser Hauptthema. Heute ist die KI teilweise zu schnell. Wenn sie zu schnell antwortet, fällt sie Menschen ins Wort. Deshalb arbeiten wir stark an „Turn Detection“, also der Erkennung, wann jemand wirklich fertig gesprochen hat und wann es nur eine Denkpause ist. Wir müssen der KI inzwischen künstliche Pausen beibringen.
Wo liegen derzeit die größten technischen Hürden?
Der größte Schwachpunkt ist noch Speech-to-Text, besonders in Europa. In den USA läuft Telefonie viel stärker über Internetverbindungen mit höherer Audioqualität. Europäische Telefonnetze sind oft stärker komprimiert, die Tonqualität ist schlechter. Das erschwert die präzise Transkription, vor allem bei Hintergrundgeräuschen oder undeutlicher Aussprache. Deshalb arbeiten wir stark mit Wahrscheinlichkeitsmodellen und Kontextschätzungen.
Der Markt wächst stark. Was unterscheidet Ihr System von anderen Anbietern?
Es gibt mittlerweile Hunderte Anbieter. Aber nur wenige haben einen eigenen Orchestration-Layer. Viele setzen auf bestehende Plattformen und legen lediglich ein Interface darüber. Zudem sind viele Modelle primär für Englisch optimiert. Nichtenglische Sprachen erfordern andere Feinjustierungen – etwa beim Buchstabieren von E-Mail-Adressen. Damit das funktioniert, haben wir extra ein eigenes System gebaut.
Wie offen ist Ihr System für Integrationen?
Sehr offen. Wir können vor, während und nach dem Call API-Requests ausführen. Jedes API-fähige System kann angebunden werden – ob Shopify, Salesforce, HubSpot oder branchenspezifische Software. Nativ integriert sind gängige Kalenderlösungen.
Im Gesundheitswesen gibt es häufig geschlossene Systeme. Merken Sie das?
Ja. Wir erhalten regelmäßig Anfragen von Praxen, die bestehende Lösungen nutzen und wechseln möchten. Das Problem sind oft fehlende APIs. Manche Systeme sind komplett geschlossen. Das erschwert den Wettbewerb erheblich. Eine Praxissoftware umzustellen, ist allerdings ein großer Eingriff – deshalb greifen wir solche Systemwechsel nicht aktiv an.
Was steckt hinter der Kooperation mit Easybell?
Bisher lief es häufig so, dass Kunden von uns eine separate KI-Telefonnummer bekamen und ihre Hauptnummer weiterleiteten. Mit Easybell – einem Berliner Telekommunikationsanbieter für VoIP, SIP-Trunks und Cloud-Telefonanlagen – können deren Geschäftskunden unsere KI direkt in ihre bestehende Cloud-PBX integrieren, ohne zusätzliche Rufweiterleitungen. Gerade für Mittelständler mit vielen Nebenstellen ist das hilfreich. Die KI kann Anrufe direkt routen oder Termine buchen, ohne dass Anrufe technisch aus dem System heraus- und wieder hineingeleitet werden müssen.
Sie sind branchenübergreifend unterwegs. Warum keine Spezialisierung?
Typischerweise fokussiert sich ein SaaS-Unternehmen auf eine Nische. Wir haben uns bewusst dagegen entschieden. Strukturell unterscheidet sich ein Telefongespräch kaum: Ob Zahnarzttermin oder Reifenwechsel – es geht um Terminvereinbarung, Informationsabfrage und Routing. Die Gesprächslogik ist sehr ähnlich. Unser Ziel ist, dass sich jedes KMU innerhalb von fünf bis zehn Minuten einen KI-Telefonassistenten einrichten kann.
Digital Health abonnieren
Alle 14 Tage bieten wir Ihnen eine Übersicht der neuesten Entwicklungen in der Digitalisierung des Gesundheitswesens und beleuchten deren Auswirkungen.
E-Mail-Adresse
Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.
Was kostet das System?
Wir bieten drei Preisstufen an, beginnend mit 99 Euro pro Monat. Ein Einstiegsplan richtet sich an kleinere Unternehmen und umfasst einen Nutzer sowie 1.000 Minuten pro Monat. Darüber hinaus gibt es einen Team-Plan für mittelständische Unternehmen mit erweiterten Funktionen, etwa der Integration in bestehende Telefonanlagen. Für größere Unternehmen erstellen wir individuelle Angebote, abhängig vom Gesprächsvolumen und Integrationsbedarf. Zusätzliche Minuten können flexibel hinzugebucht werden. On-Premise-Lösungen sind grundsätzlich möglich, werden aber nur in Ausnahmefällen umgesetzt, da EU-Hosting in der Praxis meist ausreicht und deutlich weniger Komplexität verursacht.
(mack)