Dass die Spracherkennung bei rein stochastischem Rauschen wenig Probleme hat, wundert mich nicht so, denn die werden das im Frequenzraum gut trennen können, und Rauschen ist ja auch oft ein echtes Hintergrundgeräusch.
Alternativvorschlag: Zwei Sprecher sprechen gleichzeitig, und man muss beide Sätze heraushören. Menschen können das ganz gut, bei der KI dürfte das auf absehbare Zeit nicht funktionieren.
Auriocus