Machine Learning braucht Feedback, ob das Erzeugte richtig war. Dadurch lernt das System und wird besser.
Bei Sprachaufnahmen kann man das im Vorfeld schwer trainieren, da in der Realität alles Mögliche an Dialekten, Akzenten, Eigennamen und neuen Begriffen dazukommt.
In manchen Situationen kann man die Bewertung auf Basis des Userverhaltens automatisch ermitteln, z.B. indem man bei Diktierfunktionen den generierten Text mit dem, den der User ggf. angepasst hat, abgleicht.
In anderen Situationen fehlt so ein Feedback und man braucht eine andere Kontrollmöglichkeit. Und das sind dann halt andere Menschen, die das Gesprochene transkripieren. Ähnlich wie alle Google-Recaptcha-User aktuell die Bilderkennung für Googles selbstfahrende Autos trainieren ("markiere Zebrastreifen", "markiere Fahrräder").
Ob man das gut findet, ist ein anderes Thema. Aber ich wüsste nicht, wie diese Firmen das anders lösen sollen.