Sogenannte „Large Language Models“ wie OpenAI’s ChatGPT haben die Welt in den letzten Monaten im Sturm erobert. Jedoch widmet sich das in San Francisco ansässige Unternehmen auch der Entwicklung weiterer Modelle, die für spezifischere Anwendungsbereiche konzipiert sind. Eines dieser Modelle ist Whisper, ein automatisches Spracherkennungssystem (ASR), das im September 2022 veröffentlicht wurde und nicht annähernd den medialen Wirbel erfuhr wie seine Chat-basierten Geschwister. Das Model zielt darauf ab, menschliche Sprache effizienter und genauer in Text umzuwandeln.
Conversational AI Expert:innen haben das Modell bereits seit einiger Zeit gelobt. Durch die Veröffentlichung einer hauseigenen API hat OpenAI das Model Anfang März diesen Jahres noch einmal etwas stärker ins Gespräch und Bewusstsein gerückt. In diesem Artikel werden wir uns näher mit Whisper beschäftigen, seine Funktionsweise erklären und die potenziellen Anwendungen und Auswirkungen auf unser Leben diskutieren.
Was ist Whisper?
Whisper ist ein fortschrittliches, automatisches Spracherkennungssystem. Automatische Spracherkennung beschreibt, was gemeinläufig als „Speech-To-Text“ (STT) bezeichnet wird – also die Umwandlung von gesprochener Sprache in geschriebenen Text durch die Analyse und Interpretation der akustischen Signale der menschlichen Stimme.
Im Vergleich zu herkömmlichen STT-Modellen zeichnet sich Whisper durch einen diversen Trainingsdatensatz aus, der ihm zugrunde liegt. Damit hat Whisper verbesserte Fähigkeiten, Sprache in verschiedenen Umgebungen und mit unterschiedlichen Sprechern zu erkennen. Während andere Modelle aufwendiges Finetuning brauchen, ist Whisper robuster gegenüber Hintergrundgeräuschen, Akzenten und Variationen in der Aussprache. Durch die sehr große Menge an trainierten Daten, erreicht Whisper eine breite Abdeckung mehrerer Sprachen und ist in ganz verschiedenen Themenbereichen einsetzbar. Außerdem ist das Modell durch diese Robustheit „out of the box“ einsetzbar, während Finetuning für sehr bestimmte Use Cases immer auch eine große Menge an Trainingsdaten benötigt, die teils erst händisch erstellt werden müssten.
Gesprochene Worte, geschriebene Texte: Die transformative Kraft von Live-Transkription und maschineller Übersetzung
Es gibt verschiedene Gründe, warum die Entwicklung besser und einfacher einzusetzender Spracherkennungsmodelle interessant ist:
- Menschen mit Hörbeeinträchtigungen können durch fortschrittliche Live-Transskriptionssoftware besser am digitalen Raum teilhaben, insbesondere in Zeiten von Podcasts und Videokonferenzen.
- Für die meisten Menschen ist es schneller und natürlicher, zu sprechen, anstatt zu schreiben. Durch funktionierende Live-Transkriptionssoftware ist es möglich, auf natürlichere Art und Weise mit bisher schriftbasierten Anwendungen wie ChatGPT zu kommunizieren. Auch die Veröffentlichung des multimodalen GPT4-Modells zeigt, dass die Entwicklung von Mensch-Maschine-Interaktion in diese Richtung geht.
Warum sind Entwicklungen wie das Whisper-Modell für Conversational AI interessant?
Nun kommen wir zum Hauptpunkt: Warum sind Entwicklungen wie das Whisper-Modell für Conversational AI interessant? Im Alltag erstellen wir Sprach-Schnittstellen, über die Nutzer direkt mit einem Bot durch gesprochene Worte interagieren können.
Bei Future of Voice gestalten wir täglich faszinierende Sprach-Schnittstellen, die es den Nutzer:innen ermöglichen, direkt über gesprochene Worte mit Bots zu interagieren. Darunter fallen beispielsweise Phonebots oder bekannte Sprach-Assistenten wie Alexa und Siri. Die Verwendung von Speech-to-Text-Modellen ist daher ein täglicher Teil unserer Arbeit. Je besser die STT-Funktionen sind, desto erfolgreicher kann die interne Logik eines Bots die Anliegen der Nutzer behandeln und sie zu ihrem Ziel führen.
Das Whisper-Modell bietet auch den Vorteil einer verbesserten Störsignalunterdrückung, was besonders in Bezug auf den Einsatz unserer Voicebots von Bedeutung ist. Häufig rufen Benutzer:innen nicht von komplett stillen, laborähnlichen Bedingungen an, sondern beispielsweise aus dem Auto oder von zu Hause aus, wo Hintergrundgeräusche wie Kinder oder der Fernseher vorhanden sein können. Die größere Robustheit des Whisper-Modells gegenüber solchen Störgeräuschen ist daher ein wichtiger Faktor.
Fortschritte bei Sprache-zu-Text-Modellen: Aktuelle Entwicklungen und Herausforderungen
Es gibt eine hohe Nachfrage nach guten und schnellen Speech-to-Text-Modellen, wie aktuelle Entwicklungen zeigen. Denn wir wissen alle, wie frustrierend es sein kann, wenn Verzögerungen bei einem Telefonat auftreten und wir 2-3 Sekunden warten müssen, bis unser Gegenüber endlich antwortet. Und das gilt auch für Live-Übersetzungen. Unser Gehirn ist darauf programmiert, Dinge in Echtzeit abzustimmen. Wenn wir dann sehen, dass die Lippenbewegungen oder sogar die Körperhaltung einer Person nicht mit dem übereinstimmen, was wir als Untertitel lesen, fühlt sich das Ganze nicht mehr authentisch an und verliert den persönlichen Touch.
Es wurden bereits verschiedene Ansätze untersucht, um das Whisper-Modell noch schneller zu machen, ohne die Qualität stark zu beeinträchtigen und OpenAI ist vermutlich selber daran interessiert, ihr Modell weiterzuentwickeln. Alle Sprachmodelle könnten davon profitieren, wenn Trainingsdaten genutzt werden könnten, die derzeit nur in gesprochener Form verfügbar sind. Das Training von GPT4 mit mehreren Modalitäten wird zwar verprobt, ist jedoch viel teurer und aufwendiger. Daher wäre es sehr hilfreich, diese Trainingsdaten in schriftliche Form zu übersetzen, um sie so zur einfachen und günstigeren Verbesserung der großen Sprachmodelle einsetzen zu können.
Es bleibt spannend, da Whisper derzeit wahrscheinlich noch nicht schnell genug ist, um Live-Transkriptionen für einen Voicebot durchzuführen. Da wir jedoch die Microsoft Azure Services verwenden, können wir erwarten, dass wir direkt von allen Verbesserungen profitieren werden, die es bei den Spracherkennungsmodellen gibt. Für die Zukunft können wir optimistisch sein, dass all diese Entwicklungen nicht nur unsere Kommunikation mit Maschinen verbessern werden, sondern auch die der Menschen untereinander.
Du bist neugierig und möchtest ein Projekt mit Whisper umsetzen? Sprich uns gern an!