Skip to main content
ben

Lass Dir den Artikel von Bens synthetisierter Stimme vorlesen. Wie das funktioniert erfährst du hier.

Bei Alexa, Google und Co. oder am Telefon: Voicebots sind eine effektive Lösung, um Kund:innen Inhalte und Dienstleistungen zu präsentieren und die Erreichbarkeit von Unternehmen auf ein Maximum auszuweiten. Aber wie funktioniert ein Voicebot eigentlich? In diesem Blogpost gehen wir der Sache gemeinsam auf den Grund und finden heraus, was genau diese sprachbasierten Chatbots eigentlich sind.  

Funktionsweise von Voicebots

Um die Technologie hinter Voicebots zu verstehen, hilft es, sich vor Augen zu führen, wie Chatbots funktionieren. Eine Interaktion zwischen Chatbots und User:innen wird in Form von geschriebenem Text aufgebaut, der von beiden Seiten ausgegeben wird. Doch wie funktioniert das genau? 

Was bedeuten STT und TTS?

Der Name „Voicebots“ setzt sich aus Voice = Stimme und Bot = Abk. für Roboter zusammen. Wie der Name schon sagt, kommunizieren Voicebots im Gegensatz zu Chatbots mit gesprochener Sprache in Ein- und Ausgabe. Das heißt, sie empfangen gesprochene Sprache in Form von Audiosignalen, übersetzen diese in geschriebenen Text, geben geschriebenen Text aus und übersetzen diesen anschließend zurück in Audiosignale. Um diese Interaktion zu gewährleisten, werden Speech-To-Text (STT) sowie Text-To-Speech (TTS)-Technologien benötigt. Diese Technologien sind für das Verstehen auf beiden Seiten nötig. All dies passiert in Sekundenschnelle, wodurch das Gefühl eines echten Gesprächs zwischen Mensch und Bot entsteht.  

Was ist NLP?

Nun bleibt noch die Frage offen, wie nach der Umwandlung von gesprochenen Audiosignalen in Text, ein Verständnis für die Sprache geschaffen wird.

Mit Hilfe von Natural Language Processing oder kurz NLP, werden die gesprochenen Wörter der anrufenden analysiert. Der Voicebot entschlüsselt under Anderem die Satzstruktur, die jeweiligen Wortarten und die Abhängigkeiten zwischen ihnen. Denn der Satzbau kann auch ein Indiz für einen bestimmten Intent sein. Verwendet ein Anrufer in einem Satz beispielsweise immer die Passivform, wird diese später ein Hinweis darauf sein, dass ein bestimmtes Anliegen genannt wurde.

Durch weiterführende Algorithmen wie Sentiment Analysis wird es dem Voicebot sogar möglich, eine emotionale Intelligenz zu entwickeln, also zu bemerken, ob die Aussageintention beispielsweise positiv, negativ oder neutral gemeint ist.

Was ist NLU?

Da NLP die Antworten der Anrufenden erstmal nur strukturell entschlüsselt und die Beziehung zwischen den Wörtern aufschlüsselt, ist noch eine weitere Eben nötig. Diese nennt sich Natural Language Understanding (NLU) und ist eine Unterkategorie von NLP. Die NLU schreibt den Wörtern eine Bedeutung zu, indem sie die Ähnlichkeit oder Entfernung zu anderen vorkommenden Wörtern betrachtet. Durch NLU wird es einem System möglich, einer Aussage, die so nicht im Sprachmodell trainiert wurde, den passenden Intent – also eine Absicht – zuzuordnen. Denn ein und dieselbe Absicht wird nicht von jedem Menschen gleich formuliert. Dadurch wird es möglich, auch komplexere Anfragen zu beantworten, die nicht eindeutig auf Schlüsselwörter zurückgeführt werden können.

Wenn du dich noch genauer mit dem Thema Sprachverarbeitung auseinandersetzen möchtest, hilft dir unser Blogpost „Conversational AI: Wie funktioniert Sprachverarbeitung?” weiter. 

Wie entsteht die Stimme des Voicebots?

Um das Gesprächserlebnis für Kund:innen so angenehm wie möglich zu gestalten, wird eine menschliche Stimme im Vorfeld aufgenommen. Aus diesen Aufnahmen wird eine generische Stimme erstellt, mit der man jeglichen Text in Audiosignale eben dieser Stimme überführen kann. So entstehen nicht nur angenehme Gesprächsdialoge, bei denen die Nutzer:innen kaum merken, dass sie mit einer KI sprechen, sondern man hat die Möglichkeit dem Voicebot auch eine eigene Voice Persona – also einen Charakter – mitzugeben, die gerade für Unternehmen sehr relevant ist.  

Optimierungsprozesse für Voicebots

Bei den Voicebots ist es wie bei uns Menschen – man lernt nie aus. Bevor ein Voicebot der Öffentlichkeit zur Verfügung gestellt wird, wird ihm ein bestimmtes Kontingent an Fragen beigebracht. Dies richtet sich meist nach bereits häufig gestellten Fragen an das Unternehmen. Doch natürlich kann hier nicht von Beginn an jede erdenkliche Frage von Kund:innen abgedeckt werden.  

Nach dem Go-Live eines Voicebots kann mit Hilfe von genauen Analysen des Nutzerverhaltens geschaut werden, wo in Gesprächen Probleme auftreten und wo der Bot noch verbessert werden muss.   

Vertrauen ist gut, Kontrolle ist besser – um das ganze Potential von sprachbasierten Anwendungen auszunutzen, sollte der Bot also auf seinem Weg begleitet und kontrolliert werden, damit Schwächen auffallen und gelöst werden können. VUI-Designeri:innen entwickeln die Bots stetig weiter, bringen ihnen neue Antworten auf neue Fragen bei und ermöglichen es dem Bot so, immer besser zu werden.  

Die Vorteile eines Voicebots

Voicebots am Telefon gehen weit über die bisherigen Interactive Voice Response Systeme (IVR) hinaus und bieten anders als die vorgefertigten Antworten eines IVR Systems mehr Flexibilität durch das gute Verständnis der gesprochenen Sprache und die Reaktionen darauf. 

Der Bot kann ganz individuell an den Bedarf des Unternehmens und an das Nutzungsverhalten angepasst werden. Häufig fängt diese Anpassung schon bei der ersten Interaktion zwischen Bot und Mensch an. Es muss nämlich entschieden werden, ob der Bot mit einer offenen Frage oder einer Auswahlfrage ins Gespräch startet. Schon hier kann durch eine bedachte Auswahl, der Grundstein für eine effektive Mensch-Maschine-Kommunikation gelegt und der Voicebot immer hilfreicher gemacht werden.  

Ein weiterer Pluspunkt ist, dass das Kommunizieren mit den sprachbasierten Conversational AIs deutlich schneller geht, da die Eingabe bei einem textbasierten Bot durch das Tippen deutlich länger dauert. 

Weitere Vorteile von Voicebots zum Beispiel im e-Commerce findest du in diesem Blogpost. 

Voicebot für dein Unternehmen? 

Interesse geweckt? Let´s talk about it! Melde dich bei uns und finde mit unserer Hilfe die Stimme deines Unternehmens. 

Kim Anna Döge

Kim unterstützt Future of Voice als Werkstudentin im Bereich Content Marketing.