Skip to main content

Als Agentur für Conversational AI und dem Namen “Future of Voice” getreu, setzen wir neben textbasierten Bots vor allem auch sprachbasierte Bots um. Blecherne künstlich klingende synthetische Stimmen kennt man zur Genüge. Solchen Stimmen zuzuhören wird schnell anstrengend und macht keinen Spaß. Seit kurzem gibt es einen Paradigmenwechsel für synthetische Stimmen: die Custom Neural Voice. Das Ergebnis ist nicht nur eine synthetische Stimme, die einer menschlichen Stimme zum Verwechseln ähnlich ist, sondern die auch 100 Prozent einzigartig ist. 

Als Conversational AI Agentur haben wir bereits einige Custom Neural Voices erstellt und erläutern hier am Beispiel unseres CEOs Ben, wie eine neuronale Stimme entsteht. Eins schonmal vorweg: von dem Ergebnis sind wir begeistert! Was genau eine Custom Neural Voice ist, wo die Vorteile gegenüber einer vorgefertigten synthetischen Stimme liegen, wie die Erstellung funktioniert und wie man sie nutzen darf, erfährst du in diesem Blogartikel. 

Was ist eine Custom Neural Voice?

Future of Voice ist auf Voicebots spezialisiert. Inhaltlich passen wir diese gezielt auf unsere Auftraggebenden an, sodass sie einzigartig sind. Bei den Stimmen der Bots mussten wir in der Vergangenheit aber auf vorgefertigte synthetische Stimmen zurückgreifen. Diese können wir zwar mittels Speech Synthesis Markup Language (SSML) modulieren und damit ein wenig Individualität schaffen, doch der Eindruck einer Computerstimme bleibt. Mit einer Custom Neural Voice hingegen können wir auch auf der stimmlichen Ebene 100 Prozent Individualität schaffen und den Voicebot noch besser machen.

Stimme als Markenattribut

Einige Brands werden direkt mit einer speziellen Stimme assoziiert. Dazu gehören zum Beispiel Toom („Respekt wer’s selber macht “ – hast du die typische Toom-Stimme in deinem Kopf gehört?) oder Seitenbacher. Eine mit einer Marke assoziierte Stimme wird auch Brand Voice genannt. Häufig kennt man diese Stimmen aus Werbespots.  

Wenn sich eine Stimme einmal etabliert hat, macht es für das Unternehmen durchaus Sinn diese Stimme auch auf anderen Kanälen wie Phonebots oder Voice Apps zu nutzen. Denn die bekannte Stimme schafft eine emotionale Bindung zur Marke.  

Neuer Case, neue Kosten

Bei Kanälen wie Phonebots oder Voice Apps kommt gegenüber Werbespots der neue Aspekt der Interaktivität hinzu. Das bedeutet, dass das System eine Antwort von Nutzer*innen erwartet, die dann weiterverarbeitet werden muss. Dazu zählen auch dynamische Inhalte wie Kundennummern oder Geburtsdaten, die die Stimme gegebenenfalls wiederholen muss. Für eine bereits erstellte synthetische Stimme wie die von Alexa oder dem Google Assistant sind diese dynamischen Inhalte kein Problem. Doch wenn man seine eigene Brand Voice dafür benutzen möchte, stößt man an seine Grenzen. Bisher war dies nämlich nur möglich, indem man entweder eingesprochene Aufnahmen nutzte oder indem man sich von Grund auf seine eigene synthetische Stimme bauen ließ.  

Das war jedes Mal mit sehr hohen Kosten verbunden – bis jetzt! Denn dank der Custom Neural Voice Anbieter*innen wie beispielsweise Microsoft, IBM oder Facebook ist es jetzt schon mit einigen Hundert Aufnahmen eines*einer Sprecher*in möglich, eine synthetische Stimme zu erstellen, die genauso klingt wie die echte Stimme. Rein technisch kann man diese Stimme also jeden beliebigen Text vorlesen lassen.  

Text-to-Speech auch für Custom Neural Voices

Die Text-To-Speech-Komponente (TTS), die dafür sorgt, dass ein geschriebener Text in eine gesprochene Äußerung umgewandelt wird, ist bei den synthetischen Stimmen aus dem Katalog bereits integriert. Der Nachteil dieser vorgefertigten Stimmen ist, dass sie von jedem verwendet werden können. Diese Stimmen sind Nutzer*innen von vielen Systemen oder Marken bekannt, deshalb tragen sie nicht zum Markenerkennungswert bei. Hier sind Beispiele für zwei der bekanntesten synthetischen Stimmen:


Dadurch, dass die bestehende Text-To-Speech-Komponente auch für den neuen Custom Neural Voice Service zur Verfügung steht und durch die synthetischen Stimmen vortrainiert ist, wird das Erstellen einer eigenen Custom Neural Voice bezahlbar. Die Aufnahmen werden dazu genutzt diese bereits bestehende Stimme an die Stimme aus den Aufnahmen anzupassen und sie gleich klingen zu lassen. Die Eigenheiten der Stimme werden also übernommen. Mit der Möglichkeit eine eigene Stimme zu nutzen, ergeben sich für die Marke eines Unternehmens einige Vorteile. 

Vorteile einer Custom Neural Voice

  1. Zeit. Und Kostenersparnis: Voice-Anwendungen entwickeln sich stehts weiter. Ein Phonebot, der vorher nur Rückrufe vereinbaren konnte, wird zum Beispiel um die Funktion einer Terminvereinbarung erweitert. Für jeden neuen Dialogstrang braucht es im Normalfall neue eingesprochene Audiofiles. Dadurch ist man entsprechend weniger flexibel, was spontane Änderungen oder Erweiterungen angeht. Ganz zu schweigen, dass jedes Mal aufs Neue Kosten für die Sprecher*innen, das Tonstudio und die Aufbereitung der Audios anfallen. Mit einer eigenen Custom Neural Voice fallen diese Punkte weg und es bleibt lediglich das Konzipieren des Dialogs übrig. 
  2. Bessere Voice Persona: Ein ausschlaggebender Vorteil einer eigenen synthetischen Stimme ist, dass die Voice Persona um ein Vielfaches besser zu realisieren ist. Es geht hier um das Gefühl, das mit der Art und Weise, wie die Stimme spricht, vermittelt werden soll. Hierzu zählen nämlich auch Betonungsmuster, die man mit den richtigen Aufnahmen gezielt erstellen kann. Auch die Stimme selbst, wenn sie eine sehr beruhigende oder animierende Stimmlage hat, kann maßgeblich zu einer passenderen Voice Persona beitragen. Viel mehr, als es mit einer vorgefertigten Stimme möglich wäre. Warum eine Voice Persona so wichtig ist, haben wir in diesem Blogpost erklärt.  
  3. Neue Anwendungsgebiete: Es sind aber nicht nur kurze Äußerungen in einem Dialog denkbar. Es ist auch möglich, komplette Artikel oder Geschichten von der Stimme vorlesen zu lassen. Diese Nutzung ist auch und vor allem für Verlage, die beispielsweise ganze Hörbücher von der Stimme einsprechen lassen möchten, von Vorteil.  
  4. Mehrsprachigkeit: Der wohl größte Gewinn ist jedoch das Erstellen der Stimme in (zu diesem Zeitpunkt) 35 Sprachen und 50 verschiedenen Dialekten. Mit ein und demselben Datenset können all diese Sprachen erstellt werden. Ein erneutes Einsprechen in der späteren Zielsprache ist nicht nötig. Möchte ein Unternehmen mit seiner Brand Voice seine Kund*innen also in verschiedenen Ländern erreichen, ist es nicht mehr länger von der Mehrsprachigkeit der Sprecherin oder des Sprechers abhängig. 

Wie klingt die Custom Neural Voice?

Ein Punkt, der schon während der Aufnahmen beachtet werden muss, ist die Betonung. Denn letztendlich wird genau der Duktus übernommen, der auch während der Aufnahmen vorherrscht. Wenn alle Aufnahmen sehr euphorisch eingesprochen wurden, wird die neuronale Stimme ebenfalls sehr euphorisch sein. Wenn die Aufnahmen in einem Erzähl-Stil eingesprochen wurden, wird die neuronale Stimme diesen Stil ebenfalls haben.  

Wir haben uns bei Bens synthetischer Stimme für einen sehr neutralen Stil entschieden, um die Stimme in möglichst vielen Bereichen glaubwürdig als Assistenz-Stimme einsetzen zu können. 

Damit du dir das Ergebnis unserer Stimme einmal vorstellen kannst, sind hier zwei Beispieldateien zum Reinhören. Einmal der “echte” Ben mit einem Trainings-Audio und einmal unser darauf basierende “neuronale” Ben. Die Aufklärung, wer wer ist, gibt es im nächsten Absatz.

1.

2.

Custom Neural Voice: Ist das erlaubt?

Damit du die Auflösung nicht aus Versehen liest, gibt es erst einen kurzen Exkurs zum Thema verantwortlicher Umgang mit synthetischen Stimmen.  

Der Anbieter Microsoft hat zum Beispiel vor die Nutzung seines Services einen sogenannten application process, also einen Bewerbungsprozess, geschaltet. Darin muss man genau angeben, zu welchem Zweck man die Stimme nutzen möchte. Auch muss angegeben werden, wie man vor Kund*innen verdeutlichen möchte, dass es sich eben nicht um einen echten Menschen handelt, der mit einem spricht. Das soll sicherstellen, dass kein Unfug mit der Stimme getrieben wird. Mittels deep fake Technologien stellt es nämlich keine große Hürde mehr dar, eine real existierende Person digital zu imitieren. Kommt auch noch die Stimme, die über TTS vollkommen frei in der Wortwahl ist, dazu, wird es für Unwissende noch schwieriger diesen deep fake zu erkennen. 

Zusätzlich muss beispielsweise bei Microsoft der oder die Sprechende noch zusätzlich ein Audiofile hochladen, in dem er oder sie bestätigt, dass sie sich dessen bewusst ist, wozu die Aufnahmen dienen und die Stimme nachher genutzt werden soll. Wir erwarten hier noch einiges an Entwicklung, bis dieses Thema flächendeckend von allen Anbieter*innen in gleichem Maße abgedeckt wird.  

Ben im Tonstudio

Ben im Tonstudio zur Erstellung seiner Custom Neural Voice.

Jetzt aber zur Auflösung: 

Die erste Aufnahme wurde vom neuronalen Ben gesprochen, in der zweiten hörst du unseren echten Ben. 

 

Schutz vor Missbrauch der Custom Neural Voice

Der Bewerbungsprozess bei Microsoft muss für jeden einzelnen Use Case durchlaufen werden. Wenn ein und dieselbe Stimme also für einen Kundenservice und ein Hörbuch benutzt werden soll, muss man sich für jedes Nutzungsszenario neu bewerben. Dieser Prozess ist auch bei den Buy-Outs für die Sprecher*innen nützlich. Die Buy-Outs sind der vertraglich festgesetzte Preis, der den Sprecher*innen für die Nutzung der Aufnahmen gezahlt wird. Denn wenn vertraglich geregelt ist, dass die Stimme lediglich für einen bestimmten Use Case eingesetzt werden darf, zahlt man als Buy-Out auch nur für diese Nutzung. In den Formulierungen und Erweiterungen innerhalb dessen, ist man jedoch völlig frei.  

Mit den neuronalen Stimmen ist ein sehr spannendes Themenfeld eröffnet worden, das einige andere Themen nach sich zieht, wie beispielsweise “Wie viel kosten die Rechte an der eigenen Stimme?”. Wie sich die Preise für die Buy-outs der Sprecher*innen mit den aktuellen Möglichkeiten entwickeln werden, wird sich in naher Zukunft zeigen. 

 

Wir freuen uns über die neuen Möglichkeiten, die durch diese Technologie jetzt realisierbar sind und sind gespannt auf unser nächstes Custom Neural Voice Projekt! Vielleicht ja schon für deine Brand? Sprich uns gern an! 

Vanessa Smolik

Als eine Mischung aus Computer- und Psycholinguistin vereint Vanessa gleichermaßen das Verständnis für die Magie hinter automatischer Spracherkennung und dem sprachlichen Verhalten von Menschen.