Skip to main content

Die Stimmqualität ist ein phonetisches Merkmal, das mit großer Wahrscheinlichkeit jeder von uns schon mal in seiner eigenen Stimme manipuliert hat. Wir können dieses Stimmmerkmal von „normal“ in zwei Richtungen verändern – zur breathy voice oder zur creaky voice. Wie das funktioniert und ob Stimmqualität in Zukunft auch eine Rolle für Smart Speaker spielen wird, klären wir in diesem Blog-Artikel.

Definition breathy und creaky Voice

Die breathy voice ist eine behauchte Stimmlage. Sie klingt sehr luftig und seicht. Ein Beispiel hierfür ist der Anfang (“I want my MTV”) aus dem Lied “Money For Nothing” von Dires Straits oder der Anfang aus dem Lied “Thank u, next” von Ariana Grande. Die creaky voice hingegen klingt abgehackt und man hört ein regelmäßiges Knacken in der Stimme. Den Extremfall einer creaky voice nennt man vocal fry und ist bei Prominenten wie Kim Kardaschian oder der frühen Britney Spears zu beobachten. 

Was das Sprechen mit Flugzeugen gemeinsam hat

Es gibt viele verschiedene Arten wie wir unsere Stimme verändern können. Wir können lauter oder leiser, höher oder tiefer sprechen oder in einen Singsang verfallen. Die menschliche Stimme kann aber noch mehr. Wenn wir sprechen, haben wir die Möglichkeit mehr oder weniger Spannung auf unsere Stimmlippen (oder umgangssprachlich Stimmbänder) zu legen.

Die Stimmlippen sind der erste Punkt in unserem Stimmapparat, den die Luft aus unserer Lunge passiert, wenn wir sprechen. Dieser Punkt ist damit die erste Möglichkeit, die Luft in einer bestimmten Art und Weise zu manipulieren und in Form zu bringen.

Beim normalen Sprechen ziehen wir die Stimmlippen etwas auseinander, sodass die Luft zwischen ihnen durchströmen kann. Jedoch nicht zu viel, denn die Luft soll durch eine kleine Barriere hindurch, um die Stimmlippen in Schwingung zu versetzen. Die Vibration, die durch dieses Schwingen in der Luft entsteht, ist der Bernoulli Effekt (übrigens derselbe Effekt, der auch Flugzeuge zum Fliegen bringt). Dieser sorgt dafür, dass die Stimmlippen in Bewegung bleiben und sich immer wieder öffnen und schließen, obwohl der Luftstrom nur aus einer Richtung kommt. 

Wie weit wir unsere Stimmlippen auseinander ziehen, können wir selbst variieren. Ziehen wir sie etwas mehr zusammen, ist auch mehr Spannung auf ihnen. Dadurch wird es für die durchströmende Luft schwieriger hindurch zukommen. Es kommt dazu, dass sie auf einen Schlag aufgestoßen werden und im nächsten Moment zugeschlagen werden. Dieses Auf- und Zuschlagen hören wir als Knacken (creaky voice). Für eine breathy voice, also eine behauchte Stimme, lassen wir die Stimmlippen sehr locker. Sie sind etwas weiter geöffnet und die Luft kann sehr einfach hindurch strömen. Die Schwingungen der Stimmlippen sind dadurch sehr fließend. Das Schließen der Stimmlippen ist dadurch kaum zu hören und die Stimme hört sich sehr luftig an.  

Abbildung Stimmlippen

Quelle: https://journals.openedition.org/anglophonia/1952

Wie wirken breathy voice und creaky voice?

Ding, Hoffmann & Jokisch (2018) haben beobachtet, dass eine breathy voice, also eine behauchte Stimme, im Deutschen als angenehmere Stimme wahrgenommen wird als eine nicht-breathy voice. Gleichzeitig zeigten Tylecková, Prokopová & Skarnitzl (2017) für das Tschechische, dass eine breathy voice dazu führt, dass eine Person während eines Jobinterviews als weniger selbstbewusst wahrgenommen wird. Die Nutzung einer creaky voice hatte hingegen keine Auswirkung auf die Wahrnehmung des Selbstbewusstseins.

Wie es in der Sprache so häufig der Fall ist, kommt es also stark auf den Kontext an, wie eine bestimmte Art zu sprechen auf andere wirkt. Die Stimmqualität kann nicht nur Auswirkungen auf die Wirkung einer Person haben. In einigen Sprachen (Kuang, 2017) wird sie sogar für die Unterscheidung von Wörtern genutzt. Im Mandarin, einer Tonsprache, kann eine creaky voice als Indikator für einen tieferen Ton gewählt werden. Das Wort “shi” mit einer creaky voice ausgesprochen, bedeutet also etwas anderes als “shi” mit einer nicht veränderten Stimmqualität ausgesprochen. 

Was mit einer einstellbaren Stimmqualität für Smart Speaker möglich wäre

Es gibt bereits einige vielversprechende Ansätze eine synthetische Stimme in der Stimmqualität zu verändern (z.B. Mehta & Quatieri, 2005) und sie so entweder breathy oder creaky klingen zu lassen. Jedoch sind diese Ansätze noch nicht sehr weit fortgeschritten und stehen auf den Smart Speaker Plattformen Alexa und Google oder für Phonebots noch nicht zur Verfügung.

Wenn diese Anpassungsmöglichkeiten gegeben wären, würde ein nochmal breiteres Spektrum an menschlichem Sprachverhalten zur Verfügung stehen. Denn seine eigene Stimme in bestimmten Situationen bewusst zu verändern, ist nur menschlich. Dadurch würden Voice Personas noch realer erscheinen. Eine breathy voice wäre beispielsweise sehr gut für eine Anwendung geeignet, die ruhig und entspannt wirken soll. Ein erster Schritt in die grobe Richtung der Stimmqualität ist bereits mit dem Flüstermodus von Amazons Alexa getan. Flüstern wir Alexa nämlich etwas zu, kommt ihre Antwort zurückgeflüstert. Wir drücken die Daumen, dass bald noch mehr möglich sein wird. 

Du hast Interesse an einem eigenen Unternehmens-Skill für Deinen Smart Speaker oder an einem Phonebot für Deinen Kundenservice? Dann melde Dich bei uns. Gemeinsam finden wir für Dich die beste Lösung.

Vanessa Smolik

Als eine Mischung aus Computer- und Psycholinguistin vereint Vanessa gleichermaßen das Verständnis für die Magie hinter automatischer Spracherkennung und dem sprachlichen Verhalten von Menschen.