Ironie und Smart Speaker: Kann Alexa Spaß verstehen?

Wie entsteht eigentlich Ironie und woran kann man sie stimmlich erkennen? Genau diesem Thema ist Vanessa Smolik in Ihrer Masterarbeit auf den Grund gegangen. Vanessa ist VUI-Designerin bei Future of Voice. Sie konzipiert und kreiert Anwendungen für sprachgesteuerte Dienste. Als studierte Computer- und Psycho-/Neurolinguistin ist sie Expertin für Sprache und erklärt im Interview, inwieweit Smart Speaker wie Alexa in der Lage sind – oder sein werden – , Ironie zu erkennen.

Vanessa, was ist Ironie?

Ironie entsteht, wenn wir bewusst etwas sagen, von dem wir wissen, dass es falsch ist. Unter diese Definition fallen auch Lügen. Was also eine ironische Äußerung von einer Lüge unterscheidet ist, dass wir bei der ironischen Äußerung möchten, dass unser Gegenüber weiß, dass wir etwas Falsches sagen. Deswegen müssen wir auf irgendeine Art und Weise markieren, dass wir gerade etwas sagen, von dem wir eigentlich das Gegenteil meinen. Eine Modalität, die wir für diese Markierung nutzen, ist unsere Stimme.

Was sind die Marker, um Ironie in deutscher Sprache zu erkennen?

Für eine eindeutige Antwort gibt es noch nicht genug Forschung auf diesem Gebiet. Doch es wurde nun in mehreren Studien, beispielsweise von Scharrer und Christmann eine gesenkte fundamental frequency (was wir als Tonhöhe wahrnehmen) für das Deutsche beobachtet. Auch die Äußerungsdauer spielt eine große Rolle. Ironische Äußerungen scheinen, ganz allgemein formuliert, langgezogener zu sein als wörtlich gemeinte, vor allem in Fokusvokalen. Außerdem scheinen ironische Äußerungen auch noch mit mehr Energie gesprochen zu werden. Niebuhr beobachtete weiter eine veränderte Stimmqualität in ironischen Äußerungen.

Neben unserer Stimme und Sprechweise gibt es noch andere Faktoren, die wir als Ironiemarker benutzen. Die größte Rolle spielt nämlich der Kontext. Wenn dieser nicht zum Gesagten passt, gibt uns das den zuverlässigsten Hinweis darauf, dass etwas ironisch gemeint ist. Außerdem gibt es noch Studien, die sich mit Gesichtsausdrücken beispielsweise dem Fixieren von Gegenständen beschäftigt haben. Hier kam heraus, dass wir zu einem gewissen Grad auch diese Marker in unsere Entscheidung, ob etwas ironisch gemeint ist, miteinbeziehen. Die stimmliche Markierung spielt bei all den Markern eine relativ kleine Rolle. Trotzdem nutzen wir den stimmlichen Aspekt für die Markierung von Ironie.

Ist die Art und Weise, wie Ironie markiert wird, sprachübergreifend?

Für einige Sprachen wurden konträre Strategien ironisch zu klingen beobachtet. Im Deutschen ist es die F0, kurz für fundamental frequency, was wir als Tonhöhe wahrnehmen, die runter geht. Wir sprechen also in ironischen Äußerungen etwas tiefer. Im Französischen hingegen wurde eine erhöhte F0 in ironischen Äußerungen beobachtet. Auch englische und kantonesische Muttersprachler*innen scheinen große Schwierigkeiten zu haben, die Ironie der jeweils anderen Sprache stimmlich herauszuhören.

Wo liegt das „Problem“, wenn wir den Kontext einer Äußerung nicht kennen?

Der zuverlässigste Indikator, um Ironie zu erkennen, ist der Kontext. Ist dieser gegeben, können wir meistens selbst unsere Schlüsse ziehen. Trotzdem markieren wir die Ironie auch stimmlich, um sicher zu gehen, dass unser Gegenüber uns auch wirklich versteht. Haben wir also keinen Kontext, fehlt uns der zuverlässigste Hinweis und wir haben nur noch die Art und Weise des Gesagten, um unsere Schlüsse zu ziehen.

In welchem Rahmen hast Du Dich mit dem Thema auseinandergesetzt?

Ich habe mich im Rahmen meiner Masterarbeit auf dieses Thema gestürzt. Ich hatte zuvor bereits in einer Hausarbeit versucht Ironie in Twitter-Daten zu klassifizieren, also in geschriebener Sprache. Da bezieht man sich unter anderem auf Merkmale wie Interpunktion. Nach dieser Hausarbeit dachte ich mir „Es muss doch zuverlässigere Merkmale geben. Vielleicht nicht in geschriebener Sprache, aber in gesprochener Sprache.”

Was wolltest Du herausfinden?

Ich wollte gleich mehrere Dinge herausfinden. Zum einen, welche Merkmale für eine ironische Aussprache verantwortlich sind. Basierend darauf, wollte ich herausfinden, ob ein Computerprogramm mit verschiedensten Merkmalen eine zuverlässigere Klassifikationsrate erreicht als die, die in der bisherigen Forschung erreicht wurde. Dieses Ergebnis sollte mit einer von Menschen gemachten Klassifikation verglichen werden, um zu sehen, ob der Computer bereits besser klassifizieren kann als Menschen.

Wie waren Deine Experimente aufgebaut?

Um authentische Daten zu bekommen, die ich im Nachhinein analysieren konnte, habe ich Versuchspersonen gebeten eine kurze Geschichte zu lesen und sich in diese hineinzuversetzen. Der letzte Satz dieser Geschichte sollte laut ausgesprochen werden – so, als ob man sich selbst in dieser Situation befinden würde. Für jede laut ausgesprochene Äußerung gab es eine Geschichte, die auf eine ironische Aussprache abzielte und eine, die auf eine wörtliche Aussprache abzielte. So konnte ich die Äußerungen direkt miteinander vergleichen. Das Ganze fand in einem Tonstudio statt, um eine gute Qualität der Audios sicherzustellen. An diesen Audioaufnahmen habe ich dann die verschiedensten Merkmale gemessen.

Emotionen wirken sich ebenfalls auf unsere Art zu sprechen aus. Um diesen Störfaktor gleich zu halten, bezogen sich meine Experimente lediglich auf ironisch gemeinte Kritik wie „Gut, dass Du mir Bescheid sagst.“ wenn eine Information von jemand anderem zu spät kommt.

Die extrahierten Merkmale habe ich verschiedenen Klassifikationen übergeben, um zu sehen, welche Klassifikationsmethode am besten für diese Daten geeignet ist. Es handelt sich immerhin um sehr feine Unterschiede.

Um zu sehen, wie gut Menschen Ironie nur anhand der stimmlichen Merkmale erkennen können, habe ich anschließend einer Gruppe von Versuchspersonen die isolierten Audiodateien vorgespielt und sie mussten entscheiden, ob es sich um eine ironische oder eine wörtlich gemeinte Äußerung handelt. Sie mussten also klassifizieren, ohne den Kontext des Gesagten zu kennen.

Zu welchen Ergebnissen bist Du gekommen?

Ich konnte eine gesenkte fundamental frequency in ironischen Äußerungen nachweisen. Auch die Äußerungsdauer war in ironischen Äußerungen länger als in wörtlich gemeinten. Die Energie, die für die ironischen Äußerungen aufgebracht wurde, war bei meinen Versuchspersonen durchschnittlich signifikant höher als bei wörtlichen Äußerungen. Außerdem habe ich für ironische Äußerungen eine signifikant gleichbleibendere Tonhöhe und Lautstärke als bei wörtlich gemeinten Äußerungen feststellen können.

Ein automatisierter Klassifikator, der auf maschine-learning basiert – genau genommen ein Random Forest Klassifikator – erreichte eine Rate von 72% beim Klassifizieren der beiden Klassen ironisch und wörtlich. Diese Rate ist zwei Prozent besser als die, die die Versuchspersonen aus dem zweiten Experiment erreicht haben.

Was bedeutet das genau?

Die geringfügig bessere Performance des Klassifikators gegenüber Menschen hat gezeigt, dass hier durchaus Potential besteht. Eine automatische Klassifikation von Ironie könnte beispielsweise pathologisch in dieser Hinsicht beeinträchtigten Personen helfen, Ironie besser zu verstehen und selbst zu lernen.

Was leitest Du daraus für den Umgang mit Smart Speakern ab?

Smart Speaker wie Alexa sollen möglichst menschlich klingen. Zum Menschlichen gehört auch das Verstehen von Ironie dazu. Deswegen würden sie noch menschlicher klingen, wenn sie erkennen würden, wann etwas ironisch gemeint ist. Wenn man vom Smart Speaker beispielsweise eine nicht passende Antwort auf eine Frage bekommt und man selbst mit „Na, das ist ja sehr hilfreich“ reagiert.

Wenn Nutzer*innen ihre Ironie für den Smart Speaker erkennbar stimmlich markiert haben, kann dieser die Ironie erkennen und weiß, dass er nach einer anderen Antwort suchen muss. Es wäre also keine erneute, umformulierte Aufforderung der Nutzer*innen nötig, um die gewünschte Information zu bekommen.

Das Ganze geht natürlich auch andersherum. Wenn das Wissen darüber, was eine ironische Aussprache ausmacht, vorhanden ist, können wir auch die Stimmen von Smart Speakern gezielt ironisch klingen lassen. Was man daraus macht, würde sich erst noch zeigen. Immerhin muss der Kontext auch so weit gegeben sein, dass der Mensch die Ironie des Smart Speakers verstehen würde.

Wenn Ihr über eine Sprachanwendung nachdenkt, sprecht uns gern an. Wir entwickeln für Euch den perfekten Skill.

About Kim Gerecht

Kim ist zuständig für Content Marketing. Die gelernte Redakteurin kümmert sich um den Blog und die Social Media Kanäle bei Future of Voice.