Skip to main content

Was macht ein*e Voice User Interface Designer*in? Voice User Interface (VUI)? Nie vorher gehört? Kein Problem. Was sie bei Future of Voice genau den ganzen Tag machen und welche Rolle dabei Voice Personas spielen, erzählen unsere VUI-Expertinnen Elisabeth und Vanessa im Interview.

Klärt uns bitte auf – VUI: Was ist das überhaupt?

ElisabethHinter diesem Laut (wir bei FOV sprechen es „vui“ statt „v. u. i.“ aus) verbirgt sich das Voice User Interface. Es ist im Prinzip das Pendant zum GUI, dem Graphical User Interface.   

Elisabeth Jürgens

Elisabeth Jürgens

Bei beiden handelt es sich um die Navigation durch Anwendungen. GUI wird beispielsweise auf Webseiten angewandt, um Nutzer*innen intuitiv zu den gewünschten Informationen zu führen, ohne dass sie überfordert werden. Also wo kann man ein Drop-Down Menü anbieten, um auf weitere Aspekte zu verweisen oder welche Reiter können genutzt werden, um die Webseite übersichtlich zu gestalten. Hierbei wird natürlich stark auf graphische Elemente gesetzt. Die Nutzer*innen sehen alle Optionen und können sie so auswählen. Die Informationen werden häufig in Stichpunkten gegeben, um kurz und übersichtlich zu bleiben.  

VUI ist eben das Pendant bei Sprachanwendungen. Hier fällt die optische Komponente natürlich meistens weg (die Ausnahme sind Sprachassistenten mit Bildschirmen). VUI muss also die Nutzer*innen ohne visuelle Unterstützung durch eine Anwendung navigieren lassen. Auch müssen die Informationen so beschrieben werden, dass sie klar verständlich, aber auch nicht zu lang formuliert sind. Gutes VUI muss zusätzlich darauf achten, dass die Nutzer*innen sich in der Benutzung nicht massiv eingeschränkt fühlen. Und sehr gutes VUI macht die Interaktion zu einem angenehmen oder auch je nach Use Case spaßigem Erlebnis, dass die Nutzer*innen gerne wiederholen.  

Klingt spannend und kompliziert zugleich …

VUI-Designerin Vanessa Smolik Portrait

Vanessa Smolik

Vanessa: Ja, ich habe mich schon daran gewöhnt den Begriff erklären zu müssen. Es geht hier um den Aufbau der Interaktion einer Sprachanwendung, also einem Dialog zwischen Mensch und Maschine.

Welche Möglichkeiten sollen Nutzer*innen haben, den Dialog in die eine oder die andere Richtung weiterzuführen und an eine gewünschte Information oder gewünschte Handlung zu kommen? Diese Fragen stellen wir uns im VUI Design.

Was macht ein*e Voice User Interface Designer*in?

Wie sieht das dann genau aus?

Vanessa: Im Vordergrund stehen erstmal die Funktionen einer Voice-Anwendung. Also eine konkrete Idee, was eine Anwendung tun soll. Aber das, was die Nutzer*innen dazu bringt, die Anwendung immer und immer wieder zu verwenden, ist das Gefühl, das durch die (in unserem Fall) Stimme oder Text vermittelt wird. Ein guter Vergleich sind vielleicht Lehrer*innen. Sie bringen uns ihr Wissen bei (das wäre die funktionale Komponente), doch manche haben einen besseren Stil ihr Wissen anderen beizubringen als andere. Diesen Lehrer*innen hören wir gerne zu und wir lernen viel. Bei den anderen hören wir zwar zu, aber das Lernen macht leider keinen Spaß und ist auch meistens anstrengender. Wenn wir uns also bei einer Sprachanwendung nur die Funktionen berücksichtigen würden, wäre die Anwendung ziemlich langweilig. Wir als VUI-Designer*innen konzipieren den Dialog zusammen mit der Sprechweise auf so eine Art, dass ein möglichst reales, unterhaltsames und zielführendes Gespräch mit den Nutzer*innen entsteht. Diese sollten das Gefühl bekommen, dass sie mit einer Stimme sprechen, die gerne auf all ihre möglichen Fragen eine Antwort findet. 

Ein Alexa Skill oder ein Phonebot für eine Terminbuchung sollte zum Beispiel mehrere Terminmöglichkeiten anbieten, anstatt nur einen Termin vorzuschlagen, auf den Nutzer*innen mit ja oder nein antworten können. Wenn wir uns aber in einem Skill für Podcasts befinden, ist es meistens nutzerfreundlicher, wenn wir nur einen Podcast mit näheren Informationen vorschlagen, anstatt mehrere auf einmal, was schnell dazu führen kann, dass Nutzer*innen sich nicht alles merken können. Was dann noch dazu kommen kann, ist die Art und Weise wie eine Stimme oder ein Text gestaltet wird. 

Wie seid ihr VUI-Designer*innen geworden? Kanntet ihr den Beruf vorher?

ElisabethIch habe nach meinem Linguistik-Studium nicht so richtig gewusst, was ich jetzt damit machen will/kann/möchte. Meine Befürchtung war es, etwas zu arbeiten was mit meinem Studium wenig zu tun hat. Ich habe dann aber über Kontakte von FOV erfahren und erstmal mit Malte, einem der Gründer, gesprochen, den ich schon lange kenne. Er hat mir erzählt, was FOV und VUI sind und ich war direkt Feuer und Flamme! Das Thema klang wahnsinnig spannend und hatte tatsächlich etwas mit Linguistik zu tun! Ich habe mich dann auf ein Praktikum beworben, wurde genommen und wir waren uns alle ziemlich schnell einig, dass ich hier sehr richtig aufgehoben bin. Aus dem Praktikum wurde also eine Vollzeitstelle. Ich bin jetzt seit September 2018 dabei und damit dienstälteste VUI-Designerin bei FOV.   

Vanessa: Um VUI-Designer*in zu werden, gibt es nicht die eine Ausbildung, die man gemacht haben muss, um in diesem Beruf zu landen. Es gibt durchaus verschiedene Wege. Doch ich habe genau wie Elisabeth Linguistik studiert. Ich habe aber meinen Schwerpunkt im Bachelor auf das spannende Gebiet der Psycho- und Neurolinguistik gelegt. Hier ging es vorrangig um die Fragen „Wie sind sprachliche Informationen in unserem Gehirn repräsentiert?“ oder „Was passiert, wenn wir in Folge eines Schlaganfalls keinen Zugang mehr zu einer bestimmten sprachlichen Region haben?“. Im Master habe ich meinen Schwerpunkt dann mehr auf die Computerlinguistik gelegt, also „Wie muss Sprache aufbereitet sein, damit ein Computer sie versteht?“. Für Voice User Interface Design schlussendlich eine gute Kombination, weil es das Verständnis der menschlichen Sprache mit dem Verständnis für die maschinelle Verarbeitung von Sprache abdeckt. 

Von dem Berufsbild habe ich erst per Zufall bei der Jobsuche erfahren. Es gibt immer mehr neuartige Jobbezeichnungen, da ist es für ein breit aufgestelltes Gebiet wie der Linguistik schwer, die richtige zu finden. Die größte Herausforderung dabei war die Suche nach den richtigen Schlagwörtern, die man bei Job-Suchmaschinen eingibt. Wenn ich „Computerlinguistik“ oder „Linguistik“ eingegeben habe, kamen, wenn ich Glück hatte, ein paar wenige Treffer, die aber nicht das waren, wonach ich suchte. Irgendwann (ich glaube ich habe „Dialogmanagement“ als Suchbegriff eingegeben), kam die Ausschreibung von Future of Voice. Die Arbeit klang sehr interessant. Dann hatte ich das erste Gespräch und nach ein paar weiteren war ich eine Woche später bereits eingestellt. Von der konkreten Berufsbezeichnung habe ich tatsächlich erst beim Bewerbungsgespräch für eine andere Stelle erfahren. Das Gebiet einer VUI-Designerin passte dann aber doch besser zu mir. 

Von der Voice Persona bis zum Livegang

Was macht ihr bei FOV im Detail?

Vanessa: Unser Arbeitsalltag kann sehr unterschiedlich sein. Es kommt immer darauf an, in welchem Stadium sich die Projekte, an denen wir beteiligt sind, befinden. Wenn sie ganz am Anfang stehen, gehen wir erstmal in die Konzeption und bereiten verschiedene Workshops für die Ideenfindung oder die konkrete Voice Persona für die Kund*innen vor. Danach beschäftigen wir uns natürlich mit der konkreten Umsetzung dieser Ideen auf den entsprechenden Plattformen. Wir erstellen ein Sprachmodell und definieren welche Formulierungen als welche Frage verstanden werden sollen. Je nach Plattform gibt es bei der Umsetzung unterschiedliche Variablen, die wir beachten müssen. Zum Schluss begleiten wir natürlich auch noch den Livegang und pflegen die Anwendungen. 

Elisabeth: Genau. Wir begleiten unsere Projekte vom Start bis zur Veröffentlichung und darüber hinaus. Das heißt, wenn Firmen auf uns zu kommen, um ein Projekt umzusetzen, wissen sie manchmal noch gar nicht, was genau sie machen wollen. Wichtig ist: Erst, wenn die Voice Persona steht, geht es in die Umsetzung. Je nach Projekt übernehmen wir auch das Projektmanagement. Wenn wir in der Umsetzung sind, schreiben wir Dialoge, setzen sie (meistens) in dem Dialogmanagement-Tool Parloa um, entwickeln und trainieren das Sprachmodell, passen die Aussprache an und testen die Dialoge. Wir konzipieren und führen Nutzungstests durch und arbeiten eng mit den Kund*innen zusammen, um das bestmögliche Voice-Erlebnis zu schaffen. Außerdem kümmern wir uns auch noch um verschiedene andere Dinge, die weniger mit VUI zu tun haben. Wir schreiben beispielsweise auch Artikel für unseren Blog.   

Wie „menschlich” sind Sprachanwendungen?

Was macht euch am meisten Spaß an eurem Beruf?

ElisabethIch habe in meiner Schulzeit viel Zeit auf Bühnen verbracht und neben meinem Studium im Theater gearbeitet. Das Studieren von Charakteren habe ich also schon früh erlernt. Jetzt entwickle ich mit den Voice Personas solche Charaktere und hauche ihnen Leben ein. Den richtigen Charakter für einen Use Case zu gestalten, die genauen Worte für eine Situation und eine entsprechende Persona zu finden, macht mir wahnsinnig viel Spaß!   

 Vanessa: Für mich ist es ganz klar die Abwechslung! Durch die verschiedenen Kund*innen mit ihren ganz eigenen Brand Personas und Zielgruppen und die unterschiedlichen Kanäle, muss man sich immer neu und unterschiedlich in die Projekte rein denken. Es ist auch sehr schön, wenn man sieht, dass eine Begeisterung für Voice bei den Kund*innen wächst. Außerdem bekommen wir durch unsere Arbeit neue Möglichkeiten im Bereich Voice direkt mit. Zum Beispiel wenn es ein neues Feature für eine Plattform gibt oder eine ganz neue Voice-Anwendung. 

Wo geht die Reise mit VUI noch hin? Was ist zukünftig vorstellbar?

Vanessa: Das ist schwer zu sagen, weil die Gebiete VUI und auch Linguistik noch relativ neu sind und sich gerade mehr und mehr in verschiedenen Bereichen etablieren. Die technischen Möglichkeiten die Stimmen von Google oder Alexa für eine bestimmte Betonung anzupassen, sind bereits da. Allerdings geht da noch mehr. Gerade im Bereich der Emotionen und den damit zusammenhängenden Sprachstilen gibt es viel Forschung. So kann Alexa beispielsweise auf dem amerikanischen Markt bereits mit verschiedenen Emotionen sprechen. Ich hoffe diese und weitere Funktionen die Stimme für seine Zwecke anzupassen, kommen bald auch auf den deutschsprachigen Markt. 

ElisabethIch glaub auch, dass die Erkennung von Emotionen einen sehr großen Einfluss darauf haben wird, wie wir Dialoge und Nutzungserfahrungen gestalten werden. Wenn wir direkt erkennen können, ob jemand wütend ist, können wir gezielt darauf reagieren und so in dem Moment keine zu fröhliche, und damit eventuell in der Situation als unangebracht wahrgenommene, Antwort geben. Bisher können wir das nur über Formulierungen abfangen, und die sind nicht immer eindeutig.  

Du hast Interesse an einem Alexa Skill oder einem Phonebot? Sprich uns gern an. Wir finden die perfekte Lösung für dich! 

Kim Gerecht

Kim ist zuständig für Content Marketing. Die gelernte Redakteurin kümmert sich um den Blog und die Social Media Kanäle bei Future of Voice.