Skip to main content
ben

Lass Dir den Artikel von Bens synthetisierter Stimme vorlesen. Wie das funktioniert erfährst du hier.

Einer der Haupt-Use-Cases von Smart Speakern ist das Abspielen von Musik oder Radiosendern. Außerdem werden oft Informationen von synthetisch generierten Stimmen abgefragt und ausgegeben. Wie gut sind Smart Speaker in Bezug auf die Tonqualität bei Musik oder der Sprachqualität? Klingen die Geräte eher nach einer Blechbüchse oder sind die Stimmen klar und deutlich zu verstehen? Welche Unterschiede es bei den Geräten gibt und worauf es ankommt, erklären wir in diesem Blogbeitrag.  

Ein Text von Vanessa Smolik und Daniel Mittendorf

Smart Speaker: Die Hardware

Seit die ersten Smart Speaker in Form der Amazon Alexa Echo Geräte 2014 in den USA erschienen sind, hat sich einiges getan. Aus den säulenartigen Echos oder Handteller großen Echo Dots und Google Home Minis sind andere, neuere Gerätegenerationen hervorgegangen. Während die Echos mittlerweile eine kugelartige Form haben und seit einigen Jahren mit Bildschirmen in verschiedenen Größen daherkommen, sind die Google Nest Produkte in drei Formaten erhältlich.  

Google Nest Produkte

Nest Mini“ als Puck, „Nest Audio“ als Säule und Nest Hub mit 10 Zoll Bildschirm – diese früher als Google Home vermarkteten Produkte gibt es mit dem Google Assistant. Der größere Nest Audio hat zudem ein Smart Sound“-Feature integriert, welches den Raum und den Klang darin vermisst und automatisch anpasst. Für den Nest Hub“ mit Bildschirm, gibt Google an, dass er 50 Prozent mehr Bass als der Vorgänger hat. 

Amazon Alexa Produkte

Die Produktpalette der Amazon Echo Geräte ist deutlich größer. Neben der Vorgänger-Generation (3. Generation) gibt es die kugelförmigen Echo Dot (4./5. Generation), die größeren Echo 4 und verschiedene aktuelle Geräte mit Bildschirm: Den Show 5 mit 5 Zoll Bildschirm, Show 8 mit 8 Zoll Bildschirm sowie den Echo Show 10, der mit einem rotierbaren 10 Zoll Bildschirm daherkommt sowie den Echo Show 15 der als 15 Zoll großes, TV-ähnliches Produkt auftritt 

Faustregel für besseren Klang

Bei den Smart Speaker Geräten hat sich eine Faustregel gezeigt: Je größer die Geräte, desto besser die verbauten Lautsprecher und umso besser der Klang. Für kleinere Räume wie Schlafzimmer, Kinderzimmer und Badezimmer reicht meist ein Nest Mini oder ein Echo Dot, um akzeptablen Klang zu haben. 

Für größere Räume, oder Räume, in denen sich mehrere Personen befinden, die eine größere Fläche und ein größeres Volumen haben, welches mit Musik beschallt werden soll, eignen sich die größeren Geräte wie Echo 4 oder Nest Audio. Soll es ein Gerät mit Bildschirm sein, dann gibt es bei Google nur den Nest Hub und bei Alexa am besten den Echo Show 10 (3. Generation). Wichtig hier: für guten Klang nicht den Echo Show 15 nehmen, den dieser bildet die Ausnahme der oben genannten Faustregel. Es handelt sich hierbei um eine Art kleinen Fernseher, bei dem zwei 41mm Lautsprecher verbaut sind. Stereo ist damit möglich. Aber es sind auch eben nur die Lautsprecher wie im Vorgänger zum Echo Dot 5, dem Dot 4. Der Ton reicht für kleinere Räume. 

Rein physikalisch ist es aber so, dass in größere Geräte auch größere und damit meist bessere, lautere und feinstufigere Lautsprecher von den Herstellern verbaut werden können. Während in einem Dot 5 ein 44 mm-Lautsprecher verbaut ist, kommt der größere Echo 4 mit einem 76,2 mm-Neodymium Woofer und einem 2 mm-Hochtonlautsprecher. Das alleine reicht schon für deutlich besseren Klang. 

Kompatibel mit gängigen Soundsystemen

Zudem können Echo Geräte zu einem Heimkino oder Stereo-Paar verbunden werden und über den Echo Studio mit einem eigenen Bass ergänzt werden, sodass ein 2.1 Audiopaar entsteht, was zu einer deutlich besseren Klangkulisse führt. Ohne die Verbindung als Stereo-Paar können die Echo Geräte ohne Bildschirm nur auf Mono heruntergemischten Stereo-Ton ausgeben. 

Personen, die sehr auf Klangqualität achten („audiophile“), können die Echo-Geräte mit ihrem bestehenden Sound- oder Heimkinosystem verbinden. Dies gelingt mittels einer Bluetooth-Verbindung oder eines AUX-Ausgangs (Analog, 3,5mm Klinken-Buchse), den die meisten Echo-Geräte haben.  

Bluetooth geht jedoch häufig mit Komprimierung einher und der AUX-Ausgang ist nur analog, also nicht verlustfrei. Optimal wäre ein digitaler Ausgang, doch diesen sucht man leider bisher vergeblich.  

Smart Speaker brauchen Platz

Zuletzt sollten wir noch den Aufstellort erwähnen. Setzt man einen Smart Speaker in die Ecke eines Raumes oder stellt das Gerät in einen Schrank, so kann sich nicht der volle Klang entfalten. Am besten ist es, du platzierst einen Smart Speaker so weit weg wir möglich von Wänden, Decken und stellst nichts davor oder darauf. Eine harte Unterlage ist ebenso wichtig – denn weiche Stoffe wie ein Teppich oder eine Tischdecke können den Klang „verschlucken“.  

Sprachassistenten: Die Software

Um eine gute Audioerfahrung zu schaffen, spielt aber auch die Stimme des Smart Speakers – also der integrierte Sprachassistent – eine Rolle. Denn selbst wenn das Gerät eine sehr hohe Audioqualität hat, kann die Stimme sehr roboterhaft klingen, wenn die dahinterstehende TTS (Text-To-Speech) nicht gut gemacht ist.  

Die Qualität der TTS kann von verschiedenen Faktoren abhängig sein, zum Beispiel von der Zusammensetzung selbst (wurden ganze Wörter eingesprochen oder basiert die TTS auf einzelnen Lauten) oder den Aufnahmebedingungen. Raumgeräusche während der Aufnahme, wie beispielsweise das Abklopfen von Kleidung, führt zu Störgeräuschen und mindert die Qualität. Doch auch Betonungsmuster und der eingesprochene Sprachstil spielen mit hinein.  

Denn eine sehr neutral gehaltene Stimme lässt eher einen roboterhaften Eindruck entstehen als eine Stimme, die in einem sehr aufgeweckten Tonfall spricht. Die Möglichkeit Betonung überhaupt einzusetzen und anzupassen sorgt ebenfalls für mehr Menschlichkeit.  

Verschiedene Sprachstile zur Auswahl

Je nach Zielsprache und TTS-Anbieter:in, sind nämlich unterschiedliche Sprachstile einstellbar. Für die englischsprachige Alexa kann man – Stand heute – zum Beispiel einen Nachrichtenstil oder “long-form” Stil einstellen. Dieser sorgt dafür, dass der Sprachstil auf den Inhalt von Nachrichten oder  längere Formate wie Podcasts oder Artikel angepasst ist.  

Doch auch, obwohl diese Betonungsmuster für das Deutsche noch nicht nutzbar sind, haben wir hier die Auswahl zwischen sehr guten und auch unterschiedlichen Stimmen. Mittlerweile haben die TTS-Stimmen (zumindest für das Deutsche) schon seit längerem eine so hohe Qualität erreicht, dass zu Anfang einer Konversation indirekt klargestellt werden sollte, dass es sich um einen digitalen Assistenten handelt und nicht um einen Menschen. Denn alleine an der Qualität der Stimme ist es nicht mehr herauszuhören.  

Möglichkeiten für Unternehmen

Wem die bisherigen TTSStimmen nicht zusagen, weil sie zum Beispiel nicht so gut zur eigenen Brand passen, der hat die Möglichkeit eine eigene Custom Neural Voice erstellen zu lassen. Hierzu spricht ein sogenanntes voice talent in unserem Fall war das unser CEO Benim Tonstudio einige Hundert Äußerungen ein, aus denen dann eine synthetisierte TTSStimme generiert wird. Auch hier ist die Qualität sehr hoch (überzeuge dich selbst, indem du dir diesen Artikel von der synthetisierten Stimme unseres CEOs Ben vorlesen lässt). 

Wie klingt deine Stimme? Let’s talk

Die Hardware ist das Potential, die Software ist das, was man daraus macht. Was die Endnutzenden zu Hause für ein Set-Up besitzen, wissen wir natürlich nicht – wir haben aber Einfluss auf die Stimme, die wir für die Dialoge verwenden. Über die Qualität der Stimme muss man sich bei der Erstellung eines Voice Bots daher keine Sorgen machen. Lediglich die Gedanken welche Stimme mit welchen Eigenheiten zur eigenen Brand oder dem Use Case passt, sollte man sich mit Sorgfalt machen. 

Du denkst über eine Sprachanwendung für dein Unternehmen nach? Wir beraten dich gern. 

Vanessa Smolik

Als eine Mischung aus Computer- und Psycholinguistin vereint Vanessa gleichermaßen das Verständnis für die Magie hinter automatischer Spracherkennung und dem sprachlichen Verhalten von Menschen.