Nachdem vor wenigen Wochen erstmals das Modell hinter ChatGPT, GPT-3.5-Turbo, öffentlich für die Nutzung über API zur Verfügung gestellt wurde, legt openAI jetzt, mit einer Preview des neusten Modells, GPT–4, nach. In diesem Artikel werfen wir einen Blick darauf, was ChatGPT–4 kann. Außerdem haben drei unserer Expert:innen ChatGPT–4 für euch getestet und teilen ihre Erfahrungen, die aus der Conversational AI Perspektive spannend sind.
Was ist ChatGPT-4 und was kann das Modell?
ChatGPT-4 ist ein Chatbot, der auf dem GPT-3.5-Modell von OpenAI basiert. ChatGPT-4 ist die nächste Generation der GPT-Modelle und bietet neue sowie verbesserte Funktionen:
Multimodales System: Im Gegensatz zu seinem Vorgänger, ChatGPT-3, kann ChatGPT-4 nicht nur Sprache erkennen und ausgeben, sondern auch Bilder verarbeiten und via Text auf diese reagieren.
Bessere Fehlererkennung und -korrektur: ChatGPT-4 kann Fehler in Eingaben besser erkennen und korrigieren. Es kann auch auf Rückmeldungen der Benutzer:innen reagieren und seine Antworten verbessern.
Zuverlässiger: Komplexe Anfragen und logische Schlussfolgerungen kann GPT-4 deutlich besser durchführen als seine Vorgänger. Es verspricht zudem bessere Fremdsprachen-Fähigkeiten. Außerdem sind die Antworten zuverlässiger, es besteht also eine geringere Chance, dass GPT-4 sich Dinge einfach ausdenkt.
Kritik an ChatGPT-4
Bei allem Jubel gibt es auch Kritik an dem neuen Modell:
- Das Modell ist nicht vollständig multimodal. So können zwar Bilder als Input verarbeitet werden, das Ergebnis ist jedoch weiterhin textbasiert.
- ChatGPT-4 hat wesentlich langsamere Reaktionszeiten und auch einen stark beschränkten Zugriff. Derzeit können User ChatGPT-4 nur nutzen, wenn sie das kostenpflichtige Abo “chatGPT Plus” abschließen. Darüber hinaus ist die Anzahl der Nachrichten, die verarbeitet werden können, derzeit stark limitiert (derzeit 25 Nachrichten in drei Stunden).
- Nachdem GPT-3.5-Turbo um ein Zehnfaches billiger angeboten wurde als seine Vorgänger, ist GPT-4 nun das teuerste Modell.
Was unsere Expert:innen dazu sagen
Unsere Conversational AI Expert:innen Marie Sindermann, Mirko Herbig und Robin Rabe haben sich ChatGPT-4 näher angeschaut und geben im Folgenden ihre ersten Eindrücke wieder:
Insgesamt ist die Veröffentlichung eines multimodalen GPT-Modells von openAI vor allem durch die nun weiter angefachte Konkurrenz mit Google interessant. Google hat ihren angekündigten Conversational AI Service „Bard“ weiterhin nur für einen (scheinbar kleinen) Kreis an Tester:innen freigegeben und sich in letzten Präsentationen stark auf die multimodale Suche („Multisearch“) fokussiert, die es erlaubt, eine Kombination von Text und Bild in der Google Suche einzusetzen. Damit hat Google sich von rein textbasierten Modellen (die zusätzlich durch ihre Trainingszeiträume auf teils veralteten Daten agieren) abgrenzen können – bis jetzt.
Für unsere Arbeit mit Voicebots hingegen ist die Multimodalität von Sprachmodellen auf den ersten Blick nicht von Relevanz, da wir am Telefon natürlich keine Bilder mitschicken können. GPT-4 bringt zwar auch bessere Fähigkeiten im logischen Denken mit und kann kreativere Antworten produzieren, für die meisten Anwendungsfälle wird dies aber wenig relevant sein, vor allem da die GPT-3.5 Modelle hier bereits sehr gute Ergebnisse erzielen und diese mit GPT-3.5-Turbo nun auch günstiger in der Benutzung sind.
Potenziale für Voice
Über Telefonieprojekte hinaus, setzen wir auch auf anderen Kanälen, wie beispielsweise On-Site Chat, Alexa und WhatsApp, Projekte mit Conversational AI um. Auf all diesen Kanälen sind Kund:innen es gewohnt, multimodal zu kommunizieren (und sei es nur durch Emojis) und zukünftig können sie dies dann möglicherweise auch im Gespräch mit unseren Bots.
Ein Aspekt an dem openAI dankbarer Weise stetig weiterarbeitet und der sich nicht nur in GPT-4, sondern auch den GPT-3.5-Turbo Modellen, die stetig stabilisiert und verbessert werden, wiederfindet, ist die Verbesserung der Ausrichtung der Modelle an menschlichen Werten. So ist GPT-4 bereits bis zu 20% akkurater als sein Vorgänger und lässt sich weniger leicht dazu hinreißen, Dinge zu erfinden und selbstbewusst von sich zu geben.
Sprachmodelle nicht einfach wild auf Kund:innen loszulassen, sondern ein gutes Verständnis von den nötigen und bestehenden Kontrollmechanismen zu haben, ist für uns als Agentur ein wichtiger Fokus.
Auf dieser Ebene kann GPT-4 tatsächlich zusätzlich glänzen, denn es gibt präzisere und gehaltvollere Antworten, was die Nutzung des Modells deutlich vereinfacht. Für die Zukunft lässt sich vermuten, dass auch durch die Multimodalität die Zugänglichkeit des Modells für Nutzende erhöht wird. Hier kommt den neusten GPT-Modellen auch eine Änderung im Format des Inputs zugute – sie können nun getrennt auf „System“ Inputs und „User“ Inputs trainiert werden, wobei die System Inputs eine gute Möglichkeit darstellen, dem Modell spezifische Anweisungen mitzugeben. Auch, dass das Modell so besser unterscheiden kann, was der Input und was der selbst erzeugte Text ist, wird zukünftig einen verbesserten zielgerichteten Einsatz dieser neuen Technologie ermöglichen.
Integration von ChatGPT-4
Eine Sache, die wir als Agentur ebenfalls nicht vergessen dürfen: Für den Einsatz von Large Language Modellen für unsere Kund:innen ist es wichtig, dass die Modelle per API verfügbar sind, da wir sie nur so stabil integrieren können. Die Vorschau von GPT-4 in der ChatGPT Webapp ist daher zwar interessant zu sehen und eine nette Spielerei, wir warten aber gespannter darauf auch Zugriff auf die API zu erhalten und hoffen, dass bald der multimodale Input weitläufig per API ermöglicht wird.
Zusammenfassend lässt sich also sagen, dass aktuell vor allem die Veröffentlichung von GPT-3.5-Turbo für uns interessant ist. GPT-4 läutet zwar technologisch eine neue Generation von Sprachmodellen ein, es befindet sich aber de facto noch in einem frühen Forschungsstadium und die bisherige Veröffentlichung stellt eine Vorschau der tatsächlichen und zukünftigen Funktionalitäten dar.
Wir halten es für wahrscheinlich, dass GPT-4 und GPT3.5-Turbo nebeneinander weiterexistieren werden und auf unterschiedliche Anwendungsgebiete spezialisiert werden. Es bleibt im Ermessen von Menschen, für welche Aufgaben die Antworten welches Modells am meisten Sinn ergeben.
Wir sind also gespannt, wie es in der Entwicklung von Sprachmodellen weitergeht und ob möglicherweise als Nächstes ein openAI Konkurrent uns mit seinen Weiterentwicklungen vom Hocker haut.
Darüber hinaus sind viele weitere Einsatzzwecke, abseits der Implementierung von GPT-4 in ein Produktivsystem, denkbar. Viele entfallen dabei auf den vorgelagerten Entwicklungsprozess und können Conversational User Interface Designer:innen und Entwickler:innen in ihrer Arbeit unterstützen. So zeigt sich die Weiterentwicklung in Form von ChatGPT-4 hier als besonders nützlich in der Unterstützung des Intent-Trainings und in der Entwicklung von Beispielkonversationen.
ChatGPT mit Future of Voice
Ihr seid neugierig und wollt ChatGPT in eure Conversational AI Projekte integrieren? Sprecht uns gern an! Gemeinsam entwickeln wir für euch die besten Bots.