Skip to main content
ben

Lass Dir den Artikel von Bens synthetisierter Stimme vorlesen. Wie das funktioniert erfährst du hier.

OpenAIs Ende 2022 veröffentlichte künstliche Intelligenz ChatGPT ist nicht weniger als eine KI-Revolution und hat das Internet im Sturm erobert. Das zeigen alleine die nackten Zahlen. Schaut man sich an, in welchen Zeiträumen die Userzahlen für digitale “Produkte” in der Vergangenheit gestiegen sind, ist die Entwicklung der Nutzung von ChatGPT verblüffend: Brauchte Instagram bis zu 100.000.000 registrierten User:innen noch zweieinhalb Jahre, waren es bei TikTok hingegen nur neun Monate. OpenAI knackte die magische Marke in nur 60 Tagen. 

Die Berichterstattung rund um ChatGPT reißt nicht ab und das virale Wachstum wird von atemlosem Journalismus begleitet. Die sozialen Netzwerke sind geflutet von witzigen Unterhaltungen mit ChatGPT, neue Bibelverse werden generiert und die Berichterstattung beschäftigt sich eingehend mit der Frage, wann ChatGPT unsere Jobs obsolet werden lässt. In Bayern tritt ChatGPT gar zur Abiturprüfung an und nimmt in Gestalt von Roboter Pepper an Talkshows teil.

Die Nutzung von ChatGPT ist kinderleicht und der Zugang niederschwellig. Wie genau die Technologie funktioniert, spielt dabei für die allermeisten Personen jedoch gar keine Rolle.

Mit diesem Artikel wollen wir einen Blick auf die Funktionsweise von ChatGPT und seinen Vorgängern werfen und beleuchten, wohin sich die Technologie entwickeln wird. Denn um zu verstehen wo und wie so ein Large Language Model (LLM) sinnvoll eingesetzt werden kann, ist es hilfreich zunächst die Funktionsweise dahinter zu verstehen und auch mit den Unzulänglichkeiten der Technologie umgehen zu können. Denn eines ist klar: Gerade die Integration von GPT in Conversational AI Projekte birgt große Potentiale. 

Das Transformer-Modell: Die Ausgangsbasis für GPT

ChatGPT ist ein Sprachmodell, das auf Machine Learning Algorithmen basiert und auf die Verarbeitung von Texteingaben spezialisiert ist. Das Sprachmodell basiert auf dem sogenannten “Transformer-Modell”. Das Transformer-Modell wurde bereits 2017 von Google vorgestellt und bereits ein Jahr später veröffentlichte OpenAI eine darauf basierende Version des “Generative Pretrained Transformer”, den “GPT”. 

Der Clou dabei: Durch ein neues Paradigma, mit dem der Algorithmus seinen Input nicht mehr rein schrittweise verarbeiten muss, können um ein Vielfaches größere Datenmengen in sehr viel kürzerer Zeit und mit weniger Ressourcen trainiert werden. Die Daten stammen dabei aus diversen Quellen wie bspw. Wikipedia, dem Common Crawl Datensatz und digitalisierten Büchern. 

 Andere Firmen folgten der Entwicklung von GPT mit eigenen Produkten kurz darauf; so zum Beispiel Google selbst, deren Model BERT seit 2018 ebenso auf der Transformer-Architektur basiert. GPT und BERT zählen zu den sogenannten Large Language Models (LLMs) und bereits in dieser frühen Version war es beispielsweise möglich mit GPT Texte zu erkennen, zusammenzufassen, zu übersetzen und zu generieren – alles auf Grundlage von Wissen, das aus riesigen Datenquellen gewonnen wurde. Allerdings musste anschließend dafür das Modell aktiv mit weiteren, spezifischen Trainingsdaten für den jeweiligen Einsatzzweck angepasst werden, bevor es schließlich für den jeweiligen Zweck eingesetzt werden konnte. 

Weitere Meilensteine: GPT-2 und GPT-3

Das änderte sich mit der Veröffentlichung von GPT-2 im Jahr 2019. Mit GPT-2 gab es erstmals ein Modell, das nicht für den jeweiligen Einsatzzweck neu trainiert werden musste und unterschiedliche Aufgaben wie das Übersetzen von Texten und Beantworten von Fragen in guter Qualität lösen konnte. 

Mit dem Erscheinen von GPT-3 im Mai 2020 erschien eine weitere Iteration von GPT, die auf einem noch größeren Datensatz basiert und, verglichen mit seinem Vorgänger GPT-2, mit mehr als zehn mal so vielen Modellparametern und Trainingsdaten trainiert wurde. Erstmals war GPT damit in der Lage vollständige Texte zu liefern, die sich größtenteils kaum von menschlichen Antworten unterscheiden lassen. 

Ethische Implikationen

Schon mit Erscheinen des Papers zu GPT-3 diskutierten die Wissenschaftler vor ethischen Problemen bei GPT. So warnten sie zum Beispiel auch davor, dass GPT zum betrügerischen Schreiben von akademischen Aufsätzen missbraucht werden könne. Knapp drei Jahre später ist die Diskussion um die Nutzung von GPT in der Schule tatsächlich omnipräsent. 

Und genau wie sich auch in den Trainingsdaten für das Modell Vorurteile, Falschaussagen und Rassismus wiederfinden, so sind auch die Aussagen von GPT-3 nicht per se frei von kleinen Ausrutschern und groben Verfehlungen. Zeitweise musste OpenAI sogar handeln um die Nutzung von GPT zur Generierung von kinderpornografischen Inhalten zu unterbinden. Dieser Problematik begegnet OpenAI, indem sie eine Moderation-API zur Verfügung stellen, mit welcher erzeugte Inhalte gezielt automatisiert auf ihren Inhalt überprüft werden können. Integratioren des LLMs stehen damit seitdem ein einfaches Werkzeug zur Steuerung und Moderation der ausgegebenen Inhalte zur Verfügung. 

Wie funktioniert ChatGPT?

Um a priori sicherzustellen, dass die Antworten des Modells frei von ethischen Verfehlungen sind und nicht im Nachgang moderiert werden müssen, hat OpenAI, basierend auf GPT-3 (bzw. auf GPT-3.5, einer weiteren Iteration des LLMs) “ChatGPT” entwickelt. Neu ist hierbei, dass das Generieren von Falschaussagen und anderer fahrlässiger oder strafbarer Inhalte verhindert werden soll, indem das sogenannte Reinforcement Learning From Human Feedback (RLHF), ein Machine Learning Verfahren, angewendet wird. 

Für das RLHF werden zusätzliche Daten als Input für das Modell benötigt, die eine möglichst große Bandbreite an Antwortbeispielen beinhalten, die den Qualitäts- und Ethikstandards genügen. Zu diesem Zweck hat OpenAI 40 Personen (sogenannte Trainer) über Crowdsourcing-Plattformen wie Upwork zehntausende solcher Datensätze erstellen lassen. 

openai chatgpt training steps

Anwendung von Reinforcement-Learning für ChatGPT Quelle: https://openai.com/blog/chatgpt/

Diese Daten werden dann in einem ersten Schritt (Siehe Abbildung 1) für ein weiteres Training des Sprachmodells genutzt – das Sprachmodell wird somit feinjustiert. Darüber hinaus bewerten die Trainer im zweiten Schritt die Qualität der Antworten von ChatGPT. Diese Daten werden verwendet um ein neues, zweites Modell zu trainieren, welches anschließend selbstständig die Qualität von Texten einschätzen kann. 

Im dritten und letzten Schritt findet genau diese Einschätzung statt. Antworten des Modells werden automatisiert vom zweiten Modell überprüft und die Ergebnisse daraus fließen kontinuierlich in das bestehende GPT-Modell ein. Als Gesamtergebnis lernt ChatGPT somit auf Basis der manuell durch die Trainer erzeugten Daten das gewünschte Verhalten. 

Wie kann ich ChatGPT für Conversational AI Projekte einsetzen?

Derzeit steht ChatGPT nur über das Webinterface zum Ausprobieren bereit und das System ist aufgrund der hohen Nachfrage oft nur eingeschränkt verfügbar. Ebenso sind die Antwortlatenzen teilweise sehr hoch. Eine API-Schnittstelle, die für eine programmatische Anbindung an ein System benötigt wird, fehlt. OpenAI arbeitet bereits an einer Schnittstelle und interessierte Personen können sich in die Warteliste für den API-Zugang einschreiben. 

Über APIs konfigurier- und nutzbar sind jedoch die GPT-3.5 Modelle. Somit lassen sich verschiedene Basismodelle mit unterschiedlichen Ausprägungen hinsichtlich Qualität und geplantem Einsatzzweck auswählen und auf den gewünschten Use Case anpassen. 

Unabhängig davon, ob nun zunächst GPT-3.5 oder später ChatGPT integriert werden soll, müssen darüber hinaus verschiedene Dinge berücksichtigt werden – beispielsweise das Prompt Engineering. Mit Prompt Engineering ist gemeint, dass dem Modell die Aufgabenstellung explizit als Input mitgegeben wird. So kann man beispielweise darauf Einfluss nehmen in welcher Struktur die Antwort von GPT zu erwarten ist. 

Nehmen wir an, dass ein Voicebot zur Verfügung gestellt werden soll, der Informationen über Super Bowl Gewinnerteams ausgeben kann. Ein einfaches Beispiel für eine entsprechende Anfrage an ChatGPT im Hintergrund wäre “wer waren die letzten drei Super Bowl Gewinnerteams?”. 

Nutzung von GPT-3.5 mit einfachem Prompt Engineering

Nutzung von GPT-3.5 mit einfachem Prompt Engineering

Die Antwort von ChatGPT sollte man aus verschiedenen Gründen nicht per Voice App direkt an User durchreichen. So könnte das Ergebnis (siehe Abbildung 2) nicht sauber vorgelesen werden. Die Text-To-Speech (TTS) Komponente (Erläuterung in diesem Blogpost) würde beispielsweise über Dinge wie “(Super Bowl LIV, 2020)” in der Aussprache stolpern. 

Eine sehr vereinfachte Form des Prompt Engineerings wäre es, dem Modell explizit als Input mitzugeben, in welcher Struktur eine Antwort vom Modell erwartet wird: 

Nutzung von GPT-3.5 ohne Prompt Engineering

Nutzung von GPT-3.5 ohne Prompt Engineering

Die Vorteile liegen hierbei auf der Hand. Eine Formatierung der Antwort in ein standardisiertes Format erlaubt es, dass die Informationen für die weitere Nutzung in einem Voicebot nun strukturiert vorliegen, und somit im Dialogmanagementsystem besser verarbeitet werden können. Sollte die Antwort vorgelesen werden, so müsste der Prompt dafür im Dialogmanagementsystem selbst formuliert und die Daten verarbeitet werden. Der Implementierungsaufwand steigt dadurch, jedoch kann so jederzeit sichergestellt werden, dass der Bot mit verständlichen Texten antwortet und die Vertonung des Ergebnisses für den Voicebot mit TTS gelingt. 

Das genannte Beispiel ist nur ein kleiner Teilaspekt und OpenAI stellt bereits weitere Best Practices für Prompt Engineering zur Verfügung. Ein weiterer Aspekt, der im Zuge des Super Bowl Beispiels ins Auge fällt, sind veraltete Informationen, mit denen die Modelle trainiert wurden. Korrekterweise hätte das Modell mit den Gewinnerteams für 2020-2023 antworten müssen. Da das Modell einmalig mit Informationen trainiert wurde, fehlen schlicht Informationen über die Sieger der letzten Jahre. Als generischer F.A.Q-Bot taugt GPT daher nur sehr begrenzt. 

Ein allgemeiner Fragen-Antworten-Bot ist in der Kundenkommunikation für Unternehmen, die Conversational AI für sich einsetzen wollen, jedoch ohnehin kommerziell kaum relevant. Ein Schwerpunkt kann hier beispielsweise eher die automatisierte Beantwortung von unternehmens- oder Use-Case-spezifischen Fragen sein. 

Hierfür müssen, neben technischen Fragen zur Implementierung (beispielsweise das Anpassen des Modells mittels Unternehmensdaten mit Hilfe von Text Embeddings oder Model Fine-Tuning), auch legale Risiken hinsichtlich der DSGVO und der Verarbeitung von Kundendaten mit SaaS-LLMs berücksichtigt werden. Das gilt für andere Kanäle gleichermaßen – also beispielsweise für On-Site Chats oder Instant-Messenger wie WhatsApp. 

Darüber hinaus sind viele weitere Einsatzwecke, abseits der Implementierung von GPT in ein Produktivsystem, denkbar. Viele entfallen dabei auf den vorgelagerten Entwicklungsprozess und können Conversational User Interface Designer:innen und Entwickler:innen in ihrer Arbeit unterstützen. So kann GPT beispielsweise für das Intent-Training nützlich sein, oder in der Entwicklung von Beispielkonversationen und zur Inspiration genutzt werden. 

LLMs und GPT für Dein Projekt

Modelle wie GPT bergen enormes Potential für die Anwendung in Conversational AI Projekten, der Einsatz und die Integration muss jedoch wohlüberlegt und zielgerichtet erfolgen. Lass uns gemeinsam auf dein Projekt schauen und evaluieren, wie wir deine Kundenlösung auf das nächste Level heben. Beispielsweise gemeinsam in einer CAIDAF-Session. Zusammen finden wir für Dich die beste Lösung, melde Dich bei uns. 

Robin Rabe

Robin ist Director of Conversational AI bei Future of Voice. Schon früh entdeckte er seine Leidenschaft für Machine Learning und AI. Seine Spezialgebiete sind das Setup komplexer Systeme zur Sprachdialogautomation und Beratung zur Anwendung von Conversational AI.