{"id":1331,"date":"2023-06-06T16:36:00","date_gmt":"2023-06-06T16:36:00","guid":{"rendered":"http:\/\/34.240.245.214\/blog\/?p=1331"},"modified":"2025-09-30T11:24:19","modified_gmt":"2025-09-30T11:24:19","slug":"wie-chatgpt-funktioniert","status":"publish","type":"post","link":"https:\/\/dialogify.io\/de\/blog\/wie-chatgpt-funktioniert\/","title":{"rendered":"Wie ChatGPT funktioniert"},"content":{"rendered":"<h2>Was steckt hinter den Grundkonzepten von ChatGPT?<\/h2>\n<div>\n<div>\n<div>\n<div>\n<div>\n<div>\n<div>\n<div>\n<div>\n<div>\n<div>\n<div class=\"ff\">Von <a href=\"https:\/\/sausheong.com\/?source=post_page-----af2064fc1ec4--------------------------------\" rel=\"noopener ugc nofollow\" target=\"_blank\">Sau Sheong<\/a>, ver\u00f6ffentlicht auf <a href=\"https:\/\/sausheong.com\/how-chatgpt-works-af2064fc1ec4\" target=\"_blank\" rel=\"noopener\">Medium<\/a>.<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<p>Es gibt derzeit so viel Aufregung, Vorfreude und Angst bez\u00fcglich ChatGPT, aber kaum etwas, das erkl\u00e4rt, wie es funktioniert. Sicherlich gibt es viele technische Papiere und dergleichen, aber f\u00fcr den Durchschnittsb\u00fcrger k\u00f6nnen sie etwas abschreckend sein.<\/p>\n<p>Dieser Artikel zielt darauf ab, eine einfache Sichtweise darauf zu pr\u00e4sentieren, wie ChatGPT und verwandte KI-Technologien funktionieren, ohne zu sehr ins Detail zu gehen. Nat\u00fcrlich wird es Fachbegriffe geben, aber ich werde versuchen, sie auf verst\u00e4ndlichere Weise zu erkl\u00e4ren. Dies mag ein ehrgeiziges Ziel sein (wie man etwas erkl\u00e4rt, ohne es zu erkl\u00e4ren), aber ich werde mein Bestes geben.<\/p>\n<h2>Der ChatGPT-Algorithmus<\/h2>\n<p>Beginnen wir damit, zu erkl\u00e4ren, was ChatGPT ist und wie der ChatGPT-Algorithmus funktioniert.<\/p>\n<h3>ChatGPT<\/h3>\n<p>ChatGPT ist ein <em>Chatbot<\/em>, ein Computerprogramm, das Konversationen mit menschlichen Benutzern simulieren kann. Chatbots verwenden Natural Language Processing (NLP), um die Eingabe des Benutzers zu verstehen und eine relevante Antwort auf die Frage oder Anfrage des Benutzers zu generieren. NLP ist ein Bereich der KI, der sich mit der Interaktion zwischen Computern und menschlicher Sprache befasst.<\/p>\n<p>ChatGPT verwendet GPT (Generative Pre-trained Transformer), ein grosses Sprachmodell, das von OpenAI entwickelt wurde. Neben ChatGPT gibt es auch andere \u00e4hnliche Chatbots wie Bard von Google und Claude von Anthropic. Weitere bekannte Chatbots sind Siri von Apple, Alexa von Amazon und der Google Assistant.<\/p>\n<h3>Grosse Sprachmodelle<\/h3>\n<p><em>Gro\u00dfe Sprachmodelle<\/em> (LLMs) sind KI-Modelle, die menschliche Sprache erlernen und generieren k\u00f6nnen. LLMs sind ein wesentlicher Bestandteil von NLP. Einige der bekannten LLMs sind GPT von OpenAI, LaMDA (Language Model for Dialogue Applications) von Google und LLaMA (Large Language Model Meta AI) von Meta. Diese Modelle lernen aus einer grossen Menge an Textdaten und verwenden ihr Wissen, um neuen Text zu generieren oder zu verstehen.<\/p>\n<p>Die grundlegende Idee hinter LLMs besteht darin, das n\u00e4chste Wort in einer Sequenz vorherzusagen, basierend auf den zuvor verwendeten Worten.<\/p>\n<p>Zum Beispiel, wenn du diese Wortfolge hast:<\/p>\n<pre>A quick brown fox jumps over the lazy<\/pre>\n<p>Das LLM wird das n\u00e4chste Wort vorhersagen:<\/p>\n<pre>A quick brown fox jumps over the lazy <strong>dog<\/strong><\/pre>\n<p>Es verwendet dazu eine KI-Technik namens maschinelles Lernen.<\/p>\n<h3>Machine Learning<\/h3>\n<p><em>Machine Learning<\/em> ist eine Familie von KI-Algorithmen, bei denen grosse Datenmengen verarbeitet werden, um ein KI-Modell zu trainieren, das Entscheidungen trifft.<\/p>\n<p>Angenommen, du m\u00f6chtest einem Kind beibringen, wie ein Hund aussieht. Du k\u00f6nntest ihm viele Bilder von verschiedenen Hunden zeigen. Nachdem das Kind genug Bilder von Hunden gesehen hat, beginnt es zu verstehen, welche charakteristischen Merkmale Hunde tendenziell haben &#8211; sie haben vier Beine, einen Schwanz, k\u00f6nnen unterschiedliche Gr\u00f6ssen haben, aber ihre Gesichter haben \u00e4hnliche Strukturen und so weiter. Wenn das Kind einen Hund sieht, den es noch nie zuvor gesehen hat, kann es aufgrund der gelernten Muster erkennen, dass es sich um einen Hund handelt.<\/p>\n<figure class=\"mv mw mx my mz na ms mt paragraph-image\">\n<div class=\"nb nc ff nd bg ne\" tabindex=\"0\" role=\"button\">\n<div class=\"ms mt mu\"><picture><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/format:webp\/1*0nAc7hmsCVo6l2JN5I6cpA.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/format:webp\/1*0nAc7hmsCVo6l2JN5I6cpA.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/format:webp\/1*0nAc7hmsCVo6l2JN5I6cpA.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/format:webp\/1*0nAc7hmsCVo6l2JN5I6cpA.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/format:webp\/1*0nAc7hmsCVo6l2JN5I6cpA.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/format:webp\/1*0nAc7hmsCVo6l2JN5I6cpA.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/format:webp\/1*0nAc7hmsCVo6l2JN5I6cpA.png 1400w\" type=\"image\/webp\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" \/><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/1*0nAc7hmsCVo6l2JN5I6cpA.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/1*0nAc7hmsCVo6l2JN5I6cpA.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/1*0nAc7hmsCVo6l2JN5I6cpA.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/1*0nAc7hmsCVo6l2JN5I6cpA.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/1*0nAc7hmsCVo6l2JN5I6cpA.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/1*0nAc7hmsCVo6l2JN5I6cpA.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*0nAc7hmsCVo6l2JN5I6cpA.png 1400w\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" data-testid=\"og\" \/><img fetchpriority=\"high\" decoding=\"async\" class=\"bg nf ng c\" role=\"presentation\" src=\"https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*0nAc7hmsCVo6l2JN5I6cpA.png\" alt=\"\" width=\"700\" height=\"467\" \/><\/picture><\/div>\n<\/div>\n<\/figure>\n<p class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Maschinelles Lernen funktioniert auf \u00e4hnliche Weise. Angenommen, wir m\u00f6chten das n\u00e4chste Wort nach einer Wortsequenz vorhersagen. Wir geben dem Computer zun\u00e4chst eine grosse Menge an Textdaten. Das k\u00f6nnen B\u00fccher, Artikel, Websites oder alles M\u00f6gliche mit W\u00f6rtern sein. W\u00e4hrend des Trainings lernt das Modell die Sprachmuster. Dies wird als <em class=\"pt\">Trainingsdaten<\/em> bezeichnet. Es lernt, dass bestimmte W\u00f6rter oft zusammen auftreten (wie &#8222;braun&#8220; und &#8222;Fuchs&#8220;) und dass es Regeln in der Sprache gibt, denen wir normalerweise folgen (wie wir Adjektive in der Regel vor die von ihnen beschriebenen Nomen stellen). Schliesslich werden diese Muster zu einem <em class=\"pt\">Modell<\/em> &#8211; einer Reihe von gelernten Regeln, die es verwenden kann, um das n\u00e4chste Wort vorherzusagen.<\/p>\n<p class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Der grundlegende Baustein der im LLM verwendeten maschinellen Lernalgorithmen ist das neuronale Netzwerk.<\/p>\n<h3 class=\"pe oe gz be of pf pg dx oi ph pi dz ol nq pj pk pl nu pm pn po ny pp pq pr ps bj\">Neuronales Netzwerk<\/h3>\n<p class=\"pw-post-body-paragraph nh ni gz nj b ht oz nl nm hw pa no np nq pb ns nt nu pc nw nx ny pd oa ob oc gs bj\" data-selectable-paragraph=\"\">Ein <em class=\"pt\">neuronales Netzwerk<\/em> ist ein maschinelles Lernalgorithmus, der so funktioniert, wie wir glauben, dass das menschliche Gehirn arbeitet. Es besteht aus vielen kleinen Teilen, die Knoten oder Neuronen genannt werden und in <em class=\"pt\">Schichten<\/em> gruppiert sind, die zusammenarbeiten, um aus Daten zu lernen.<\/p>\n<figure class=\"mv mw mx my mz na ms mt paragraph-image\">\n<div class=\"nb nc ff nd bg ne\" tabindex=\"0\" role=\"button\">\n<div class=\"ms mt qf\"><picture><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/format:webp\/1*5KYzYHgVN9USabN_vs_uqg.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/format:webp\/1*5KYzYHgVN9USabN_vs_uqg.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/format:webp\/1*5KYzYHgVN9USabN_vs_uqg.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/format:webp\/1*5KYzYHgVN9USabN_vs_uqg.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/format:webp\/1*5KYzYHgVN9USabN_vs_uqg.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/format:webp\/1*5KYzYHgVN9USabN_vs_uqg.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/format:webp\/1*5KYzYHgVN9USabN_vs_uqg.png 1400w\" type=\"image\/webp\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" \/><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/1*5KYzYHgVN9USabN_vs_uqg.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/1*5KYzYHgVN9USabN_vs_uqg.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/1*5KYzYHgVN9USabN_vs_uqg.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/1*5KYzYHgVN9USabN_vs_uqg.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/1*5KYzYHgVN9USabN_vs_uqg.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/1*5KYzYHgVN9USabN_vs_uqg.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*5KYzYHgVN9USabN_vs_uqg.png 1400w\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" data-testid=\"og\" \/><img decoding=\"async\" class=\"bg nf ng c\" role=\"presentation\" src=\"https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*5KYzYHgVN9USabN_vs_uqg.png\" alt=\"\" width=\"700\" height=\"547\" \/><\/picture><\/div>\n<\/div>\n<\/figure>\n<p class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Die Lernphase eines neuronalen Netzwerks erfolgt w\u00e4hrend eines Prozesses namens <em class=\"pt\">Training<\/em>. Nehmen wir das vorherige Beispiel, so dass wir das n\u00e4chste Wort in einem Satz vorhersagen m\u00f6chten.<\/p>\n<p class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Zun\u00e4chst m\u00fcssen wir vor dem Training die Trainingsdaten in Sequenzen bestimmter L\u00e4ngen aufteilen, sagen wir 10 W\u00f6rter, um das n\u00e4chste Wort nach der Sequenz vorherzusagen.<\/p>\n<p class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Als n\u00e4chstes wandeln wir die W\u00f6rter in den Sequenzen in Vektoren um, im Wesentlichen eine Liste von Zahlen. Dieser Vorgang wird als <em class=\"pt\">Einbettung<\/em> bezeichnet, und die Vektoren werden manchmal als <em class=\"pt\">Einbettungen<\/em> oder <em class=\"pt\">Wortvektoren<\/em> bezeichnet. W\u00f6rter, die einander \u00e4hnlich sind, haben \u00e4hnliche Vektoren.<\/p>\n<p class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Um das neuronale Netzwerk zu trainieren, f\u00fcttern wir die Sequenzen von Einbettungen nacheinander ein. Nach jedem Wort aktualisiert das neuronale Netzwerk seinen internen Zustand, der aus Knoten besteht, die in Schichten gruppiert sind, je nachdem, was es gelernt hat. Wenn alle Einbettungen einer Sequenz in das neuronale Netzwerk eingespeist wurden, bitten wir es um eine Vorhersage.<\/p>\n<p class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Die vorhergesagte Einbettung wird mit der tats\u00e4chlichen Einbettung f\u00fcr das n\u00e4chste Wort in der Sequenz verglichen. Der Unterschied zwischen diesen Einbettungen ist der Vorhersagefehler, der verwendet wird, um den internen Zustand des neuronalen Netzwerks durch einen Prozess namens <em class=\"pt\">Backpropagation<\/em> anzupassen. Die Anpassungen erfolgen so, dass die vorhergesagte Einbettung der tats\u00e4chlichen Einbettung n\u00e4herkommt.<\/p>\n<p class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Dieser Prozess wiederholt sich, und das neuronale Netzwerk wird mit allen Trainingsdaten trainiert, bis es sehr gut darin ist, das n\u00e4chste Wort in einem Satz herauszufinden. Nach Abschluss des Trainings kann das Modell nun Vorhersagen treffen. Der Prozess, bei dem ein Modell zur Vorhersage aufgefordert wird, wird als <em class=\"pt\">Inferenz<\/em> bezeichnet.<\/p>\n<p class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Fr\u00fche neuronale Netzwerke hatten eine geringe Anzahl von Knoten und Schichten. Mit zunehmender Verf\u00fcgbarkeit von Trainingsdaten und der Entwicklung raffinierterer Methoden zur Organisation der Knoten wurde die Anzahl der Knoten und Schichten jedoch enorm, in Millionen und Milliarden. Ein weiterer Begriff f\u00fcr Algorithmen mit solch grossen neuronalen Netzwerken ist <em class=\"pt\">Deep Learning<\/em>. Das Wort <em class=\"pt\">Deep<\/em> in Deep Learning bezieht sich auf die Anzahl der Schichten in den versteckten Schichten.<\/p>\n<p class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Fr\u00fchere neuronale Netzwerk-Algorithmen wie rekurrente neuronale Netzwerke (RNN) und Long Short-Term Memory (LSTM)-Netzwerke wurden h\u00e4ufig in der nat\u00fcrlichen Sprachverarbeitung (NLP) verwendet, haben jedoch Stabilit\u00e4tsprobleme bei sehr langen Textsequenzen.<\/p>\n<p class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Im Jahr 2017 ver\u00f6ffentlichte Google ein Paper, in dem der Transformer, ein Typ neuronales Netzwerk, vorgestellt wurde, der die NLP enorm verbesserte und pl\u00f6tzlich alles ver\u00e4nderte.<\/p>\n<h3 id=\"a37a\" class=\"pe oe gz be of pf pg dx oi ph pi dz ol nq pj pk pl nu pm pn po ny pp pq pr ps bj\">Transformers<\/h3>\n<p id=\"d5dc\" class=\"pw-post-body-paragraph nh ni gz nj b ht oz nl nm hw pa no np nq pb ns nt nu pc nw nx ny pd oa ob oc gs bj\" data-selectable-paragraph=\"\">Angenommen, du unterh\u00e4ltst dich mit einer Gruppe von Freunden dar\u00fcber, einen Filmabend zu planen. Wenn einer deiner Freunde etwas sagt, verstehst du seine Worte nicht nur aufgrund dessen, was er gerade gesagt hat, sondern du ber\u00fccksichtigst die gesamte Unterhaltung \u2014 \u00fcber welchen Film ihr gesprochen habt, wer wann verf\u00fcgbar ist, welche Snacks ihr plant zu besorgen und so weiter. Transformers tun etwas \u00c4hnliches, insbesondere wenn es um Sprache geht.<\/p>\n<figure class=\"mv mw mx my mz na ms mt paragraph-image\">\n<div class=\"nb nc ff nd bg ne\" tabindex=\"0\" role=\"button\">\n<div class=\"ms mt mu\"><picture><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/format:webp\/1*qbL4C6aaeNSFUB_tLM8VZA.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/format:webp\/1*qbL4C6aaeNSFUB_tLM8VZA.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/format:webp\/1*qbL4C6aaeNSFUB_tLM8VZA.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/format:webp\/1*qbL4C6aaeNSFUB_tLM8VZA.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/format:webp\/1*qbL4C6aaeNSFUB_tLM8VZA.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/format:webp\/1*qbL4C6aaeNSFUB_tLM8VZA.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/format:webp\/1*qbL4C6aaeNSFUB_tLM8VZA.png 1400w\" type=\"image\/webp\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" \/><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/1*qbL4C6aaeNSFUB_tLM8VZA.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/1*qbL4C6aaeNSFUB_tLM8VZA.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/1*qbL4C6aaeNSFUB_tLM8VZA.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/1*qbL4C6aaeNSFUB_tLM8VZA.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/1*qbL4C6aaeNSFUB_tLM8VZA.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/1*qbL4C6aaeNSFUB_tLM8VZA.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*qbL4C6aaeNSFUB_tLM8VZA.png 1400w\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" data-testid=\"og\" \/><img decoding=\"async\" class=\"bg nf ng c\" role=\"presentation\" src=\"https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*qbL4C6aaeNSFUB_tLM8VZA.png\" alt=\"\" width=\"700\" height=\"467\" \/><\/picture><\/div>\n<\/div>\n<\/figure>\n<p id=\"0006\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Ein <em class=\"pt\">Transformer<\/em> ist eine Art von neuronalem Netzwerkalgorithmus, der besonders gut mit Kontext in Daten umgehen kann. Er beschr\u00e4nkt sich nicht darauf, nur das aktuell verarbeitete Datenst\u00fcck (wie ein Wort in einem Satz) und das unmittelbar vorherige Datenst\u00fcck zu betrachten. Stattdessen kann er alle Datenpunkte (alle W\u00f6rter im Satz) ber\u00fccksichtigen, herausfinden, welche f\u00fcr den aktuellen Datenpunkt (das Wort) am relevantesten sind, und diese nutzen, um den aktuellen Datenpunkt besser zu verstehen.<\/p>\n<p id=\"cae7\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Lass uns einen Satz als Beispiel nehmen:<\/p>\n<pre class=\"mv mw mx my mz pu pv pw bo px py pz\"><span id=\"e35c\" class=\"qa oe gz pv b bf qb qc l qd qe\" data-selectable-paragraph=\"\">Obwohl ich bereits zu Abend gegessen habe, habe ich immer noch Hunger.<\/span><\/pre>\n<p id=\"c799\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Wenn ein Transformer das Wort <code class=\"cw qg qh qi pv b\">Hunger<\/code> verstehen m\u00f6chte, betrachtet er nicht nur die unmittelbar vorhergehenden W\u00f6rter wie <code class=\"cw qg qh qi pv b\">habe ich immer noch<\/code>. Er ber\u00fccksichtigt auch <code class=\"cw qg qh qi pv b\">zu Abend gegessen<\/code> aus fr\u00fcheren Teilen des Satzes, da es relevant ist, um zu verstehen, warum jemand <code class=\"cw qg qh qi pv b\">Hunger<\/code> haben k\u00f6nnte.<\/p>\n<p id=\"c74b\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Diese F\u00e4higkeit stammt von dem <em class=\"pt\">Aufmerksamkeitsmechanismus<\/em>, den Transformers verwenden. Dieser erm\u00f6glicht es ihnen, aufgrund ihrer Relevanz verschiedene Teile der Eingabedaten zu beachten. Das macht Transformers hervorragend f\u00fcr Aufgaben wie maschinelle \u00dcbersetzung und Textgenerierung, bei denen das vollst\u00e4ndige Verst\u00e4ndnis des Kontexts der Eingabedaten entscheidend ist.<\/p>\n<p id=\"77bb\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Alle k\u00fcrzlich erstellten LLMs, einschliesslich GPT, basieren auf Transformers.<\/p>\n<h3 id=\"9e75\" class=\"pe oe gz be of pf pg dx oi ph pi dz ol nq pj pk pl nu pm pn po ny pp pq pr ps bj\">Tokens<\/h3>\n<p id=\"94f4\" class=\"pw-post-body-paragraph nh ni gz nj b ht oz nl nm hw pa no np nq pb ns nt nu pc nw nx ny pd oa ob oc gs bj\" data-selectable-paragraph=\"\">Wir haben \u00fcber W\u00f6rter in einem Satz f\u00fcr das Training oder die Inferenz gesprochen, aber tats\u00e4chlich arbeiten LLMs nicht mit W\u00f6rtern. Stattdessen verwenden sie <em class=\"pt\">Tokens<\/em>.<\/p>\n<p id=\"2839\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Ein <em class=\"pt\">Token<\/em> ist ein Textabschnitt. H\u00e4ufige und kurze W\u00f6rter entsprechen in der Regel einem einzelnen Token. Lange und seltener verwendete W\u00f6rter werden in der Regel in mehrere Tokens aufgeteilt. Du kannst direkt OpenAI-<a class=\"af qj\" href=\"https:\/\/platform.openai.com\/tokenizer\" target=\"_blank\" rel=\"noopener ugc nofollow\">Tokenizer<\/a> deinen Text eingeben und sehen, wie er in Tokens aufgeteilt wird.<\/p>\n<figure class=\"mv mw mx my mz na ms mt paragraph-image\">\n<div class=\"nb nc ff nd bg ne\" tabindex=\"0\" role=\"button\">\n<div class=\"ms mt qk\"><picture><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/format:webp\/1*6sKUQmod9hvs0RSmq7faVQ.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/format:webp\/1*6sKUQmod9hvs0RSmq7faVQ.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/format:webp\/1*6sKUQmod9hvs0RSmq7faVQ.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/format:webp\/1*6sKUQmod9hvs0RSmq7faVQ.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/format:webp\/1*6sKUQmod9hvs0RSmq7faVQ.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/format:webp\/1*6sKUQmod9hvs0RSmq7faVQ.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/format:webp\/1*6sKUQmod9hvs0RSmq7faVQ.png 1400w\" type=\"image\/webp\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" \/><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/1*6sKUQmod9hvs0RSmq7faVQ.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/1*6sKUQmod9hvs0RSmq7faVQ.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/1*6sKUQmod9hvs0RSmq7faVQ.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/1*6sKUQmod9hvs0RSmq7faVQ.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/1*6sKUQmod9hvs0RSmq7faVQ.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/1*6sKUQmod9hvs0RSmq7faVQ.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*6sKUQmod9hvs0RSmq7faVQ.png 1400w\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" data-testid=\"og\" \/><img loading=\"lazy\" decoding=\"async\" class=\"bg nf ng c\" role=\"presentation\" src=\"https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*6sKUQmod9hvs0RSmq7faVQ.png\" alt=\"\" width=\"700\" height=\"561\" \/><\/picture><\/div>\n<\/div>\n<\/figure>\n<p id=\"4e9d\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Du fragst dich vielleicht, warum die W\u00f6rter auf diese Weise tokenisiert werden.<\/p>\n<p id=\"e4b8\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Angenommen, wir verwenden jeden Buchstaben als Token. Dadurch wird der Text in Tokens aufgeteilt und die Gesamtzahl der verschiedenen Tokens klein gehalten. Allerdings k\u00f6nnen wir nicht ann\u00e4hernd so viele Informationen codieren. Im obigen Beispiel k\u00f6nnen 8 Tokens nur <code class=\"cw qg qh qi pv b\">ChatGPT<\/code> codieren, w\u00e4hrend 8 OpenAI-Tokens den ganzen Satz codieren k\u00f6nnen. Aktuelle LLMs haben eine Begrenzung f\u00fcr die maximale Anzahl von Tokens, die sie verarbeiten k\u00f6nnen, daher m\u00f6chten wir so viele Informationen wie m\u00f6glich in jedem Token packen.<\/p>\n<p id=\"0282\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Was ist, wenn jedes Wort ein Token ist? Im Vergleich zum Ansatz von OpenAI w\u00fcrden wir nur 5 Tokens ben\u00f6tigen, um denselben Satz darzustellen, was effizienter ist. Allerdings m\u00fcssen LLMs eine vollst\u00e4ndige Liste der Tokens haben, auf die sie stossen k\u00f6nnten, und diese Methode kann nicht mit erfundenen W\u00f6rtern (sehr h\u00e4ufig in der Fiktion) oder fachspezifischen W\u00f6rtern (sehr h\u00e4ufig in technischen Dokumenten) umgehen.<\/p>\n<h2 id=\"89be\" class=\"od oe gz be of og oh hv oi oj ok hy ol om on oo op oq or os ot ou ov ow ox oy bj\">Training von ChatGPT<\/h2>\n<p id=\"0927\" class=\"pw-post-body-paragraph nh ni gz nj b ht oz nl nm hw pa no np nq pb ns nt nu pc nw nx ny pd oa ob oc gs bj\" data-selectable-paragraph=\"\">Nun, da wir den ChatGPT-Algorithmus verstehen, wollen wir verstehen, wie er trainiert wurde. Fangen wir mit einigen Grundlagen des \u00fcberwachten und un\u00fcberwachten Lernens an.<\/p>\n<figure class=\"mv mw mx my mz na ms mt paragraph-image\">\n<div class=\"nb nc ff nd bg ne\" tabindex=\"0\" role=\"button\">\n<div class=\"ms mt mu\"><picture><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/format:webp\/1*jHTsOOBknK_mB58eJgCUtw.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/format:webp\/1*jHTsOOBknK_mB58eJgCUtw.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/format:webp\/1*jHTsOOBknK_mB58eJgCUtw.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/format:webp\/1*jHTsOOBknK_mB58eJgCUtw.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/format:webp\/1*jHTsOOBknK_mB58eJgCUtw.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/format:webp\/1*jHTsOOBknK_mB58eJgCUtw.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/format:webp\/1*jHTsOOBknK_mB58eJgCUtw.png 1400w\" type=\"image\/webp\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" \/><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/1*jHTsOOBknK_mB58eJgCUtw.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/1*jHTsOOBknK_mB58eJgCUtw.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/1*jHTsOOBknK_mB58eJgCUtw.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/1*jHTsOOBknK_mB58eJgCUtw.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/1*jHTsOOBknK_mB58eJgCUtw.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/1*jHTsOOBknK_mB58eJgCUtw.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*jHTsOOBknK_mB58eJgCUtw.png 1400w\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" data-testid=\"og\" \/><img loading=\"lazy\" decoding=\"async\" class=\"bg nf ng c\" role=\"presentation\" src=\"https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*jHTsOOBknK_mB58eJgCUtw.png\" alt=\"\" width=\"700\" height=\"467\" \/><\/picture><\/div>\n<\/div>\n<\/figure>\n<p id=\"3377\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Beim <em class=\"pt\">\u00fcberwachten Lernen<\/em> handelt es sich um eine Art des maschinellen Lernens, bei dem wir dem Modell Eingabedaten und die richtigen Ausgaben zur Verf\u00fcgung stellen. Angenommen, du m\u00f6chtest ein Modell trainieren, um Nachrichtenartikel in verschiedene Kategorien wie Wirtschaft, Sport oder Unterhaltung zu klassifizieren. Du w\u00fcrdest damit beginnen, einen Datensatz mit gekennzeichneten Nachrichtenartikeln zu sammeln. F\u00fcr jeden Artikel w\u00fcrdest du ihn manuell mit der entsprechenden Kategorie kennzeichnen. Sobald du den Datensatz hast, kannst du ihn verwenden, um das Modell zu trainieren.<\/p>\n<p id=\"ee37\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Beim <em class=\"pt\">un\u00fcberwachten Lernen<\/em> hingegen geht es um unlabeled Daten. Dem Modell werden Eingaben gegeben, aber es gibt keine expliziten korrekten Ausgaben. Das Modell muss selbstst\u00e4ndig Strukturen in den Eingaben finden. Ein Beispiel hierf\u00fcr ist das Clustering, bei dem das Modell \u00e4hnliche Daten gruppiert.<\/p>\n<p id=\"ffd2\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Vor GPT wurden die meisten NLP-Modelle mit \u00fcberwachtem Lernen f\u00fcr spezifische Zwecke wie Textklassifikation oder Sentimentanalyse trainiert. Das Problem dabei ist, dass es schwierig ist, grosse Mengen an gekennzeichneten Daten zu finden. Ausserdem sind diese Modelle sehr spezialisiert und k\u00f6nnen nur f\u00fcr den Zweck verwendet werden, f\u00fcr den sie trainiert wurden.<\/p>\n<p id=\"de8f\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">GPT wird jedoch zun\u00e4chst mit un\u00fcberwachtem Lernen auf unlabeled Daten vortrainiert und dann mit \u00fcberwachtem Lernen f\u00fcr spezifische Aufgaben feinabgestimmt.<\/p>\n<h3 id=\"ebd1\" class=\"pe oe gz be of pf pg dx oi ph pi dz ol nq pj pk pl nu pm pn po ny pp pq pr ps bj\">Feinabstimmung<\/h3>\n<p id=\"7c9e\" class=\"pw-post-body-paragraph nh ni gz nj b ht oz nl nm hw pa no np nq pb ns nt nu pc nw nx ny pd oa ob oc gs bj\" data-selectable-paragraph=\"\">Im maschinellen Lernen gibt es das Konzept des Transferlernens. Die Idee besteht darin, ein Modell, das f\u00fcr eine Aufgabe trainiert wurde, als Ausgangspunkt f\u00fcr eine verwandte Aufgabe zu verwenden. Dies ist sehr n\u00fctzlich, da das Training dieser Modelle von Grund auf viel Daten und Rechenressourcen erfordern kann.<\/p>\n<p id=\"16a2\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\"><em class=\"pt\">Feinabstimmung<\/em> ist eine spezifische Art des Transferlernens. Im Zusammenhang mit GPT bedeutet Feinabstimmung, dass das Modell, das bereits auf einer gro\u00dfen Menge von Textdaten trainiert wurde (die Vortrainierungsphase), anschlie\u00dfend auf eine spezifischere Aufgabe weiter trainiert wird.<\/p>\n<p id=\"2fbe\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Nehmen wir als Beispiel an, du hast ein GPT-Modell, das auf einer grossen Menge an Internettext vortrainiert wurde. Nun m\u00f6chtest du einen Chatbot erstellen, der Ratschl\u00e4ge zur gesunden Ern\u00e4hrung gibt. Das GPT-Modell hat w\u00e4hrend des Vortrainings viel \u00fcber Sprache gelernt, ist jedoch m\u00f6glicherweise nicht sehr gut darin, spezifische Ratschl\u00e4ge zur Ern\u00e4hrung zu geben.<\/p>\n<p id=\"5984\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Daher sammelst du einen Datensatz von Unterhaltungen, in denen Menschen gute Ratschl\u00e4ge zur gesunden Ern\u00e4hrung geben. Anschliessend nimmst du dein vortrainiertes GPT-Modell und stimmst es mit diesem neuen Datensatz ab. Das Modell hat nun aus deinen spezifischen Unterhaltungen \u00fcber Ern\u00e4hrungsratschl\u00e4ge gelernt und seine Parameter leicht angepasst, um in dieser Aufgabe besser zu werden.<\/p>\n<p id=\"f4d7\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Im Wesentlichen erm\u00f6glicht uns die Feinabstimmung, ein allgemeines Modell f\u00fcr spezifische Aufgaben anzupassen, sodass es f\u00fcr unterschiedliche Zwecke n\u00fctzlicher und effizienter wird. Der Vorteil besteht darin, dass wir kein komplexes Modell wie GPT von Grund auf trainieren m\u00fcssen, was erhebliche Zeit-, Daten- und Rechenressourcen sparen kann.<\/p>\n<p id=\"dafc\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Au\u00dferdem stellte sich heraus, dass GPT-Modelle, die nur vortrainiert und nicht feinabgestimmt wurden, f\u00fcr sich genommen recht leistungsf\u00e4hig sind. Modelle, die trainiert, aber nicht feinabgestimmt werden, werden als <em class=\"pt\">foundation models<\/em> bezeichnet.<\/p>\n<h3 id=\"ed9e\" class=\"pe oe gz be of pf pg dx oi ph pi dz ol nq pj pk pl nu pm pn po ny pp pq pr ps bj\">Verschiedene Typen von Modellen<\/h3>\n<p id=\"c1e4\" class=\"pw-post-body-paragraph nh ni gz nj b ht oz nl nm hw pa no np nq pb ns nt nu pc nw nx ny pd oa ob oc gs bj\" data-selectable-paragraph=\"\">Modelle k\u00f6nnen f\u00fcr verschiedene Aufgaben trainiert werden (oder Foundation-Modelle k\u00f6nnen feinabgestimmt werden). Wenn du zum Beispiel ein <em class=\"pt\">Completion<\/em>-Modell verwendest, k\u00f6nntest du ihm einen solchen Prompt geben:<\/p>\n<pre class=\"mv mw mx my mz pu pv pw bo px py pz\"><span id=\"5eb0\" class=\"qa oe gz pv b bf qb qc l qd qe\" data-selectable-paragraph=\"\">Es war einmal, in einem weit entfernten K\u00f6nigreich<\/span><\/pre>\n<p id=\"ceea\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Das Modell nimmt diesen Prompt und generiert den Rest des Textes wie folgt:<\/p>\n<pre class=\"mv mw mx my mz pu pv pw bo px py pz\"><span id=\"ff5d\" class=\"qa oe gz pv b bf qb qc l qd qe\" data-selectable-paragraph=\"\">Es war einmal, in einem weit entfernten K\u00f6nigreich<strong class=\"pv ha\">, ein tapferer Ritter und ein furchteinfl\u00f6\u00dfender Drache<\/strong>.<\/span><\/pre>\n<p id=\"94b9\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Die meisten Sprachmodelle sind minimale Completion-Modelle.<\/p>\n<p id=\"eb53\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Ein <em class=\"pt\">konversationales<\/em> Modell (wie ChatGPT) wird mit konversationellen Daten trainiert, wie zum Beispiel Dialoge aus B\u00fcchern, Drehb\u00fcchern oder Transkriptionen gesprochener Unterhaltungen. Dadurch lernt das Modell die hin- und hergehende Natur von Unterhaltungen zu verstehen, einschliesslich der Beziehung zwischen Antworten und vorherigen Nachrichten.<\/p>\n<p id=\"1051\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Ein <em class=\"pt\">Anweisungs<\/em>-Modell (wie InstructGPT) wird darauf trainiert, menschliche Anweisungen zu verstehen und darauf zu reagieren. Dies kann Trainingsdaten umfassen, die aus Befehlen und den entsprechenden Handlungen oder Anweisungen und den entsprechenden Antworten bestehen.<\/p>\n<p id=\"9251\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Ein <em class=\"pt\">Frage-und-Antwort (Q&amp;A)<\/em>-Modell wird mit Daten trainiert, die Fragen mit ihren Antworten beinhalten, wie zum Beispiel Daten von Q&amp;A-Websites, Lehrb\u00fcchern oder anderen Bildungsressourcen. Dadurch lernt das Modell, informative und pr\u00e4zise Antworten auf direkte Fragen zu geben.<\/p>\n<h3 id=\"6df3\" class=\"pe oe gz be of pf pg dx oi ph pi dz ol nq pj pk pl nu pm pn po ny pp pq pr ps bj\">ChatGPT training<\/h3>\n<p id=\"8dbf\" class=\"pw-post-body-paragraph nh ni gz nj b ht oz nl nm hw pa no np nq pb ns nt nu pc nw nx ny pd oa ob oc gs bj\" data-selectable-paragraph=\"\">ChatGPT basiert auf GPT-3.5, bzw. GPT4, und wird dann zweimal feinabgestimmt &#8211; zun\u00e4chst mithilfe von \u00fcberwachtem Lernen und anschlie\u00dfend mithilfe von verst\u00e4rkendem Lernen.<\/p>\n<p id=\"f3d4\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Im ersten Schritt, dem <em class=\"pt\">\u00fcberwachten Feinabgleich<\/em> (SFT), liefern menschliche KI-Trainer Gespr\u00e4che, in denen sie beide Seiten spielen &#8211; den Benutzer und einen KI-Assistenten. Den Trainern werden vom Modell geschriebene Vorschl\u00e4ge gegeben, um ihnen bei der Formulierung ihrer Antworten zu helfen. Mit diesem neuen Datensatz wird ChatGPT feinabgestimmt.<\/p>\n<p id=\"d0fe\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Im zweiten Schritt wird ChatGPT mithilfe einer Technik namens <em class=\"pt\">verst\u00e4rkendem Lernen mit menschlichem Feedback<\/em> (RLHF) feinabgestimmt.<\/p>\n<p id=\"4d09\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\"><em class=\"pt\">Verst\u00e4rkendes Lernen<\/em> ist ein Typ des maschinellen Lernens, bei dem ein Agent (in diesem Fall ChatGPT) durch Versuch und Irrtum lernt, sich in einer Umgebung zu verhalten. Der Agent erh\u00e4lt Belohnungen f\u00fcr Aktionen, die zu gew\u00fcnschten Ergebnissen f\u00fchren, und Bestrafungen f\u00fcr Aktionen, die zu unerw\u00fcnschten Ergebnissen f\u00fchren. Im Laufe der Zeit lernt der Agent, Aktionen durchzuf\u00fchren, die seine Belohnungen maximieren.<\/p>\n<p id=\"5bbd\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">KI-Trainer f\u00fchren Gespr\u00e4che mit ChatGPT unter Verwendung derselben Prompts, um mehrere alternative Erg\u00e4nzungen zu erstellen. Die KI-Trainer ordnen diese Erg\u00e4nzungen ein, um ein Belohnungsmodell zu trainieren. Im verst\u00e4rkenden Lernen ist ein <em class=\"pt\">Belohnungsmodell<\/em> eine M\u00f6glichkeit, dem Agenten Feedback dar\u00fcber zu geben, wie gut er abschneidet. Es nimmt eine Aktion entgegen und gibt an, wie gut oder schlecht sie ist. Das Ziel des Belohnungsmodells besteht darin, im Laufe der Zeit die Summe der Belohnungen zu maximieren.<\/p>\n<p id=\"f35d\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Schlie\u00dflich wird ChatGPT feinabgestimmt, um Ausgaben zu generieren, die gem\u00e4ss diesem Belohnungsmodell eine hohe Bewertung erhalten.<\/p>\n<h2 id=\"ac91\" class=\"od oe gz be of og oh hv oi oj ok hy ol om on oo op oq or os ot ou ov ow ox oy bj\">Die Verwendung von ChatGPT<\/h2>\n<p id=\"2304\" class=\"pw-post-body-paragraph nh ni gz nj b ht oz nl nm hw pa no np nq pb ns nt nu pc nw nx ny pd oa ob oc gs bj\" data-selectable-paragraph=\"\">Man k\u00f6nnte denken, es sei ziemlich sinnlos, \u00fcber die Verwendung von ChatGPT zu sprechen, da es sich um einen Chatbot handelt und du einfach mit ihm chattest. Das ist nicht ganz falsch, aber es ist m\u00f6glicherweise nicht die beste Art, ChatGPT zu verwenden. Wenn du nicht vorsichtig bist, k\u00f6nntest du falsche und irref\u00fchrende Informationen erhalten.<\/p>\n<h3 id=\"f66e\" class=\"pe oe gz be of pf pg dx oi ph pi dz ol nq pj pk pl nu pm pn po ny pp pq pr ps bj\">Halluzination<\/h3>\n<p id=\"2f9d\" class=\"pw-post-body-paragraph nh ni gz nj b ht oz nl nm hw pa no np nq pb ns nt nu pc nw nx ny pd oa ob oc gs bj\" data-selectable-paragraph=\"\">Gelegentlich produzieren LLMs falsche oder unsinnige Ergebnisse, obwohl sie selbstbewusst pr\u00e4sentiert werden k\u00f6nnen. Dies wird als <em class=\"pt\">Halluzination<\/em> bezeichnet.<\/p>\n<figure class=\"mv mw mx my mz na ms mt paragraph-image\">\n<div class=\"nb nc ff nd bg ne\" tabindex=\"0\" role=\"button\">\n<div class=\"ms mt mu\"><picture><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/format:webp\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/format:webp\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/format:webp\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/format:webp\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/format:webp\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/format:webp\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/format:webp\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 1400w\" type=\"image\/webp\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" \/><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*Fjs-zV25yijmGQ0iwsd7Ww.png 1400w\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" data-testid=\"og\" \/><img loading=\"lazy\" decoding=\"async\" class=\"bg nf ng c\" role=\"presentation\" src=\"https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*Fjs-zV25yijmGQ0iwsd7Ww.png\" alt=\"\" width=\"700\" height=\"467\" \/><\/picture><\/div>\n<\/div>\n<\/figure>\n<p id=\"5f91\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">LLMs k\u00f6nnen aus mehreren Gr\u00fcnden Halluzinationen erzeugen. Erstens werden diese Modelle mit massiven Mengen an Textdaten aus dem Internet trainiert, die sowohl korrekte als auch inkorrekte Informationen enthalten. Obwohl sie viel aus diesen Daten lernen, k\u00f6nnen sie gelegentlich faktisch falsche Antworten generieren oder Dinge erfinden.<\/p>\n<p id=\"7539\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Zweitens haben LLMs kein wirkliches Verst\u00e4ndnis oder keinen gesunden Menschenverstand wie Menschen. Sie arbeiten aufgrund von Mustern in den Daten, mit denen sie trainiert wurden. Wenn sie also auf eine Frage oder ein Thema sto\u00dfen, von dem sie nichts gelernt haben, versuchen sie m\u00f6glicherweise, eine Antwort zu generieren, die plausibel klingt, aber tats\u00e4chlich erfunden ist.<\/p>\n<p id=\"d802\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Dar\u00fcber hinaus k\u00f6nnen LLMs empfindlich auf geringf\u00fcgige \u00c4nderungen in der Formulierung der Eingabe reagieren, was zu Variationen in ihren Antworten f\u00fchrt. Manchmal k\u00f6nnen diese Variationen zu Inkonsistenzen oder unsinnigen Antworten f\u00fchren.<\/p>\n<p id=\"4e72\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Es gibt einige bekannte M\u00f6glichkeiten, Halluzinationen in LLMs zu reduzieren.<\/p>\n<p id=\"b614\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Eine der bedeutenden M\u00f6glichkeiten, Halluzinationen in LLMs zu reduzieren, besteht darin, die Trainingsdaten zu verbessern. Vielf\u00e4ltigere und hochwertigere Daten k\u00f6nnen zu genaueren und weniger halluzinatorischen Antworten f\u00fchren.<\/p>\n<p id=\"aa31\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Eine detaillierte menschliche \u00dcberwachung, insbesondere w\u00e4hrend des Fine-Tunings, kann ebenfalls dazu beitragen, Halluzinationen zu verringern. Menschen k\u00f6nnen Echtzeit-Feedback geben, Ungenauigkeiten korrigieren und die F\u00e4higkeit des Modells verbessern, zuverl\u00e4ssige Antworten zu liefern.<\/p>\n<p id=\"9f47\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Einige architektonische \u00c4nderungen k\u00f6nnen Halluzinationen m\u00f6glicherweise mildern, z. B. die Entwicklung von Modellen, die besser in der Lage sind, eine koh\u00e4rente Erz\u00e4hlung \u00fcber l\u00e4ngere Textpassagen aufrechtzuerhalten.<\/p>\n<p id=\"1255\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Ein gut gestalteter Prompt kann das LLM dazu f\u00fchren, genaue, themenbezogene und nicht-halluzinatorische Antworten zu liefern. Daher ist es wichtig zu verstehen, wie das Design des Prompts die Antworten der KI beeinflusst.<\/p>\n<h3 id=\"2913\" class=\"pe oe gz be of pf pg dx oi ph pi dz ol nq pj pk pl nu pm pn po ny pp pq pr ps bj\">Prompting<\/h3>\n<p id=\"eee8\" class=\"pw-post-body-paragraph nh ni gz nj b ht oz nl nm hw pa no np nq pb ns nt nu pc nw nx ny pd oa ob oc gs bj\" data-selectable-paragraph=\"\">Ein <em class=\"pt\">Prompt<\/em> ist ein kurzer Text, der verwendet wird, um ein LLM bei der Generierung einer Antwort zu f\u00fchren. Die Idee besteht darin, dem Modell Kontext oder Richtung f\u00fcr die Art des generierten Textes zu geben. Ohne einen Prompt w\u00fcsste ein Sprachmodell nicht, wo es anfangen soll.<\/p>\n<p id=\"ae96\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Ein gut gestalteter Prompt kann das LLM dabei unterst\u00fctzen, gute und genaue Antworten zu generieren und Halluzinationen zu reduzieren oder zu vermeiden. Hier sind einige Tipps f\u00fcr das Schreiben guter Prompts:<\/p>\n<ul class=\"\">\n<li id=\"e748\" class=\"nh ni gz nj b ht nk nl nm hw nn no np ql nr ns nt qm nv nw nx qn nz oa ob oc qo qp qq bj\" data-selectable-paragraph=\"\">Es ist offensichtlich, aber manchmal vergessen wir, einfach zu schreiben und klare Anweisungen zu geben. Mehrdeutige Prompts k\u00f6nnen zu interessanten Antworten f\u00fchren, aber sie k\u00f6nnen auch falsche Antworten liefern.<\/li>\n<li id=\"7cc3\" class=\"nh ni gz nj b ht qr nl nm hw qs no np ql qt ns nt qm qu nw nx qn qv oa ob oc qo qp qq bj\" data-selectable-paragraph=\"\">Verwende Trennzeichen, um verschiedene Teile des Prompts deutlich zu kennzeichnen. Beim Schreiben von Prompts verwendest du oft Anweisungen und Daten. Wenn du sie klar trennst, wird das LLM nicht verwirrt und vermischt sie, um Halluzinationen zu erzeugen.<\/li>\n<\/ul>\n<pre class=\"mv mw mx my mz pu pv pw bo px py pz\"><span id=\"4df0\" class=\"qa oe gz pv b bf qb qc l qd qe\" data-selectable-paragraph=\"\">Fasse den Text, der von doppelten eckigen Klammern begrenzt ist, in \r\neinem einzigen kurzen Satz mit nicht mehr als 10 W\u00f6rtern zusammen.\r\n\r\n[[ Es waren die besten Zeiten, es waren die schlimmsten Zeiten, es war das\r\nZeitalter der Weisheit, es war das Zeitalter des Unsinns, es war die\r\nEpoche des Glaubens, es war die Epoche des Unglaubens, es war die\r\nJahreszeit des Lichts, es war die Jahreszeit der Dunkelheit, es war der\r\nFr\u00fchling der Hoffnung, es war der Winter der Verzweiflung, wir hatten\r\nalles vor uns, wir hatten nichts vor uns, wir waren alle auf direktem Weg\r\nin den Himmel, wir waren alle auf direktem Weg in die andere Richtung - \r\nkurz gesagt, die Epoche glich so sehr der gegenw\u00e4rtigen Epoche, dass\r\neinige ihrer lautstarksten Autorit\u00e4ten darauf bestanden, dass sie nur\r\nim h\u00f6chsten Grad des Vergleichs aufgenommen wird, sei es gut oder b\u00f6se.]]<\/span><\/pre>\n<pre class=\"qw pu pv pw bo px py pz\"><span id=\"55d2\" class=\"qa oe gz pv b bf qb qc l qd qe\" data-selectable-paragraph=\"\">Die Epoche war paradoxerweise von extremen Kontrasten und \u00c4hnlichkeiten gepr\u00e4gt.<\/span><\/pre>\n<figure class=\"mv mw mx my mz na ms mt paragraph-image\">\n<div class=\"nb nc ff nd bg ne\" tabindex=\"0\" role=\"button\">\n<div class=\"ms mt mu\"><picture><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/format:webp\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/format:webp\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/format:webp\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/format:webp\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/format:webp\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/format:webp\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/format:webp\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 1400w\" type=\"image\/webp\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" \/><source srcset=\"https:\/\/miro.medium.com\/v2\/resize:fit:640\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 640w, https:\/\/miro.medium.com\/v2\/resize:fit:720\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 720w, https:\/\/miro.medium.com\/v2\/resize:fit:750\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 750w, https:\/\/miro.medium.com\/v2\/resize:fit:786\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 786w, https:\/\/miro.medium.com\/v2\/resize:fit:828\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 828w, https:\/\/miro.medium.com\/v2\/resize:fit:1100\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 1100w, https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*LNhS2pm7O16Ac1IKDzNyaQ.png 1400w\" sizes=\"(min-resolution: 4dppx) and (max-width: 700px) 50vw, (-webkit-min-device-pixel-ratio: 4) and (max-width: 700px) 50vw, (min-resolution: 3dppx) and (max-width: 700px) 67vw, (-webkit-min-device-pixel-ratio: 3) and (max-width: 700px) 65vw, (min-resolution: 2.5dppx) and (max-width: 700px) 80vw, (-webkit-min-device-pixel-ratio: 2.5) and (max-width: 700px) 80vw, (min-resolution: 2dppx) and (max-width: 700px) 100vw, (-webkit-min-device-pixel-ratio: 2) and (max-width: 700px) 100vw, 700px\" data-testid=\"og\" \/><img loading=\"lazy\" decoding=\"async\" class=\"bg nf ng c\" role=\"presentation\" src=\"https:\/\/miro.medium.com\/v2\/resize:fit:1400\/1*LNhS2pm7O16Ac1IKDzNyaQ.png\" alt=\"\" width=\"700\" height=\"467\" \/><\/picture><\/div>\n<\/div>\n<\/figure>\n<ul class=\"\">\n<li id=\"dd12\" class=\"nh ni gz nj b ht nk nl nm hw nn no np ql nr ns nt qm nv nw nx qn nz oa ob oc qo qp qq bj\" data-selectable-paragraph=\"\">Fordere das LLM auf, Bedingungen zu \u00fcberpr\u00fcfen, bevor es die entsprechende Antwort gibt. Das \u00dcberpr\u00fcfen von Bedingungen kann verhindern, dass das LLM Dinge erfindet, wenn es die Antwort nicht kennt.<\/li>\n<\/ul>\n<pre class=\"mv mw mx my mz pu pv pw bo px py pz\"><span id=\"f8aa\" class=\"qa oe gz pv b bf qb qc l qd qe\" data-selectable-paragraph=\"\">Fassen Sie den Text, der von doppelten eckigen Klammern begrenzt ist, in \r\neinem einzigen kurzen Satz mit nicht mehr als 10 W\u00f6rtern zusammen. Wenn es \r\nsich bereits um einen einzigen Satz handelt, der weniger als 10 W\u00f6rter \r\nenth\u00e4lt, sagen Sie einfach: \"Es ist bereits zusammengefasst.\"\r\n\r\n[[Die Epoche war paradoxerweise von extremen Kontrasten und \u00c4hnlichkeiten gepr\u00e4gt.]]<\/span><\/pre>\n<pre class=\"qw pu pv pw bo px py pz\"><span id=\"5a40\" class=\"qa oe gz pv b bf qb qc l qd qe\" data-selectable-paragraph=\"\">Es ist bereits zusammengefasst.<\/span><\/pre>\n<ul class=\"\">\n<li id=\"42ed\" class=\"nh ni gz nj b ht nk nl nm hw nn no np ql nr ns nt qm nv nw nx qn nz oa ob oc qo qp qq bj\" data-selectable-paragraph=\"\">Gib Beispiele f\u00fcr die gew\u00fcnschten Antworten, bevor du die Anfrage stellst. Du kannst das LLM anleiten, indem du dem LLM Beispiele gibst, wie es antworten soll.<\/li>\n<\/ul>\n<pre class=\"mv mw mx my mz pu pv pw bo px py pz\"><span id=\"179b\" class=\"qa oe gz pv b bf qb qc l qd qe\" data-selectable-paragraph=\"\">Gib mir in einem kurzen Satz Schl\u00fcsselinformationen \u00fcber eine Stadt. \r\nZum Beispiel:\r\nIch: \"Erz\u00e4hl mir etwas \u00fcber Paris.\"\r\nSie: \"Es ist eine Stadt der Romantik und Geschichte.\"\r\nIch: \"Erz\u00e4hl mir etwas \u00fcber London.\"\r\nSie: \"Es ist eine Stadt der kulturellen Vielfalt und markanten Geb\u00e4ude.\"\r\nIch: \"Erz\u00e4hl mir etwas \u00fcber Singapur.\"\r\nSie:<\/span><\/pre>\n<pre class=\"qw pu pv pw bo px py pz\"><span id=\"3fb1\" class=\"qa oe gz pv b bf qb qc l qd qe\" data-selectable-paragraph=\"\">\"Singapur ist ein lebendiger Stadtstaat, der f\u00fcr seine Sauberkeit und Multikulturalismus bekannt ist.\"<\/span><\/pre>\n<ul class=\"\">\n<li id=\"9176\" class=\"nh ni gz nj b ht nk nl nm hw nn no np ql nr ns nt qm nv nw nx qn nz oa ob oc qo qp qq bj\" data-selectable-paragraph=\"\">Gib die Schritte an, um die Aufgabe abzuschliessen. Wenn du die genauen Schritte kennst, die du m\u00f6chtest, die das LLM ausf\u00fchrt, um die endg\u00fcltige Antwort zu erhalten, kann es hilfreich sein, diese Schritte anzugeben, um es auf dem Weg zu f\u00fchren.<\/li>\n<li id=\"d1f8\" class=\"nh ni gz nj b ht qr nl nm hw qs no np ql qt ns nt qm qu nw nx qn qv oa ob oc qo qp qq bj\" data-selectable-paragraph=\"\">Iteriere und verfeinere die Eingabeaufforderung. Die Erstellung einer Eingabeaufforderung ist oft iterativ. Du schreibst eine einfache Version und verfeinerst sie immer wieder, indem du Details und Klarheit hinzuf\u00fcgen, bis du die gew\u00fcnschte Art der Antwort erhalten.<\/li>\n<\/ul>\n<h2 id=\"23cc\" class=\"od oe gz be of og oh hv oi oj ok hy ol om on oo op oq or os ot ou ov ow ox oy bj\">Fazit<\/h2>\n<p id=\"fab9\" class=\"pw-post-body-paragraph nh ni gz nj b ht oz nl nm hw pa no np nq pb ns nt nu pc nw nx ny pd oa ob oc gs bj\" data-selectable-paragraph=\"\">ChatGPT und andere LLM-Chatbots wie Bard und Claude sind faszinierend. Ein Blick unter die Oberfl\u00e4che, um die Grundlagen ihrer Funktionsweise zu verstehen, kann uns bessere Einblicke geben, um sie f\u00fcr uns besser zu nutzen.<\/p>\n<p id=\"e4b1\" class=\"pw-post-body-paragraph nh ni gz nj b ht nk nl nm hw nn no np nq nr ns nt nu nv nw nx ny nz oa ob oc gs bj\" data-selectable-paragraph=\"\">Viel Spass beim Chatten!<\/p>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Was steckt hinter den Grundkonzepten von ChatGPT? Von Sau Sheong, ver\u00f6ffentlicht auf Medium. Es gibt derzeit so viel Aufregung, Vorfreude und Angst bez\u00fcglich ChatGPT, aber kaum etwas, das erkl\u00e4rt, wie es funktioniert. Sicherlich gibt es viele technische Papiere und dergleichen, aber f\u00fcr den Durchschnittsb\u00fcrger k\u00f6nnen sie etwas abschreckend sein. Dieser Artikel zielt darauf ab, eine [&hellip;]<\/p>\n","protected":false},"author":3,"featured_media":2005,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[181],"tags":[],"class_list":["post-1331","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-generative-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/dialogify.io\/de\/wp-json\/wp\/v2\/posts\/1331","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/dialogify.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dialogify.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dialogify.io\/de\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/dialogify.io\/de\/wp-json\/wp\/v2\/comments?post=1331"}],"version-history":[{"count":0,"href":"https:\/\/dialogify.io\/de\/wp-json\/wp\/v2\/posts\/1331\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/dialogify.io\/de\/wp-json\/wp\/v2\/media\/2005"}],"wp:attachment":[{"href":"https:\/\/dialogify.io\/de\/wp-json\/wp\/v2\/media?parent=1331"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dialogify.io\/de\/wp-json\/wp\/v2\/categories?post=1331"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dialogify.io\/de\/wp-json\/wp\/v2\/tags?post=1331"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}