Die Funktionsweise moderner Sprachmodelle: von Tokens bis Agents
Trotzdem schreibt sie Code, fasst Verträge zusammen, beantwortet Fragen und klingt dabei oft erschreckend klug.
Wie ist das möglich?
Die KI-Forschung jagt seit den 1950er-Jahren einem großen Ziel hinterher: einer Maschine, die wie ein Mensch versteht, schlussfolgert, ein persistierendes Bewusstsein hat und selbständig Ziele verfolgt: die starke KI der Popkultur.
Trotz Jahrzehnten Forschung bleibt dieses Ziel bis heute ungelöst. Auf jede Phase der Euphorie folgte bisher ein langer Winter.
Ein LLM denkt nicht. Es berechnet, welche Wortfolge auf eine Eingabe statistisch am wahrscheinlichsten ist. Das Ergebnis fühlt sich oft an wie Verstehen. Es ist aber eine Simulation, kein Bewusstsein.
Genau weil das Ziel kleiner ist, ging es plötzlich schnell.
Beides läuft im Volksmund unter „KI“. Wer LLMs verstehen will, sollte den Anspruch der starken KI dabei ausdrücklich nicht mitdenken.
Statt tausend kleiner Modelle für tausend Aufgaben: ein großes Modell als sprachliches Universalwerkzeug.
Was passiert eigentlich, wenn Sie eine Frage ins Eingabefeld tippen und „Senden“ drücken? Vier Schritte, jeder davon ist heute Standardhandwerk.
Erst nach dieser Übersetzung kann das Modell überhaupt etwas „tun“. Schauen wir uns die Schritte einzeln an.
Ein Token ist meist ein Wortteil, kein ganzes Wort, kein einzelner Buchstabe. Das macht die Verarbeitung effizient: häufige Wörter sind ein einziges Token, seltene werden in Stücke zerlegt.
Hinweis: Die hier gezeigte Zerlegung ist eine vereinfachte Demonstration. Echte Modelle nutzen Verfahren wie Byte-Pair-Encoding und lernen aus Milliarden Sätzen, welche Stücke häufig zusammen vorkommen.
Ein Vektor ist eine lange Liste von Zahlen, die man sich als Koordinaten für einen Punkt in einem Raum vorstellen kann. Bei modernen Modellen hat dieser Raum 4 000 bis 12 000 Dimensionen, also entsprechend viele Zahlen pro Token.
Diese Zahlen sind nicht zufällig. Sie werden während des Trainings so eingestellt, dass verwandte Wörter im selben Bereich des Raums landen.
Bedeutung wird zu Geometrie. Wörter mit ähnlichem Sinn liegen nahe beieinander, gegensätzliche weit auseinander.
Beziehungen zwischen Wörtern (Geschlecht, Mehrzahl, Hauptstadt…) werden zu Richtungen im Raum. Das klassische Beispiel stammt aus Word2Vec (2013); bei modernen Transformern ist die Geometrie kontextabhängig, das Grundprinzip aber dasselbe. So generalisiert das Modell auf Sätze, die in dieser Form nie im Trainingstext standen.
Bei jeder Anfrage berechnet das LLM für jedes mögliche Token in seinem Vokabular eine Wahrscheinlichkeit und wählt dann eines davon aus.
So entstehen ganze Antworten, Token für Token. Klicken Sie mehrmals; das Ergebnis ist absichtlich nicht jedes Mal gleich.
Der Transformer ist die Architektur, mit der seit 2017 fast alle bedeutenden LLMs gebaut werden. Vereinfacht: Eine Schichtenstruktur, die einen Token-Strom als Vektoren immer weiter umrechnet, bis am Ende die Wahrscheinlichkeiten herauskommen.
Das Herzstück sind die Attention-Schichten, typischerweise 30 bis 100 davon, gestapelt. In jeder Schicht wird das Verständnis des Textes ein Stück tiefer.
Bei jeder Schicht entscheidet das Modell für jedes Token: welche der vorherigen Tokens sind gerade wichtig für mich? Das ist Attention. (Bei Encoder-Modellen wie BERT geht der Blick in beide Richtungen; moderne Chat-LLMs sind decoder-only und schauen nur zurück.)
So versteht das Modell einen ganzen Absatz auf einmal und vergisst nicht, was am Anfang stand.
Diese Zahlen heißen Parameter oder Gewichte. Sie kodieren alles, was das Modell „weiß“: Grammatik, Fakten, Stil, Code-Idiome.
Jeder einzelne dieser Parameter wird im Training schrittweise optimiert. Wie? Das ist der nächste Akt.
Bisher haben wir nur die Architektur gesehen, eine leere Maschine. Jetzt füllen wir die Milliarden Parameter mit Wissen.
Im Pretraining bekommt das Modell einen gewaltigen Textkorpus (Webseiten, Bücher, Wikipedia, Code, Foren, Fachartikel) und eine einzige Aufgabe.
Milliarden Mal. Trillionen von Tokens. Nebeneffekt: damit das nächste Token gut sitzt, muss das Modell Grammatik, Fakten und logisches Schließen mitlernen, nicht weil es angewiesen wurde, sondern weil es ohne diese Fähigkeiten nicht gut genug raten könnte.
Nach dem Pretraining hat das Modell gelernt, Internet-Text fortzuführen, nicht eine konkrete Frage hilfreich zu beantworten. Eine simple Frage an das Rohmodell macht das deutlich:
Im Internet stehen Listen ähnlicher Fragen, also wird die Frage als Liste fortgeführt. Logisch aus Sicht der Vorhersage, nutzlos als Antwort.
Im Fine-Tuning wird das Rohmodell weiter trainiert, auf einem kuratierten Datensatz aus Frage-Antwort-Paaren. Die Paare zeigen dem Modell das gewünschte Format: Frage rein, hilfreiche Antwort raus.
Heute Millionen Beispiele: von Menschen verfasste Seed-Daten und Richtlinien, der Großteil aber synthetisch von stärkeren Modellen erzeugt (Destillation).
Das Modell lernt das Format, nicht neue Fakten. Das Wissen kommt aus dem Pretraining; das Fine-Tuning verschiebt nur das Verhalten.
Reinforcement Learning from Human Feedback. Klingt sperrig, ist aber simpel: Das Modell schreibt mehrere Antworten, jemand sagt welche besser ist, das Modell bekommt einen Schubs in diese Richtung.
Das Modell beantwortet dieselbe Frage mehrfach, in verschiedenen Varianten.
Menschen definieren die Kriterien. Die Masse der Vergleiche übernehmen zunehmend KI-Modelle (RLAIF, Constitutional AI).
Antworten, die häufig vorne lagen, werden wahrscheinlicher; die anderen seltener.
RLHF macht aus einem belesenen Modell ein nützliches Werkzeug. Höflichkeit, Klarheit, Sicherheitsleitplanken: all das wird hier eingestellt.
Das fertig trainierte Modell wird auf einem Server gehostet. Schicken Sie eine Anfrage, durchläuft Ihr Text die folgenden Stationen, Token für Token, in Echtzeit.
Der Loop von Schritt 3–5 wiederholt sich für jedes Wort der Antwort. Deshalb sehen Sie Antworten Token für Token aufploppen.
Was Sie heute als „ChatGPT" oder „Claude" erleben, ist nicht mehr nur ein Modell. Es ist ein Modell mit Gedächtnis, Werkzeugen, Plan und einer bewusst gestalteten Persönlichkeit. Wie Claude wirkt, wie sich GPT „anfühlt", ist kein Trainings-Zufall, sondern Agent-Design der Anbieter.
Bekommt Text, gibt Text aus. Keine Erinnerung an die letzte Anfrage. Reine Funktion.
Modell + Konversations-Speicher + System-Anweisungen. Hält die Unterhaltung im Kontext.
Chat + Rolle & Verhaltensvorgaben + Werkzeuge (Web, Dateien, Code, APIs). Plant mehrere Schritte, prüft Ergebnisse, korrigiert sich.
Das Modell lernt im Training, wann es eine Funktion aufrufen soll (z. B. web.search("…") oder db.query("…")) und wie es das Ergebnis interpretiert.
Ein Agent läuft in einer Schleife: Plan → Werkzeug → Ergebnis lesen → neuer Plan. So entstehen mehrstufige Aufgaben wie „buche mir den Flug“.
Die Idee, ein neuronales Netz auf das nächste Wort zu trainieren, ist alt. Drei Dinge mussten zusammenkommen, damit aus der Idee ein nützliches System wurde.
Der Transformer (2017) ist parallelisierbar. Vorgänger-Architekturen mussten Wort für Wort rechnen, ein Flaschenhals beim Training.
Das Internet als Korpus. Erstmals genug Text in maschinenlesbarer Form, um Milliarden Parameter sinnvoll zu trainieren.
GPUs, ursprünglich für Grafik gebaut, lassen sich gut auf Matrix-Mathe nutzen, also genau das, was Transformer brauchen.
Skalierung macht den Unterschied. Viele Fähigkeiten heutiger Modelle (mehrstufiges Argumentieren, Code schreiben, mehrsprachig antworten) brauchen ab einer gewissen Schwelle Modell- und Datenmenge. Diese Schwelle sinkt mit besseren Daten und Trainingsmethoden: was vor zwei Jahren nur 175-Mrd.-Modelle konnten, schafft heute teilweise schon ein 8-Mrd.-Modell.
Ein LLM rät das wahrscheinlichste nächste Token. Das ist oft richtig, aber nicht weil es richtig ist, sondern weil es plausibel klingt. Bei Fakten: immer prüfen.
Das Wissen ist auf den Trainingszeitpunkt eingefroren. Aktuelles bekommt es nur über Werkzeuge: Web-Suche, Datenbank-Anbindung, RAG.
Bei langen Beweis- und Rechenketten (komplexe Mathematik, formale Logik) macht jeder Schritt einen kleinen Fehler, und die Fehler addieren sich.
Was wie Verständnis aussieht, ist ein extrem gut gelerntes statistisches Muster: beeindruckend nutzbar, aber kein Bewusstsein.
Zusammenfassen, klassifizieren, übersetzen: Kompetenz, die früher Spezialteams brauchte, ist heute eine API-Anfrage.
Das Basis-Modell ist überall gleich. Was zählt, ist Anbindung an Ihre Daten, Prozesse und Werkzeuge.
Werkzeug-Nutzung, Berechtigungen, Fehlerbehandlung: klassisches Software-Engineering, nur mit einem nicht-deterministischen Akteur.
byte5 ist ein Softwareunternehmen aus Frankfurt mit über 20 Jahren Erfahrung, spezialisiert auf KI-Lösungen, die bei Mittelstand und Konzernen auch dann tragen, wenn Genauigkeit, Sicherheit und Integration entscheiden.