byte5
ENTMYSTIFIZIERT

Wie LLMs
wirklich funktionieren

Die Funktionsweise moderner Sprachmodelle: von Tokens bis Agents

Erstellt von byte5.ai · KI-Expertise für Unternehmen
→ Pfeiltasten oder klicken
byte5
Eine seltsame Begegnung

Sie unterhalten sich gerade mit einer Maschine,
die kein einziges Wort versteht

Trotzdem schreibt sie Code, fasst Verträge zusammen, beantwortet Fragen und klingt dabei oft erschreckend klug.

Wie ist das möglich?

byte5
Erst einmal aufräumen

„KI“ und LLMs sind nicht dasselbe

Klassische KI

Das alte Versprechen

Die KI-Forschung jagt seit den 1950er-Jahren einem großen Ziel hinterher: einer Maschine, die wie ein Mensch versteht, schlussfolgert, ein persistierendes Bewusstsein hat und selbständig Ziele verfolgt: die starke KI der Popkultur.

Trotz Jahrzehnten Forschung bleibt dieses Ziel bis heute ungelöst. Auf jede Phase der Euphorie folgte bisher ein langer Winter.

LLMs

Etwas Neues

Ein LLM denkt nicht. Es berechnet, welche Wortfolge auf eine Eingabe statistisch am wahr­scheinlichsten ist. Das Ergebnis fühlt sich oft an wie Verstehen. Es ist aber eine Simulation, kein Bewusstsein.

Genau weil das Ziel kleiner ist, ging es plötzlich schnell.

Beides läuft im Volksmund unter „KI“. Wer LLMs verstehen will, sollte den Anspruch der starken KI dabei ausdrücklich nicht mitdenken.

03 / 22
byte5
Der entscheidende Unterschied

Klassische KI braucht Spezialisten
LLMs sind Generalisten

Klassisches Vorgehen

  • Problem definieren → passende Architektur entwerfen
  • Trainingsdaten manuell sammeln und labeln
  • Modell trainieren, das nur dieses eine kann
  • Neues Problem? Von vorn beginnen.

LLM-Vorgehen

  • Ein riesiges Modell auf Text-Vorhersage trainieren
  • Fertig. Dasselbe Modell macht alles, was sich als Text ausdrücken lässt
  • Übersetzen, Programmieren, Argumentieren, gleicher Unterbau
  • Neue Aufgabe? Einfach anders fragen oder Daten anreichern.

Statt tausend kleiner Modelle für tausend Aufgaben: ein großes Modell als sprachliches Universal­werkzeug.

04 / 22

01

Teil 1 von 4

Die Bausteine

Was passiert eigentlich, wenn Sie eine Frage ins Eingabefeld tippen und „Senden“ drücken? Vier Schritte, jeder davon ist heute Standard­handwerk.

byte5
Die Grundidee

Computer rechnen mit Zahlen
Also wird Sprache zu Zahlen

„Hallo Welt“
Text, wie wir ihn lesen
[15496, 200, 25368]
Token-IDs
[0.21, −0.04, 0.88,
… 4096 Zahlen …]
Vektor (Embedding)

Erst nach dieser Übersetzung kann das Modell überhaupt etwas „tun“. Schauen wir uns die Schritte einzeln an.

05 / 22
byte5
Schritt 1: Tokenisierung

Text wird in Bausteine zerlegt

Ein Token ist meist ein Wortteil, kein ganzes Wort, kein einzelner Buchstabe. Das macht die Verarbeitung effizient: häufige Wörter sind ein einziges Token, seltene werden in Stücke zerlegt.

0 Tokens Faustregel: 1 deutsches Wort ≈ 1,5–2 Tokens (Komposita werden zerlegt)

Hinweis: Die hier gezeigte Zerlegung ist eine vereinfachte Demonstration. Echte Modelle nutzen Verfahren wie Byte-Pair-Encoding und lernen aus Milliarden Sätzen, welche Stücke häufig zusammen vorkommen.

06 / 22
byte5
Schritt 2: Embedding

Jedes Token wird zu einem Vektor

Ein Vektor ist eine lange Liste von Zahlen, die man sich als Koordinaten für einen Punkt in einem Raum vorstellen kann. Bei modernen Modellen hat dieser Raum 4 000 bis 12 000 Dimensionen, also entsprechend viele Zahlen pro Token.

Diese Zahlen sind nicht zufällig. Sie werden während des Trainings so eingestellt, dass verwandte Wörter im selben Bereich des Raums landen.

Bedeutung wird zu Geometrie. Wörter mit ähnlichem Sinn liegen nahe beieinander, gegensätzliche weit auseinander.

Vereinfachte 2D-Projektion eines Vektorraums
Hund Katze Pferd TIERE Auto LKW Zug FAHRZEUGE Freude Trauer Wut GEFÜHLE
07 / 22
byte5
Warum das so mächtig ist

Mit Bedeutung rechnen

König Mann + Frau Königin

Beziehungen zwischen Wörtern (Geschlecht, Mehrzahl, Hauptstadt…) werden zu Richtungen im Raum. Das klassische Beispiel stammt aus Word2Vec (2013); bei modernen Transformern ist die Geometrie kontext­abhängig, das Grundprinzip aber dasselbe. So generalisiert das Modell auf Sätze, die in dieser Form nie im Trainingstext standen.

08 / 22
byte5
Schritt 3: Die zentrale Aufgabe

Das Modell tut eine Sache: das nächste Token vorhersagen

Bei jeder Anfrage berechnet das LLM für jedes mögliche Token in seinem Vokabular eine Wahrscheinlichkeit und wählt dann eines davon aus.

Eingabe
„Der Kaffee ist heiß und ich trinke ihn am liebsten am ___
Wahrscheinlichkeiten für das nächste Token
Morgen
0%
Sonntag
0%
Abend
0%
Schreibtisch
0%
Strand
0%

So entstehen ganze Antworten, Token für Token. Klicken Sie mehrmals; das Ergebnis ist absichtlich nicht jedes Mal gleich.

09 / 22
byte5
Schritt 4: Architektur

Die Maschine dahinter heißt Transformer

Der Transformer ist die Architektur, mit der seit 2017 fast alle bedeutenden LLMs gebaut werden. Vereinfacht: Eine Schichtenstruktur, die einen Token-Strom als Vektoren immer weiter umrechnet, bis am Ende die Wahrscheinlich­keiten herauskommen.

Tokens
Eingabe
Embeddings
Vektoren
N× Attention
Schichten
Logits
Roh-Werte
%
Wahr­scheinlich­keiten
Token-Auswahl

Das Herzstück sind die Attention-Schichten, typischerweise 30 bis 100 davon, gestapelt. In jeder Schicht wird das Verständnis des Textes ein Stück tiefer.

10 / 22
byte5
Der eine Trick, der alles verändert hat

Attention: Jedes Token schaut auf alle vorherigen

Bei jeder Schicht entscheidet das Modell für jedes Token: welche der vorherigen Tokens sind gerade wichtig für mich? Das ist Attention. (Bei Encoder-Modellen wie BERT geht der Blick in beide Richtungen; moderne Chat-LLMs sind decoder-only und schauen nur zurück.)

Beispiel: Bei welchem Wort ist „sie“ angesprochen?
Die Katze jagt die Maus , weil sie hungrig ist.
„sie“ kann auf „Katze“ oder „Maus“ zurückblicken. Das Modell gewichtet beide.

So versteht das Modell einen ganzen Absatz auf einmal und vergisst nicht, was am Anfang stand.

11 / 22
byte5
Zwischenstand

Ein LLM ist am Ende eine riesige Tabelle von Zahlen

Diese Zahlen heißen Parameter oder Gewichte. Sie kodieren alles, was das Modell „weiß“: Grammatik, Fakten, Stil, Code-Idiome.

1–10 Mrd.
Klein / lokal
70–100 Mrd.
Mittelklasse
1–3 Bill.
Top-Tier (geschätzt)

Jeder einzelne dieser Parameter wird im Training schrittweise optimiert. Wie? Das ist der nächste Akt.

12 / 22

02

Teil 2 von 4

Wie das Modell lernt

Bisher haben wir nur die Architektur gesehen, eine leere Maschine. Jetzt füllen wir die Milliarden Parameter mit Wissen.

byte5
Phase 1: Pretraining

Das halbe Internet als Lehrer

Im Pretraining bekommt das Modell einen gewaltigen Textkorpus (Webseiten, Bücher, Wikipedia, Code, Foren, Fachartikel) und eine einzige Aufgabe.

„Sage mir das nächste Token voraus.“

Milliarden Mal. Trillionen von Tokens. Nebeneffekt: damit das nächste Token gut sitzt, muss das Modell Grammatik, Fakten und logisches Schließen mitlernen, nicht weil es angewiesen wurde, sondern weil es ohne diese Fähigkeiten nicht gut genug raten könnte.

Größenordnung
~15 Billionen
Trainings-Tokens
10 000 bis 100 000+
spezialisierte GPUs parallel
Wochen bis Monate
durchgängige Rechenzeit
~100 Mio. bis 1 Mrd. €
Kosten pro Top-Modell-Lauf
13 / 22
byte5
Aber Vorsicht

Das Rohmodell ist kein Assistent
Es ist ein Auto­komplet­tieren auf Steroiden

Nach dem Pretraining hat das Modell gelernt, Internet-Text fortzuführen, nicht eine konkrete Frage hilfreich zu beantworten. Eine simple Frage an das Rohmodell macht das deutlich:

Frage
„Was ist die Hauptstadt von Frankreich?“
Rohmodell antwortet
„Was ist die Hauptstadt von Italien? Was ist die Hauptstadt von Spanien?…“
Frage
„Was ist 2+2?“
Rohmodell antwortet
„Eine simple Mathe-Frage, oft gestellt von Lehrern in der zweiten Klasse.“

Im Internet stehen Listen ähnlicher Fragen, also wird die Frage als Liste fortgeführt. Logisch aus Sicht der Vorhersage, nutzlos als Antwort.

14 / 22
byte5
Phase 2: Fine-Tuning

Manieren beibringen

Im Fine-Tuning wird das Rohmodell weiter trainiert, auf einem kuratierten Datensatz aus Frage-Antwort-Paaren. Die Paare zeigen dem Modell das gewünschte Format: Frage rein, hilfreiche Antwort raus.

F
Was ist die Hauptstadt von Frankreich?
A
Die Hauptstadt von Frankreich ist Paris.

Daten

Heute Millionen Beispiele: von Menschen verfasste Seed-Daten und Richtlinien, der Großteil aber synthetisch von stärkeren Modellen erzeugt (Destillation).

Wirkung

Das Modell lernt das Format, nicht neue Fakten. Das Wissen kommt aus dem Pretraining; das Fine-Tuning verschiebt nur das Verhalten.

15 / 22
byte5
Phase 3: Lernen aus Feedback

RLHF Menschen wählen, das Modell passt sich an

Reinforcement Learning from Human Feedback. Klingt sperrig, ist aber simpel: Das Modell schreibt mehrere Antworten, jemand sagt welche besser ist, das Modell bekommt einen Schubs in diese Richtung.

1

Antworten erzeugen

Das Modell beantwortet dieselbe Frage mehrfach, in verschiedenen Varianten.

2

Antworten bewerten

Menschen definieren die Kriterien. Die Masse der Vergleiche übernehmen zunehmend KI-Modelle (RLAIF, Constitutional AI).

3

Modell justieren

Antworten, die häufig vorne lagen, werden wahrscheinlicher; die anderen seltener.

RLHF macht aus einem belesenen Modell ein nützliches Werkzeug. Höflichkeit, Klarheit, Sicherheits­leitplanken: all das wird hier eingestellt.

16 / 22
byte5
Im Live-Betrieb

Inference: Was passiert, wenn Sie tippen

Das fertig trainierte Modell wird auf einem Server gehostet. Schicken Sie eine Anfrage, durchläuft Ihr Text die folgenden Stationen, Token für Token, in Echtzeit.

1Ihr Text wird tokenisiert
2Tokens werden zu Embeddings
3Attention-Schichten verarbeiten den Kontext
4Wahrscheinlichkeiten für nächstes Token berechnen
5Ein Token auswählen → ausgeben → an Schritt 3 zurück

Der Loop von Schritt 3–5 wiederholt sich für jedes Wort der Antwort. Deshalb sehen Sie Antworten Token für Token aufploppen.

17 / 22

03

Teil 3 von 4

Vom Modell zum Agenten

Was Sie heute als „ChatGPT" oder „Claude" erleben, ist nicht mehr nur ein Modell. Es ist ein Modell mit Gedächtnis, Werkzeugen, Plan und einer bewusst gestalteten Persönlichkeit. Wie Claude wirkt, wie sich GPT „anfühlt", ist kein Trainings-Zufall, sondern Agent-Design der Anbieter.

byte5
Drei Stufen, ein Trend

Modell → Chat-Assistent → Agent

1

Sprachmodell

Bekommt Text, gibt Text aus. Keine Erinnerung an die letzte Anfrage. Reine Funktion.

2

Chat-Assistent

Modell + Konversations-Speicher + System-Anweisungen. Hält die Unterhaltung im Kontext.

3

Agent

Chat + Rolle & Verhaltens­vorgaben + Werkzeuge (Web, Dateien, Code, APIs). Plant mehrere Schritte, prüft Ergebnisse, korrigiert sich.

Werkzeuge sind Funktionen

Das Modell lernt im Training, wann es eine Funktion aufrufen soll (z. B. web.search("…") oder db.query("…")) und wie es das Ergebnis interpretiert.

Schleife statt Einzelantwort

Ein Agent läuft in einer Schleife: Plan → Werkzeug → Ergebnis lesen → neuer Plan. So entstehen mehrstufige Aufgaben wie „buche mir den Flug“.

18 / 22
byte5
Die Auflösung

Warum waren LLMs plötzlich da?

Die Idee, ein neuronales Netz auf das nächste Wort zu trainieren, ist alt. Drei Dinge mussten zusammenkommen, damit aus der Idee ein nützliches System wurde.

A

Architektur

Der Transformer (2017) ist parallelisierbar. Vorgänger-Architekturen mussten Wort für Wort rechnen, ein Flaschenhals beim Training.

B

Daten

Das Internet als Korpus. Erstmals genug Text in maschinen­lesbarer Form, um Milliarden Parameter sinnvoll zu trainieren.

C

Hardware

GPUs, ursprünglich für Grafik gebaut, lassen sich gut auf Matrix-Mathe nutzen, also genau das, was Transformer brauchen.

Skalierung macht den Unterschied. Viele Fähigkeiten heutiger Modelle (mehrstufiges Argumentieren, Code schreiben, mehrsprachig antworten) brauchen ab einer gewissen Schwelle Modell- und Datenmenge. Diese Schwelle sinkt mit besseren Daten und Trainings­methoden: was vor zwei Jahren nur 175-Mrd.-Modelle konnten, schafft heute teilweise schon ein 8-Mrd.-Modell.

19 / 22
byte5
Ehrlich machen

Was LLMs nicht können

Wahrheit garantieren

Ein LLM rät das wahrscheinlichste nächste Token. Das ist oft richtig, aber nicht weil es richtig ist, sondern weil es plausibel klingt. Bei Fakten: immer prüfen.

In Echtzeit lernen

Das Wissen ist auf den Trainings­zeit­punkt eingefroren. Aktuelles bekommt es nur über Werkzeuge: Web-Suche, Datenbank-Anbindung, RAG.

Lange Logikketten

Bei langen Beweis- und Rechenketten (komplexe Mathematik, formale Logik) macht jeder Schritt einen kleinen Fehler, und die Fehler addieren sich.

Verstehen wie ein Mensch

Was wie Verständnis aussieht, ist ein extrem gut gelerntes statistisches Muster: beeindruckend nutzbar, aber kein Bewusstsein.

20 / 22
byte5
Praxis

Was das für Ihr Unternehmen bedeutet

Sprachliche Aufgaben sind Massenware geworden.

Zusammenfassen, klassifizieren, übersetzen: Kompetenz, die früher Spezialteams brauchte, ist heute eine API-Anfrage.

Der Wert sitzt im Kontext.

Das Basis-Modell ist überall gleich. Was zählt, ist Anbindung an Ihre Daten, Prozesse und Werkzeuge.

Agenten brauchen Geländer.

Werkzeug-Nutzung, Berechtigungen, Fehler­behandlung: klassisches Software-Engineering, nur mit einem nicht-deterministischen Akteur.

Die richtigen Fragen, die Sie sich stellen sollten

Wo in unseren Prozessen ist Sprache der Engpass?
Welche Daten dürfen ein LLM überhaupt sehen, und unter welchen Bedingungen?
Was passiert, wenn das Modell sich irrt?
Welcher Geschäftswert rechtfertigt welchen Aufwand?
21 / 22
byte5
Wer wir sind

Wir bauen Agentic AI Solutions
für geschäftskritische Szenarien

byte5 ist ein Software­unter­nehmen aus Frankfurt mit über 20 Jahren Erfahrung, spezialisiert auf KI-Lösungen, die bei Mittelstand und Konzernen auch dann tragen, wenn Genauigkeit, Sicherheit und Integration entscheiden.

LLM-Integration
Vom Prototyp zur produktiven, geprüften Anwendung in Ihrer Infrastruktur.
Agenten-Systeme
Werkzeug-Anbindung, Berechtigungen, Geländer, Beobachtbarkeit. Engineering, kein Demo.
Strategie & Roadmap
Use-Case-Bewertung, Datenschutz, Architektur. Wir helfen einzuschätzen, wo es sich lohnt, und wo nicht.
Jetzt Gespräch vereinbaren Mehr über byte5.ai erfahren
22 / 22