byte5

ENTMYSTIFIZIERT

Wie LLMs
wirklich funktionieren

Die Funktionsweise moderner Sprachmodelle: von Tokens bis Agents

Erstellt von byte5.ai · KI-Expertise für Unternehmen

→ Pfeiltasten oder klicken

byte5

Eine seltsame Begegnung

Sie unterhalten sich gerade mit einer Maschine,
die kein einziges Wort versteht

Trotzdem schreibt sie Code, fasst Verträge zusammen, beantwortet Fragen und klingt dabei oft erschreckend klug.

Wie ist das möglich?

byte5

Erst einmal aufräumen

„KI“ und LLMs sind nicht dasselbe

Klassische KI

Das alte Versprechen

Die KI-Forschung jagt seit den 1950er-Jahren einem großen Ziel hinterher: einer Maschine, die wie ein Mensch versteht, schlussfolgert, ein persistierendes Bewusstsein hat und selbständig Ziele verfolgt: die starke KI der Popkultur.

Trotz Jahrzehnten Forschung bleibt dieses Ziel bis heute ungelöst. Auf jede Phase der Euphorie folgte bisher ein langer Winter.

LLMs

Etwas Neues

Ein LLM denkt nicht. Es berechnet, welche Wortfolge auf eine Eingabe statistisch am wahrscheinlichsten ist. Das Ergebnis fühlt sich oft an wie Verstehen. Es ist aber eine Simulation, kein Bewusstsein.

Genau weil das Ziel kleiner ist, ging es plötzlich schnell.

Beides läuft im Volksmund unter „KI“. Wer LLMs verstehen will, sollte den Anspruch der starken KI dabei ausdrücklich nicht mitdenken.

03 / 22

byte5

Der entscheidende Unterschied

Klassische KI braucht Spezialisten
LLMs sind Generalisten

Klassisches Vorgehen

Problem definieren → passende Architektur entwerfen
Trainingsdaten manuell sammeln und labeln
Modell trainieren, das nur dieses eine kann
Neues Problem? Von vorn beginnen.

LLM-Vorgehen

Ein riesiges Modell auf Text-Vorhersage trainieren
Fertig. Dasselbe Modell macht alles, was sich als Text ausdrücken lässt
Übersetzen, Programmieren, Argumentieren, gleicher Unterbau
Neue Aufgabe? Einfach anders fragen oder Daten anreichern.

Statt tausend kleiner Modelle für tausend Aufgaben: ein großes Modell als sprachliches Universalwerkzeug.

04 / 22

byte5

Die Grundidee

Computer rechnen mit Zahlen
Also wird Sprache zu Zahlen

„Hallo Welt“

Text, wie wir ihn lesen

→

[15496, 200, 25368]

Token-IDs

→

[0.21, −0.04, 0.88,
… 4096 Zahlen …]

Vektor (Embedding)

Erst nach dieser Übersetzung kann das Modell überhaupt etwas „tun“. Schauen wir uns die Schritte einzeln an.

05 / 22

byte5

Schritt 1: Tokenisierung

Text wird in Bausteine zerlegt

Ein Token ist meist ein Wortteil, kein ganzes Wort, kein einzelner Buchstabe. Das macht die Verarbeitung effizient: häufige Wörter sind ein einziges Token, seltene werden in Stücke zerlegt.

Eingabetext:

0 Tokens Faustregel: 1 deutsches Wort ≈ 1,5–2 Tokens (Komposita werden zerlegt)

Hinweis: Die hier gezeigte Zerlegung ist eine vereinfachte Demonstration. Echte Modelle nutzen Verfahren wie Byte-Pair-Encoding und lernen aus Milliarden Sätzen, welche Stücke häufig zusammen vorkommen.

06 / 22

byte5

Schritt 2: Embedding

Jedes Token wird zu einem Vektor

Ein Vektor ist eine lange Liste von Zahlen, die man sich als Koordinaten für einen Punkt in einem Raum vorstellen kann. Bei modernen Modellen hat dieser Raum 4 000 bis 12 000 Dimensionen, also entsprechend viele Zahlen pro Token.

Diese Zahlen sind nicht zufällig. Sie werden während des Trainings so eingestellt, dass verwandte Wörter im selben Bereich des Raums landen.

Bedeutung wird zu Geometrie. Wörter mit ähnlichem Sinn liegen nahe beieinander, gegensätzliche weit auseinander.

Vereinfachte 2D-Projektion eines Vektorraums

07 / 22

byte5

Warum das so mächtig ist

Mit Bedeutung rechnen

König − Mann + Frau ≈ Königin

Beziehungen zwischen Wörtern (Geschlecht, Mehrzahl, Hauptstadt…) werden zu Richtungen im Raum. Das klassische Beispiel stammt aus Word2Vec (2013); bei modernen Transformern ist die Geometrie kontextabhängig, das Grundprinzip aber dasselbe. So generalisiert das Modell auf Sätze, die in dieser Form nie im Trainingstext standen.

08 / 22

byte5

Schritt 3: Die zentrale Aufgabe

Das Modell tut eine Sache: das nächste Token vorhersagen

Bei jeder Anfrage berechnet das LLM für jedes mögliche Token in seinem Vokabular eine Wahrscheinlichkeit und wählt dann eines davon aus.

Eingabe

„Der Kaffee ist heiß und ich trinke ihn am liebsten am ___“

Wahrscheinlichkeiten für das nächste Token

Morgen

Sonntag

Abend

Schreibtisch

Strand

So entstehen ganze Antworten, Token für Token. Klicken Sie mehrmals; das Ergebnis ist absichtlich nicht jedes Mal gleich.

09 / 22

byte5

Schritt 4: Architektur

Die Maschine dahinter heißt Transformer

Der Transformer ist die Architektur, mit der seit 2017 fast alle bedeutenden LLMs gebaut werden. Vereinfacht: Eine Schichtenstruktur, die einen Token-Strom als Vektoren immer weiter umrechnet, bis am Ende die Wahrscheinlichkeiten herauskommen.

→

Tokens

Eingabe

⬡

Embeddings

Vektoren

⌬

N× Attention

Schichten

∑

Logits

Roh-Werte

Wahrscheinlichkeiten

Token-Auswahl

Das Herzstück sind die Attention-Schichten, typischerweise 30 bis 100 davon, gestapelt. In jeder Schicht wird das Verständnis des Textes ein Stück tiefer.

10 / 22

byte5

Der eine Trick, der alles verändert hat

Attention: Jedes Token schaut auf alle vorherigen

Bei jeder Schicht entscheidet das Modell für jedes Token: welche der vorherigen Tokens sind gerade wichtig für mich? Das ist Attention. (Bei Encoder-Modellen wie BERT geht der Blick in beide Richtungen; moderne Chat-LLMs sind decoder-only und schauen nur zurück.)

Beispiel: Bei welchem Wort ist „sie“ angesprochen?

Die Katze jagt die Maus , weil sie hungrig ist.

„sie“ kann auf „Katze“ oder „Maus“ zurückblicken. Das Modell gewichtet beide.

So versteht das Modell einen ganzen Absatz auf einmal und vergisst nicht, was am Anfang stand.

11 / 22

byte5

Zwischenstand

Ein LLM ist am Ende eine riesige Tabelle von Zahlen

Diese Zahlen heißen Parameter oder Gewichte. Sie kodieren alles, was das Modell „weiß“: Grammatik, Fakten, Stil, Code-Idiome.

1–10 Mrd.

Klein / lokal

70–100 Mrd.

Mittelklasse

1–3 Bill.

Top-Tier (geschätzt)

Jeder einzelne dieser Parameter wird im Training schrittweise optimiert. Wie? Das ist der nächste Akt.

12 / 22

byte5

Phase 1: Pretraining

Das halbe Internet als Lehrer

Im Pretraining bekommt das Modell einen gewaltigen Textkorpus (Webseiten, Bücher, Wikipedia, Code, Foren, Fachartikel) und eine einzige Aufgabe.

„Sage mir das nächste Token voraus.“

Milliarden Mal. Trillionen von Tokens. Nebeneffekt: damit das nächste Token gut sitzt, muss das Modell Grammatik, Fakten und logisches Schließen mitlernen, nicht weil es angewiesen wurde, sondern weil es ohne diese Fähigkeiten nicht gut genug raten könnte.

Größenordnung

~15 Billionen

Trainings-Tokens

10 000 bis 100 000+

spezialisierte GPUs parallel

Wochen bis Monate

durchgängige Rechenzeit

~100 Mio. bis 1 Mrd. €

Kosten pro Top-Modell-Lauf

13 / 22

byte5

Aber Vorsicht

Das Rohmodell ist kein Assistent
Es ist ein Autokomplettieren auf Steroiden

Nach dem Pretraining hat das Modell gelernt, Internet-Text fortzuführen, nicht eine konkrete Frage hilfreich zu beantworten. Eine simple Frage an das Rohmodell macht das deutlich:

Frage

„Was ist die Hauptstadt von Frankreich?“

Rohmodell antwortet

„Was ist die Hauptstadt von Italien? Was ist die Hauptstadt von Spanien?…“

Frage

„Was ist 2+2?“

Rohmodell antwortet

„Eine simple Mathe-Frage, oft gestellt von Lehrern in der zweiten Klasse.“

Im Internet stehen Listen ähnlicher Fragen, also wird die Frage als Liste fortgeführt. Logisch aus Sicht der Vorhersage, nutzlos als Antwort.

14 / 22

byte5

Phase 2: Fine-Tuning

Manieren beibringen

Im Fine-Tuning wird das Rohmodell weiter trainiert, auf einem kuratierten Datensatz aus Frage-Antwort-Paaren. Die Paare zeigen dem Modell das gewünschte Format: Frage rein, hilfreiche Antwort raus.

Was ist die Hauptstadt von Frankreich?

Die Hauptstadt von Frankreich ist Paris.

Daten

Heute Millionen Beispiele: von Menschen verfasste Seed-Daten und Richtlinien, der Großteil aber synthetisch von stärkeren Modellen erzeugt (Destillation).

Wirkung

Das Modell lernt das Format, nicht neue Fakten. Das Wissen kommt aus dem Pretraining; das Fine-Tuning verschiebt nur das Verhalten.

15 / 22

byte5

Phase 3: Lernen aus Feedback

RLHF — Menschen wählen, das Modell passt sich an

Reinforcement Learning from Human Feedback. Klingt sperrig, ist aber simpel: Das Modell schreibt mehrere Antworten, jemand sagt welche besser ist, das Modell bekommt einen Schubs in diese Richtung.

Antworten erzeugen

Das Modell beantwortet dieselbe Frage mehrfach, in verschiedenen Varianten.

Antworten bewerten

Menschen definieren die Kriterien. Die Masse der Vergleiche übernehmen zunehmend KI-Modelle (RLAIF, Constitutional AI).

Modell justieren

Antworten, die häufig vorne lagen, werden wahrscheinlicher; die anderen seltener.

RLHF macht aus einem belesenen Modell ein nützliches Werkzeug. Höflichkeit, Klarheit, Sicherheitsleitplanken: all das wird hier eingestellt.

16 / 22

byte5

Im Live-Betrieb

Inference: Was passiert, wenn Sie tippen

Das fertig trainierte Modell wird auf einem Server gehostet. Schicken Sie eine Anfrage, durchläuft Ihr Text die folgenden Stationen, Token für Token, in Echtzeit.

1Ihr Text wird tokenisiert—

2Tokens werden zu Embeddings—

3Attention-Schichten verarbeiten den Kontext—

4Wahrscheinlichkeiten für nächstes Token berechnen—

5Ein Token auswählen → ausgeben → an Schritt 3 zurück—

Der Loop von Schritt 3–5 wiederholt sich für jedes Wort der Antwort. Deshalb sehen Sie Antworten Token für Token aufploppen.

17 / 22

03

Teil 3 von 4

Vom Modell zum Agenten

Was Sie heute als „ChatGPT" oder „Claude" erleben, ist nicht mehr nur ein Modell. Es ist ein Modell mit Gedächtnis, Werkzeugen, Plan und einer bewusst gestalteten Persönlichkeit. Wie Claude wirkt, wie sich GPT „anfühlt", ist kein Trainings-Zufall, sondern Agent-Design der Anbieter.

byte5

Drei Stufen, ein Trend

Modell → Chat-Assistent → Agent

Sprachmodell

Bekommt Text, gibt Text aus. Keine Erinnerung an die letzte Anfrage. Reine Funktion.

Chat-Assistent

Modell + Konversations-Speicher + System-Anweisungen. Hält die Unterhaltung im Kontext.

Agent

Chat + Rolle & Verhaltensvorgaben + Werkzeuge (Web, Dateien, Code, APIs). Plant mehrere Schritte, prüft Ergebnisse, korrigiert sich.

Werkzeuge sind Funktionen

Das Modell lernt im Training, wann es eine Funktion aufrufen soll (z. B. web.search("…") oder db.query("…")) und wie es das Ergebnis interpretiert.

Schleife statt Einzelantwort

Ein Agent läuft in einer Schleife: Plan → Werkzeug → Ergebnis lesen → neuer Plan. So entstehen mehrstufige Aufgaben wie „buche mir den Flug“.

18 / 22

byte5

Die Auflösung

Warum waren LLMs plötzlich da?

Die Idee, ein neuronales Netz auf das nächste Wort zu trainieren, ist alt. Drei Dinge mussten zusammenkommen, damit aus der Idee ein nützliches System wurde.

Architektur

Der Transformer (2017) ist parallelisierbar. Vorgänger-Architekturen mussten Wort für Wort rechnen, ein Flaschenhals beim Training.

Daten

Das Internet als Korpus. Erstmals genug Text in maschinenlesbarer Form, um Milliarden Parameter sinnvoll zu trainieren.

Hardware

GPUs, ursprünglich für Grafik gebaut, lassen sich gut auf Matrix-Mathe nutzen, also genau das, was Transformer brauchen.

Skalierung macht den Unterschied. Viele Fähigkeiten heutiger Modelle (mehrstufiges Argumentieren, Code schreiben, mehrsprachig antworten) brauchen ab einer gewissen Schwelle Modell- und Datenmenge. Diese Schwelle sinkt mit besseren Daten und Trainingsmethoden: was vor zwei Jahren nur 175-Mrd.-Modelle konnten, schafft heute teilweise schon ein 8-Mrd.-Modell.

19 / 22

byte5

Ehrlich machen

Was LLMs nicht können

Wahrheit garantieren

Ein LLM rät das wahrscheinlichste nächste Token. Das ist oft richtig, aber nicht weil es richtig ist, sondern weil es plausibel klingt. Bei Fakten: immer prüfen.

In Echtzeit lernen

Das Wissen ist auf den Trainingszeitpunkt eingefroren. Aktuelles bekommt es nur über Werkzeuge: Web-Suche, Datenbank-Anbindung, RAG.

Lange Logikketten

Bei langen Beweis- und Rechenketten (komplexe Mathematik, formale Logik) macht jeder Schritt einen kleinen Fehler, und die Fehler addieren sich.

Verstehen wie ein Mensch

Was wie Verständnis aussieht, ist ein extrem gut gelerntes statistisches Muster: beeindruckend nutzbar, aber kein Bewusstsein.

20 / 22

byte5

Praxis

Was das für Ihr Unternehmen bedeutet

Sprachliche Aufgaben sind Massenware geworden.

Zusammenfassen, klassifizieren, übersetzen: Kompetenz, die früher Spezialteams brauchte, ist heute eine API-Anfrage.

Der Wert sitzt im Kontext.

Das Basis-Modell ist überall gleich. Was zählt, ist Anbindung an Ihre Daten, Prozesse und Werkzeuge.

Agenten brauchen Geländer.

Werkzeug-Nutzung, Berechtigungen, Fehlerbehandlung: klassisches Software-Engineering, nur mit einem nicht-deterministischen Akteur.

Die richtigen Fragen, die Sie sich stellen sollten

Wo in unseren Prozessen ist Sprache der Engpass?

Welche Daten dürfen ein LLM überhaupt sehen, und unter welchen Bedingungen?

Was passiert, wenn das Modell sich irrt?

Welcher Geschäftswert rechtfertigt welchen Aufwand?

21 / 22

byte5

Wer wir sind

Wir bauen Agentic AI Solutions
für geschäftskritische Szenarien

byte5 ist ein Softwareunternehmen aus Frankfurt mit über 20 Jahren Erfahrung, spezialisiert auf KI-Lösungen, die bei Mittelstand und Konzernen auch dann tragen, wenn Genauigkeit, Sicherheit und Integration entscheiden.

LLM-Integration

Vom Prototyp zur produktiven, geprüften Anwendung in Ihrer Infrastruktur.

Agenten-Systeme

Werkzeug-Anbindung, Berechtigungen, Geländer, Beobachtbarkeit. Engineering, kein Demo.

Strategie & Roadmap

Use-Case-Bewertung, Datenschutz, Architektur. Wir helfen einzuschätzen, wo es sich lohnt, und wo nicht.

Jetzt Gespräch vereinbaren Mehr über byte5.ai erfahren

22 / 22

Wie LLMswirklich funktionieren

Sie unterhalten sich gerade mit einer Maschine,die kein einziges Wort versteht

„KI“ und LLMs sind nicht dasselbe

Das alte Versprechen

Etwas Neues

Klassische KI braucht SpezialistenLLMs sind Generalisten

Klassisches Vorgehen

LLM-Vorgehen

01

Die Bausteine

Computer rechnen mit ZahlenAlso wird Sprache zu Zahlen

Text wird in Bausteine zerlegt

Jedes Token wird zu einem Vektor

Mit Bedeutung rechnen

Das Modell tut eine Sache: das nächste Token vorhersagen

Die Maschine dahinter heißt Transformer

Attention: Jedes Token schaut auf alle vorherigen

Ein LLM ist am Ende eine riesige Tabelle von Zahlen

02

Wie das Modell lernt

Das halbe Internet als Lehrer

Das Rohmodell ist kein AssistentEs ist ein Auto­komplet­tieren auf Steroiden

Manieren beibringen

Daten

Wirkung

RLHF — Menschen wählen, das Modell passt sich an

Antworten erzeugen

Antworten bewerten

Modell justieren

Inference: Was passiert, wenn Sie tippen

03

Vom Modell zum Agenten

Modell → Chat-Assistent → Agent

Sprachmodell

Chat-Assistent

Agent

Werkzeuge sind Funktionen

Schleife statt Einzelantwort

Warum waren LLMs plötzlich da?

Architektur

Daten

Hardware

Was LLMs nicht können

Wahrheit garantieren

In Echtzeit lernen

Lange Logikketten

Verstehen wie ein Mensch

Was das für Ihr Unternehmen bedeutet

Die richtigen Fragen, die Sie sich stellen sollten

Wir bauen Agentic AI Solutionsfür geschäftskritische Szenarien

Wie LLMs
wirklich funktionieren

Sie unterhalten sich gerade mit einer Maschine,
die kein einziges Wort versteht

Klassische KI braucht Spezialisten
LLMs sind Generalisten

Computer rechnen mit Zahlen
Also wird Sprache zu Zahlen

Das Rohmodell ist kein Assistent
Es ist ein Autokomplettieren auf Steroiden

Wir bauen Agentic AI Solutions
für geschäftskritische Szenarien