Transformer-Architektur: Wie moderne KI funktioniert
Die Transformer-Architektur ist die technische Basis von ChatGPT, Claude, Gemini und allen modernen Sprach- und Bildmodellen. Vollständige Erklärung von Self-Attention, Multi-Head-Attention, Positional Encoding, Encoder/Decoder-Strukturen und der Entwicklung von Attention Is All You Need“ (2017) bis zu Mixture-of-Experts und Reasoning-Modellen 2026.
Warum Transformer alles verändert haben
Bis 2017 dominierten rekurrente Architekturen (RNN, LSTM, GRU) das Feld der Sequenzverarbeitung. Sie haben einen strukturellen Nachteil: Information fließt sequenziell durch Zeitschritte, lange Abhängigkeiten verschwimmen, und Training lässt sich kaum parallelisieren — jedes Token wartet auf das vorherige. Das limitierte sowohl Modellgröße als auch Trainings-Geschwindigkeit fundamental.
„Attention Is All You Need” (Vaswani et al., 2017) hat das in einem Schlag aufgelöst. Acht Forschende bei Google Brain/Research zeigten, dass eine Architektur nur aus Attention-Operationen plus Feed-Forward-Layern, ohne jede Rekursion, sequence-to-sequence-Aufgaben besser löst — und sich dabei auf GPUs vollständig parallelisieren lässt. Innerhalb von zwei Jahren hatte die Architektur das Feld erobert: BERT (2018, Encoder-only), GPT-2 (2019, Decoder-only), T5 (2019, Encoder-Decoder). Innerhalb von fünf Jahren waren rekurrente Netze für Sprachverarbeitung praktisch obsolet.
Heute, neun Jahre nach dem Paper, sind Transformer die dominante Architektur in Sprache, Bild, Audio, Code, Proteinfaltung (AlphaFold 2/3) und Robotik. Praktisch alle Frontier-Modelle 2026 — GPT-4o, GPT-o3, Claude 3.5/4.6, Gemini 2.5, Llama 3.x, Mistral, DeepSeek V3 — sind Transformer-Varianten. Wer verstehen will, wie moderne KI funktioniert, kommt um diese Architektur nicht herum.
Self-Attention: der Kern-Mechanismus
Self-Attention ist die Operation, die jedem Token erlaubt, alle anderen Tokens in der Sequenz direkt zu „betrachten”. Konzeptuell:
Für jedes Token werden drei Vektoren berechnet — über drei lineare Projektionen der Token-Repräsentation:
- Query (Q): „Was suche ich?”
- Key (K): „Was biete ich an?”
- Value (V): „Welche Information trage ich, wenn ich relevant bin?”
Die Attention zwischen zwei Tokens ergibt sich aus dem Skalarprodukt von Query (vom „fragenden” Token) und Key (vom „angesprochenen” Token), skaliert durch die Wurzel der Dimension und durch Softmax normiert. Das resultierende Gewicht bestimmt, wie stark der Value des angesprochenen Tokens in die neue Repräsentation des fragenden Tokens einfließt. Die Formel: Attention(Q,K,V) = softmax(QK^T / √d) · V.
Praktisch bedeutet das: Wenn das Modell den Satz „Der Hund, der drei Stunden gewartet hatte, sprang dem Postboten an” verarbeitet und beim Token „sprang” angekommen ist, kann Self-Attention direkt zu „Hund” zurückgreifen — ohne Information durch alle Zwischen-Tokens hindurchzureichen. Das ist der zentrale Vorteil gegenüber RNNs: konstante Pfadlänge zwischen beliebigen Tokens.
Multi-Head Attention: viele parallele Perspektiven
Eine einzige Attention-Operation reicht in der Praxis nicht. Verschiedene linguistische Beziehungen — Subjekt-Verb-Kongruenz, Pronomen-Referenz, semantische Ähnlichkeit, syntaktische Hierarchie — verlangen unterschiedliche „Blickwinkel”. Multi-Head Attention läuft daher mehrere (typisch 8 bis 32) Attention-Operationen parallel; jede mit eigenen Q/K/V-Projektionen.
Empirische Studien (etwa Voita et al. 2019) zeigen, dass sich Heads im Training tatsächlich auf unterschiedliche Phänomene spezialisieren — manche tracken syntaktische Dependencies, andere semantische Ähnlichkeit, wieder andere Diskurs-Struktur. Das ist mit ein Grund, warum Transformer so vielseitig sind: ein einziges Modell trägt mehrere parallele Repräsentationen.
Die Outputs der Heads werden konkateniert und über eine letzte lineare Projektion zusammengeführt. Anschließend folgen — pro Layer — Layer-Normalisierung, ein zweistufiger Feed-Forward-Block (mit nicht-linearer Aktivierung wie GELU oder SwiGLU), erneute Layer-Norm und Residual-Connections. Ein typisches Frontier-Modell 2026 stapelt 60 bis 120 solcher Blöcke übereinander.
Positional Encoding: Reihenfolge zurückgewinnen
Self-Attention ist von sich aus permutations-invariant — sie sieht die Reihenfolge der Tokens nicht. „Hund beißt Mann” und „Mann beißt Hund” wären für reine Attention identisch. Damit das Modell Reihenfolge berücksichtigen kann, wird jeder Position ein eigener Vektor zugewiesen, der zu der Token-Repräsentation addiert wird.
Das Original-Paper nutzte sinusoidale Positional Encodings — feste, nicht gelernte Funktionen verschiedener Frequenzen. Spätere Modelle setzten auf gelernte Position-Embeddings (BERT, GPT-2). 2026 dominieren zwei neuere Varianten: RoPE (Rotary Position Embedding) rotiert Q- und K-Vektoren in Abhängigkeit der Position; ALiBi (Attention with Linear Biases) addiert eine lineare Strafe in die Attention-Scores für entfernte Positionen. Beide skalieren deutlich besser auf lange Kontexte als sinusoidale Encodings — ein wesentlicher Baustein der 1–2-Millionen-Token-Context-Windows von Gemini Pro und Long-Context-Claude.
Tokenization: vom Text zur Sequenz
Bevor ein Transformer überhaupt Self-Attention rechnen kann, muss Text in Tokens zerlegt werden — diskrete Einheiten, die das Modell als Eingabe versteht. Reine Buchstaben-Tokenisierung wäre verschwenderisch (zu viele Schritte pro Wort), reine Wort-Tokenisierung würde das Vokabular bei seltenen Wörtern oder Tippfehlern explodieren lassen.
Die 2026er-Standard-Lösung sind Subword-Verfahren: Byte-Pair Encoding (BPE, GPT-2/3/4), WordPiece (BERT) und SentencePiece (T5, Llama). Sie zerlegen häufige Wörter in einzelne Tokens und seltene in Subword-Stücke. Ein deutscher Satz wird tendenziell stärker fragmentiert als ein englischer, weil englisches Trainingsmaterial dominiert — daher braucht ein deutscher Text durchschnittlich mehr Tokens für die gleiche Aussage. Das hat direkte Konsequenzen für Kosten und Context-Window-Auslastung.
Jedes Token wird über eine Embedding-Tabelle in einen hochdimensionalen Vektor übersetzt (typisch 768 bis 12.288 Dimensionen). Diese Vektoren sind gelernte Parameter — nach dem Training tragen sie semantisch reichhaltige Information: ähnliche Tokens liegen im Vektorraum näher beieinander, und einfache Vektor-Arithmetik (das berühmte „König − Mann + Frau ≈ Königin”) wird sichtbar.
Wie ein Token durch das Modell läuft
Ein konkreter Walkthrough macht die Architektur greifbar. Eingabe: der Satz „Die Hauptstadt von Frankreich ist”. Ziel: das nächste Token vorhersagen.
Schritt 1 — Tokenisierung: Der Satz wird in Tokens zerlegt, etwa [Die, Hauptstadt, von, Frankreich, ist]. Jedes Token erhält eine ID aus dem Vokabular.
Schritt 2 — Embedding: Jede Token-ID wird in einen Vektor übersetzt. Positional Encoding (sinusoidal, RoPE oder ALiBi) wird addiert, sodass die Position der Tokens kodiert ist.
Schritt 3 — Transformer-Blöcke: Die Sequenz von 5 Vektoren durchläuft 60 bis 120 Transformer-Blöcke. In jedem Block: Multi-Head Self-Attention berechnet, wie stark jedes Token auf jedes andere achten soll; ein Feed-Forward-Block transformiert jede Position individuell; Layer-Norm und Residual-Connections halten Gradienten stabil. Die Repräsentationen werden mit jedem Block reichhaltiger und kontext-spezifischer.
Schritt 4 — Output-Projektion: Die Repräsentation des letzten Tokens (in Decoder-only-Modellen) wird über eine lineare Projektion auf die Größe des Vokabulars gemappt — bei Llama 3 z. B. 128.000 Werte. Softmax verwandelt diese Werte in eine Wahrscheinlichkeitsverteilung über alle möglichen nächsten Tokens.
Schritt 5 — Sampling: Aus dieser Verteilung wird das nächste Token gezogen — entweder deterministisch (Greedy: höchste Wahrscheinlichkeit) oder stochastisch (Temperature, Top-k, Top-p / Nucleus-Sampling). Das gewählte Token wird an die Sequenz angehängt; Schritt 1 bis 5 wiederholt sich für die nächste Position. Das ist autoregressive Generierung.
Bei „Die Hauptstadt von Frankreich ist” wird das Modell mit hoher Wahrscheinlichkeit das Token „Paris” wählen — das ist im Trainingsmaterial milliardenfach assoziiert, und die letzten Layer haben über alle Token-Beziehungen genug Information aggregiert, um „Paris” als plausibelste Fortsetzung zu identifizieren.
Drei Architektur-Familien
Aus dem Original-Transformer haben sich drei Familien entwickelt, die unterschiedlich strukturiert sind und unterschiedliche Aufgaben lösen.
Encoder-only (BERT-Familie)
Liest den gesamten Input bidirektional — jedes Token sieht den vollen Kontext links und rechts. Trainings-Objective ist meist Masked Language Modeling (MLM): zufällige Tokens werden maskiert, das Modell lernt sie aus dem Kontext zu rekonstruieren. Encoder-only-Modelle erzeugen sehr gute kontextuelle Embeddings — ideal für Klassifikation, Named-Entity-Recognition, Retrieval (Suche, RAG-Embeddings) und Ähnlichkeits-Aufgaben. Praxis-Vertreter: BERT, RoBERTa, DeBERTa, sowie die meisten 2026er Embedding-Modelle (text-embedding-3-large, BGE, E5, Cohere Embed v3 sind Encoder-Varianten).
Decoder-only (GPT-Familie)
Generiert Token für Token autoregressiv — jedes Token sieht nur die vorhergehenden, nicht die kommenden (Causal Masking). Trainings-Objective ist Next-Token-Prediction. Diese Familie dominiert die generativen 2026-Modelle: GPT-4o, GPT-o3, Claude 3.5/4.6, Llama 3.x, Mistral, DeepSeek, Qwen, Gemma sind alle Decoder-only. Stärken: skaliert hervorragend, erlaubt sehr direkte Generierung, lässt sich mit Instruction Tuning und RLHF gut alignen.
Encoder-Decoder (T5-Familie)
Kombiniert beides: ein Encoder-Stack erzeugt Repräsentationen des Inputs, ein Decoder-Stack generiert den Output und greift dabei via Cross-Attention auf die Encoder-Repräsentationen zu. Klassisch für Sequence-to-Sequence-Aufgaben (Übersetzung, Zusammenfassung). Vertreter: T5, BART, mT5, Flan-T5. 2026 ist diese Familie weniger sichtbar als die Decoder-only-Welt — viele klassische Encoder-Decoder-Aufgaben werden heute mit großen Decoder-only-Modellen gelöst, die das gleiche Verhalten in-context lernen.
Wichtige 2026er Evolutionen
Die Grundarchitektur von 2017 ist intakt — aber zentrale Module sind in den letzten Jahren ausgetauscht oder erweitert worden.
Mixture-of-Experts (MoE). Statt eines monolithischen Feed-Forward-Layers existieren viele Experten-Layer, von denen pro Token nur wenige (Top-2 bis Top-8) aktiviert werden — gesteuert durch ein gelerntes Routing-Netzwerk. Vorteil: Modelle mit Hunderten Milliarden Parametern werden möglich, ohne dass jede Anfrage alle aktiviert. Mistral 8x7B (Mixtral), DeepSeek V3 und Gemini Pro nutzen MoE produktiv. Inference-Effizienz steigt deutlich, Training wird komplexer (Routing-Stabilität, Expert-Balancing).
Long-Context-Optimierungen. Naive Self-Attention skaliert quadratisch mit der Sequenzlänge — bei 1 Million Tokens unbezahlbar. Drei Hebel haben sich durchgesetzt: Flash-Attention (Dao et al. 2022, 2023) ist eine GPU-effiziente Re-Implementation, die mit denselben mathematischen Operationen 2–4× schneller läuft. Sliding-Window-Attention (Mistral) beschränkt jedem Token nur eine Nachbarschaft. Sparse-Attention-Patterns (Longformer, BigBird) kombinieren globale und lokale Attention. Zusammen mit RoPE/ALiBi haben sie 200k–2M-Token-Context-Windows ökonomisch tragfähig gemacht.
Reasoning-Modelle. GPT-o3, Claude Extended Thinking und Gemini Deep-Think integrieren Chain-of-Thought direkt ins Modell-Verhalten — über Reinforcement Learning auf Lösungspfaden statt nur auf Endantworten. Das Modell „denkt” intern länger (mehr Tokens), bevor es die finale Antwort produziert. Architektonisch sind diese Modelle weiterhin Transformer; der Unterschied liegt in Training und Inferenz-Pipeline. Praktisch resultiert das in messbar besseren Ergebnissen bei Mathematik, Code und mehrstufiger Logik — bei höherer Latenz und höheren Token-Kosten.
State-Space-Modelle als Alternative. Außerhalb der Transformer-Familie haben Mamba, RWKV und Mamba-2 (Gu & Dao 2023, 2024) Aufmerksamkeit gewonnen — sie skalieren linear in der Sequenzlänge und sind für sehr lange Kontexte (Bio-Sequenzen, Audio) attraktiv. 2026 dominieren Transformer weiterhin im Mainstream, aber State-Space-Hybride sind in Forschung und einzelnen produktiven Modellen sichtbar.
Vision- und Multimodal-Transformer
Die Architektur ist nicht auf Text begrenzt. Vision Transformer (ViT) — Dosovitskiy et al. 2020 — zerschneidet ein Bild in Patches (z. B. 16×16 Pixel), behandelt jeden Patch wie ein Token und verarbeitet die Sequenz mit einem Standard-Transformer-Encoder. Ergebnis: bei ausreichend Trainingsdaten schlägt ViT klassische CNNs auf ImageNet und vielen anderen Benchmarks. Heute sind Vision Transformer Standard in Bild-Klassifikation, -Segmentation und Detection.
Multimodale Modelle integrieren Text-, Bild- und Audio-Tokens in einen gemeinsamen Transformer-Stack. GPT-4o, Gemini 2.5 und Claude 3.5 verarbeiten Mixed-Modal-Eingaben nativ — ein Bild wird durch einen Vision-Encoder in Token übersetzt, die anschließend gemeinsam mit Text-Tokens durch das Sprachmodell laufen. Das ermöglicht Anwendungen wie Bildbeschreibung, OCR, Diagramm-Analyse, Code-aus-Skizze, Audio-Antwort — alle aus einer einzigen Modell-Architektur.
In der Robotik (RT-2 von DeepMind, OpenVLA, π0 von Physical Intelligence) und in der Biologie (AlphaFold 2 und 3, ESM-2) sind Transformer ebenfalls die dominante Architektur — Beleg dafür, dass das Konzept Token-Sequence + Attention sich erfolgreich auf praktisch jede strukturierte Daten-Domäne übertragen lässt.
Verwandte Themen
Generative KI ordnet Transformer in den größeren Kontext ein — wo kommen LLMs her, was sind Tokens, Embeddings, Sampling. Maschinelles Lernen erklärt die Lern-Mechanik (Backpropagation, Loss-Funktionen), die Transformer überhaupt erst trainierbar macht. Deep Learning zeigt die historische Entwicklung — von Perzeptron über CNN/RNN bis zur Transformer-Ära. Auf der Praxis-Seite: Prompt Engineering nutzt Wissen über Self-Attention und Context-Windows aktiv (XML-Tags, Long-Context-Strukturierung); RAG baut auf Encoder-Embeddings (also einer Transformer-Variante) und greift auf Decoder-Generation zurück. Diffusionsmodelle sind die wichtigste alternative Architektur in der Bildgenerierung — mit teils Transformer-basierten Backbones. Zukunft der KI skizziert, wohin sich die Architektur weiterentwickelt.
Anwendungs-Bezüge:
- Softwareentwicklung und IT: Code-Modelle (Codex, Copilot, Claude Sonnet) sind Transformer mit Code-spezifischer Tokenisierung und Trainingsdaten.
- E-Commerce und Handel: Vision-Transformer-basierte Produktbild-Analyse und multimodale Such-Systeme sind 2026 produktiver Standard.
- Gesundheitswesen: Vision-Transformer für Radiologie-Bilder, Protein-Transformer (ESM, AlphaFold) für Wirkstoff-Forschung — andere Anwendungen derselben Architektur.
Schluss-Bemerkung
Transformer ist 2026 keine experimentelle Architektur mehr, sondern fast ein Synonym für „moderne KI”. Ihre Kern-Idee — Self-Attention statt Rekursion — hat sich in neun Jahren als so robust erwiesen, dass Sprache, Bild, Audio, Code, Biologie und Robotik darauf konvergieren. Die Architektur wird weiter evolvieren (MoE, Long-Context, Reasoning, State-Space-Hybride), aber das Grundprinzip bleibt: Tokens werden zu Vektoren, Attention vermittelt Beziehungen zwischen ihnen, viele solcher Blöcke übereinander ergeben das Modell. Wer das verstanden hat, kann praktisch jede aktuelle Modell-Beschreibung lesen.
Weiterführend
Häufige Fragen
Was ist die Transformer-Architektur in einem Satz?
Transformer ist eine 2017 vorgestellte neuronale Netz-Architektur, die Self-Attention statt rekurrenter Verbindungen nutzt — sie verarbeitet Sequenzen vollständig parallel und ist damit auf GPUs effizient skalierbar. Praktisch alle modernen Sprachmodelle (ChatGPT, Claude, Gemini, Llama, Mistral) und viele Bild- und Audio-Modelle bauen darauf auf.
Wer hat den Transformer erfunden?
Acht Forschende bei Google Brain und Google Research veröffentlichten 2017 das Paper Attention Is All You Need“ (Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser, Polosukhin). Ursprünglich für maschinelle Übersetzung gedacht, hat sich die Architektur in den folgenden Jahren über praktisch alle ML-Domänen ausgebreitet.“
Was ist Self-Attention konkret?
Self-Attention erlaubt jedem Token in einer Sequenz, mit jedem anderen Token direkt zu interagieren — das Modell berechnet pro Position eine gewichtete Summe aller anderen Positionen, basierend auf gelernten Query-, Key- und Value-Vektoren. Damit kann ein Wort am Ende eines Satzes auf ein Subjekt am Anfang Bezug nehmen, ohne den Pfad durch Zwischenwörter zu verlieren — der zentrale Vorteil gegenüber RNNs.
Was ist der Unterschied zwischen Encoder-only, Decoder-only und Encoder-Decoder?
Encoder-only-Modelle wie BERT lesen den gesamten Input bidirektional und erzeugen Embeddings — ideal für Klassifikation und Suche. Decoder-only-Modelle wie GPT, Claude und Llama generieren Token für Token autoregressiv — ideal für Textgenerierung. Encoder-Decoder-Modelle wie T5 oder das Original-Transformer kombinieren beide für klassische Sequence-to-Sequence-Aufgaben (Übersetzung, Zusammenfassung).
Wozu braucht ein Transformer Positional Encoding?
Self-Attention selbst ist permutations-invariant — sie sieht die Reihenfolge der Tokens nicht. Damit der Transformer zwischen Hund beißt Mann“ und Mann beißt Hund“ unterscheiden kann, wird jeder Position ein eindeutiger Vektor (Positional Encoding) addiert. Moderne Varianten wie RoPE (Rotary Position Embedding) oder ALiBi haben das ursprüngliche sinusoidale Encoding 2026 weitgehend abgelöst — sie skalieren besser mit langem Kontext.“
Was ist Multi-Head Attention?
Statt einer einzigen Attention-Operation laufen mehrere parallel — typisch 8, 16 oder 32 Heads. Jeder Head lernt einen anderen Aspekt der Beziehung zwischen Tokens (syntaktisch, semantisch, koreferenziell etc.). Die Outputs werden konkateniert und projiziert. Multi-Head ist mit ein Grund, warum Transformer so vielseitig sind — verschiedene Heads spezialisieren sich auf verschiedene linguistische Phänomene.
Was ist Mixture-of-Experts (MoE)?
MoE ist eine 2026 dominante Erweiterung: statt eines monolithischen Feed-Forward-Layers gibt es viele Experten, von denen pro Token nur wenige (Top-2 oder Top-4) aktiviert werden. Dadurch lassen sich Modelle mit hunderten Milliarden Parametern bauen, die pro Anfrage nur einen Bruchteil aktivieren — ähnliche Qualität bei deutlich niedrigerer Inferenz-Last. Mistral 8x7B, Mixtral, DeepSeek V3 und Gemini Pro setzen MoE produktiv ein.
Was ändert sich bei Reasoning-Modellen wie GPT-o3?
Reasoning-Modelle integrieren Chain-of-Thought direkt ins Modell-Training — über Reinforcement Learning auf Lösungspfaden, nicht nur auf Endantworten. Das Modell denkt intern länger, bevor es antwortet, mit messbar besseren Ergebnissen bei Mathematik, Code und mehrstufiger Logik. Architektonisch sind sie weiterhin Transformer; der Unterschied liegt in Training und Inferenz-Pipeline (mehr Tokens für interne Reasoning-Schritte).
Wie skaliert Transformer mit Sequenzlänge?
Naive Self-Attention hat quadratische Komplexität in der Sequenzlänge — verdoppelte Tokens vervierfachen den Compute-Bedarf. 2026 dominante Optimierungen: Flash-Attention (effizientere GPU-Implementierung), Sliding-Window-Attention (Mistral), Sparse-Attention-Patterns, und für sehr lange Kontexte spezialisierte Architekturen wie Mamba/State-Space-Modelle. Damit sind Context Windows von 1–2 Millionen Tokens (Gemini, Claude Long-Context) ökonomisch tragfähig geworden.
Funktionieren Transformer auch für Bilder und Audio?
Ja — Vision Transformer (ViT, Dosovitskiy et al. 2020) zerschneidet Bilder in Patches und behandelt sie wie Tokens; Audio Transformer arbeiten mit Spektrogramm-Patches oder direkten Wellenform-Tokens. Multimodale Modelle (GPT-4o, Gemini, Claude 3.5) integrieren Text-, Bild- und Audio-Tokens in einem gemeinsamen Transformer-Stack. Die Architektur erwies sich als domänen-übergreifend — ein wesentlicher Grund für ihre Vorherrschaft.