Grundlagen Level: Einsteiger

Neuronale Netze einfach erklärt

Wie neuronale Netze lernen — von Perzeptron bis Transformer. Aufbau, Training, Aktivierungsfunktionen und warum sie Bild, Sprache und Text gleichermaßen verarbeiten können.

Lukas Hoffmann · Aktualisiert 23. Mai 2026

Neuronale Netze einfach erklärt — Konzept-Illustration mit Schichten, Neuronen und gewichteten Verbindungen, die das Lernen aus Daten visualisieren.

Architekturen-Überblick auf einen Blick

Wer die Landschaft neuronaler Netze einordnen will, kommt mit fünf Architekturen sehr weit. Jede ist auf einen bestimmten Daten-Typ optimiert und hatte ihren Durchbruch zu einem bestimmten Zeitpunkt:

Architektur	Daten-Typ	Klassisches Beispiel	Jahr Durchbruch
Perceptron	tabellarisch, linear trennbar	Ziffer-Klassifikation	1958 (Rosenblatt)
MLP (Multi-Layer Perceptron)	tabellarisch, allgemein	Kunden-Churn, Credit Scoring	ab 1986 (Backprop)
CNN (Convolutional)	Bilder, Video	AlexNet auf ImageNet	2012
RNN / LSTM	Sequenzen, Audio, Zeitreihen	Spracherkennung vor Whisper	1997 (LSTM-Paper)
Transformer	Text, Multimodal	GPT-4, Claude, Gemini	2017 („Attention is all you need”)

In den folgenden Sektionen gehst du jede dieser Architekturen einmal durch — von der einzelnen Recheneinheit über das Training bis zur Frage, welche Architektur für welche Aufgabe passt.

Was ist ein neuronales Netz? — Aufbau in einem Satz

Ein neuronales Netz ist ein mathematisches Modell aus vielen einfachen Recheneinheiten, die in Schichten organisiert sind und über gelernte Gewichte miteinander kommunizieren. Die Idee stammt lose aus der Neurobiologie, der Mechanismus selbst ist reine Mathematik.

Der zentrale Baustein heißt Neuron (oder Perzeptron, wenn man präzise sein will). Es macht drei Dinge:

Es bekommt mehrere Zahlen als Input — etwa die Pixelwerte eines Bildes oder Token-Vektoren eines Satzes.
Es multipliziert jeden Input mit einem Gewicht (w) und addiert die Produkte plus einen Bias-Term (b).
Es leitet das Ergebnis durch eine Aktivierungsfunktion weiter, die entscheidet, mit welcher Stärke das Neuron „feuert”.

Formal sieht das so aus: y = f(w₁·x₁ + w₂·x₂ + … + wₙ·xₙ + b). Tausende dieser Recheneinheiten werden in Schichten gestapelt. Eine Input-Schicht nimmt die Rohdaten entgegen, eine oder mehrere Hidden-Schichten verarbeiten sie schrittweise, und eine Output-Schicht liefert das Endergebnis — bei einem Bild-Klassifikator eine Wahrscheinlichkeitsverteilung über die Klassen, bei einem Sprachmodell den nächsten Token.

Das Adjektiv „künstlich” in „künstliches neuronales Netz” markiert genau diese Differenz zur Biologie: Ein biologisches Neuron feuert in Echtzeit als Spike-Muster, nutzt chemische Neurotransmitter und ist Teil eines hochkomplexen Rückkopplungs-Geflechts. Ein künstliches Neuron ist ein Summen-Gatter mit einer nichtlinearen Funktion dahinter — nicht mehr.

Wo das hier hingehört. Wenn du gerade erst in das Feld einsteigst, ist Was ist KI? der bessere Startpunkt. Wenn du klassisches Machine Learning verstehen willst, bevor du in die neuronale Welt gehst, lies Maschinelles Lernen. Dieser Artikel ist die direkte Brücke zu Deep Learning — den tiefen neuronalen Netzen, die seit 2012 die Disziplin dominieren.

Wie lernt ein neuronales Netz aus Daten?

Lernen heißt bei einem neuronalen Netz: Die Gewichte und Biases so anpassen, dass die Vorhersagen möglichst gut mit den richtigen Antworten in den Trainingsdaten übereinstimmen. Der Prozess läuft in fünf wiederkehrenden Schritten.

Schritt 1 — Forward Pass. Ein Trainingsbeispiel — etwa ein Bild — fließt Schicht für Schicht durch das Netz. Initial sind alle Gewichte zufällig (typisch via Glorot- oder He-Initialisierung), die erste Vorhersage entsprechend schlecht. Das ist normal.

Schritt 2 — Loss berechnen. Eine Loss-Funktion vergleicht Vorhersage und tatsächliches Label und gibt eine Zahl zurück: klein = gute Vorhersage, groß = weit daneben. Für Klassifikation nimmt man Cross-Entropy, für Regression Mean Squared Error.

Schritt 3 — Backpropagation. Der Loss wird rückwärts durch das Netz propagiert. Mit Hilfe der Kettenregel berechnet das Framework für jedes Gewicht einen Gradienten — eine Zahl, die Richtung und Stärke der Anpassung angibt. PyTorch, TensorFlow und JAX erledigen das automatisch per Autodifferentiation; du musst Backprop nicht selbst implementieren, aber verstehen solltest du es.

Schritt 4 — Gradient Descent. Mit den Gradienten in der Hand wird jedes Gewicht ein kleines Stück in Richtung kleinerer Loss verschoben. Die Schrittgröße steuert die Lernrate — der wichtigste Hyperparameter. Modern wird selten reines Gradient Descent benutzt; Adam und AdamW sind heute Standard, weil sie die Lernrate pro Parameter automatisch anpassen.

Schritt 5 — Epochs wiederholen. Ein Durchgang durch alle Trainingsdaten heißt Epoch. Die Daten werden in Batches zerlegt (typisch 32, 64 oder 256 Beispiele), nach jedem Batch werden die Gewichte aktualisiert. Nach vielen Epochs konvergiert der Loss — das Netz ist fertig trainiert.

Dieser Loop läuft beim Training großer Modelle Millionen Mal. Die Mathematik dahinter ist seit Jahrzehnten bekannt; modern ist der Maßstab — die schiere Menge an Daten, Parametern und parallelen Rechnungen. Eine ausführliche Behandlung mit Loss-Beispielen und Visualisierung findest du im Hub Deep Learning.

Was macht eine Aktivierungsfunktion und welche gibt es?

Eine Aktivierungsfunktion ist die nichtlineare Funktion am Ende jedes Neurons. Ohne sie wäre ein noch so tiefes Netz mathematisch nur eine einzige lineare Funktion — zu schwach für komplexe Muster. Sie ist der Grund, warum Schichten überhaupt einen Mehrwert haben.

Vier Funktionen muss man kennen:

ReLU — max(0, x). Wenn der Input negativ ist, gibt sie 0 zurück; sonst den Input unverändert. Extrem schnell zu berechnen, kein „vanishing gradient” für positive Werte. ReLU ist heute Standard für Hidden Layers in fast allen modernen Netzen.
Sigmoid — 1 / (1 + e⁻ˣ). Quetscht den Input in den Bereich (0, 1). Schöne Wahrscheinlichkeits-Interpretation, deshalb am Output-Layer bei binären Klassifikationen üblich. Im Hidden Layer problematisch wegen vanishing gradients bei tiefen Netzen.
Tanh — (eˣ − e⁻ˣ) / (eˣ + e⁻ˣ). Quetscht in den Bereich (−1, 1) und ist nullzentriert. Historisch in RNNs verbreitet, heute selten.
Softmax — am Output-Layer bei Mehrklassen-Klassifikation. Wandelt die Roh-Outputs in Wahrscheinlichkeiten um, die zu 1 summieren.

Moderne Transformer-Modelle wie GPT, Claude und BERT nutzen Varianten von ReLU — GELU und SiLU — die etwas glatter sind und empirisch leicht bessere Ergebnisse liefern. Sie sind rechnerisch teurer, das spielt aber bei den heutigen GPU-Budgets keine relevante Rolle.

Merksatz: ReLU für Hidden Layers, Softmax am Output bei Mehrklassen, Sigmoid am Output bei Binär. Wenn du diese drei Defaults wählst, machst du in 90 % aller Fälle nichts falsch.

Welche Architekturen prägen 2026? (Perzeptron → MLP → CNN → RNN → Transformer)

Es gibt nicht „das” neuronale Netz. Welche Architektur die richtige ist, hängt am Daten-Typ. Die Familien-Geschichte in fünf Schritten:

Perzeptron (1958)

Frank Rosenblatts ursprüngliches Perceptron war ein einzelnes Neuron mit Stufenfunktion. Es konnte linear trennbare Muster lernen — also Daten, die du auf einem Blatt Papier mit einer geraden Linie in zwei Klassen teilen kannst. Sein Limit wurde 1969 von Minsky und Papert dokumentiert (kein XOR), was den ersten KI-Winter mit auslöste.

MLP — Multi-Layer Perceptron (ab 1986)

Sobald du mehrere Schichten stapelst und mit Backpropagation trainierst, bekommst du ein MLP. Es kann jede stetige Funktion approximieren (Universal Approximation Theorem). In der Praxis nutzt man MLPs heute für tabellarische Daten — Kunden-Churn, Credit Scoring, einfache Klassifikationen. Häufig schlagen aber Gradient-Boosting-Verfahren wie XGBoost oder LightGBM ein MLP auf Tabellendaten.

CNN — Convolutional Neural Network (Durchbruch 2012)

CNNs wurden 1989 von Yann LeCun für die handschriftliche Zifferkennung in US-Postleitzahlen entwickelt (LeNet). Ihr Trick: Faltungsschichten, die einen kleinen Filter über das Bild schieben und dabei lokale Muster erkennen — Kanten in den ersten Layers, Formen in der Mitte, ganze Objektteile in späten Schichten. Der große Durchbruch kam 2012, als AlexNet den ImageNet-Wettbewerb mit deutlichem Abstand gewann. Heute fahren CNNs in Face ID, medizinischer Bildanalyse und selbstfahrenden Autos.

RNN / LSTM (1997 / Dominanz 2014–2018)

Recurrent Neural Networks haben eine Rückkopplung — der Output eines Schritts wird Input des nächsten. So können sie Sequenzen verarbeiten: Text, Audio, Zeitreihen. Ihr Problem: Bei langen Sequenzen verlieren sie Kontext (vanishing gradients). LSTM (Hochreiter & Schmidhuber 1997) und GRU sind Weiterentwicklungen mit Gates, die entscheiden, was erinnert und was vergessen wird. LSTMs dominierten die Sprachverarbeitung von etwa 2014 bis 2018 — bis Transformer sie verdrängten. Heute werden sie noch bei Zeitreihen-Prognose (Finanzen, Energie) und schlanken On-Device-Modellen eingesetzt.

Transformer (2017 — heute dominant)

Die Architektur, die in der Praxis 2026 fast alles trägt, was du als „KI” wahrnimmst. 2017 stellten Google-Forscher in „Attention is all you need” ein Modell vor, das komplett ohne Rekurrenz auskommt. Der Trick: Self-Attention — jedes Token schaut auf alle anderen Tokens und gewichtet, wie relevant sie für die eigene Bedeutung sind. Im Satz „Die Bank am Fluss war modern” entscheidet Attention, ob „Bank” eher mit „Fluss” (Sitzbank) oder mit „modern” (Geldinstitut) zusammenhängt.

Transformer sind die Basis von GPT-4, Claude, Gemini, Llama, BERT, T5, Stable Diffusion 3 und praktisch jedem anderen großen Modell. Sie sind exzellent parallelisierbar (anders als RNNs) und skalieren mit mehr Daten + mehr Parametern + mehr Rechenleistung kontinuierlich. Diese Skalierungseigenschaft ist der Grund, warum GPT-4 mit geschätzten 1,8 Billionen Parametern funktioniert. Eine Vertiefung dazu liefert der Pillar Transformer.

Wofür werden neuronale Netze in der Praxis eingesetzt?

Wenn dein Smartphone dich gestern fünf Mal angeschaut hat, hast du fünf Mal mit einem neuronalen Netz interagiert. Die wichtigsten Anwendungen, die du heute schon nutzt:

Face ID am Smartphone. Ein CNN kodiert dein Gesicht als hochdimensionalen Vektor und vergleicht ihn bei jeder Entsperrung gegen das gespeicherte Muster.
Spracherkennung in Siri, Alexa, Whisper. Audio-Spektrogramme werden durch ein Transformer-basiertes Modell zu Text.
Übersetzung (DeepL, Google Translate). Encoder-Decoder-Transformer auf Milliarden parallelen Satzpaaren trainiert.
Empfehlungs-Algorithmen (Netflix, Spotify, YouTube). Hybride aus klassischem Collaborative Filtering und Embedding-Netzen.
Medizinische Bildanalyse. CNN-Modelle erreichen bei spezifischen Aufgaben (Tumor-Klassifikation in CT/MRT) Facharzt-Niveau.
Autonomes Fahren. Fusion aus Kamera-, Radar- und Lidar-Daten, ausgewertet von Multi-Task-Netzen in Echtzeit.
Generative KI. Generative KI erzeugt Texte (ChatGPT, Claude), Bilder (Midjourney, Stable Diffusion), Stimmen (ElevenLabs) und Videos (Sora, Runway).

Eine sinnvolle Faustregel: Sobald Daten unstrukturiert sind — Pixel, Audio-Samples, Token —, ist ein neuronales Netz heute fast immer die richtige Wahl. Für strukturierte Tabellendaten schlägt klassisches Machine Learning oft noch.

Wie unterscheidet sich ein neuronales Netz von klassischem Machine Learning?

Klassisches Machine Learning braucht handgebaute Features. Ein neuronales Netz lernt die Features selbst aus Rohdaten. Das ist der Kern-Unterschied — und der Grund, warum Deep Learning bei Bild, Audio und Text die klassischen Verfahren geschlagen hat.

Beispiel Bildklassifikation. Im klassischen ML-Workflow extrahiert ein Mensch Features aus jedem Bild: Farbhistogramme, Kantenrichtungen (SIFT, HOG), Texturmaße. Erst diese vorverarbeiteten Zahlen gehen in einen Klassifikator wie Support Vector Machine oder Random Forest. Das funktioniert, ist aber an die Qualität der Features gebunden — und die hängt am Domänenwissen des Menschen, der sie definiert.

Ein CNN dagegen bekommt direkt die Pixel. Die frühen Faltungs-Layers lernen Kanten, mittlere lernen Formen, späte lernen Objektteile. Diese hierarchische Repräsentation ist nicht vorgegeben — sie entsteht im Training. Bei AlexNet 2012 war die Differenz zur klassischen Konkurrenz auf ImageNet so groß, dass der gesamte Wettbewerb innerhalb weniger Jahre auf Deep Learning umgestellt hat.

Aber: Deep Learning ist nicht automatisch besser. Für tabellarische Daten unter 10.000 Zeilen schlägt XGBoost neuronale Netze praktisch in jedem Kaggle-Wettbewerb. Wenn Erklärbarkeit Pflicht ist (Kredit, Medizin, Justiz), sind Entscheidungsbäume oder logistische Regression oft die richtige Wahl. Und wenn Rechenleistung fehlt, lässt sich mit klassischem ML auf einer CPU oft mehr machen als mit einem trainierten Riesennetz, das eine GPU braucht.

Kriterium	Klassisches ML	Neuronales Netz
Daten-Typ	tabellarisch	unstrukturiert (Bild, Audio, Text)
Datenmenge	Hundert bis Hunderttausend	ab ca. 10.000, bei LLMs Milliarden
Feature Engineering	manuell durch Menschen	automatisch durch das Netz
Erklärbarkeit	meist hoch (Entscheidungsbäume)	niedrig („Black Box”)
Rechenleistung	CPU reicht	GPU oder TPU
Iterationszeit	Minuten	Stunden bis Tage

Warum braucht Training so viel Rechenleistung?

Das Training eines neuronalen Netzes ist im Kern eine sehr lange Folge von Matrix-Multiplikationen. Genau dafür sind GPUs gebaut. Eine moderne GPU hat Tausende paralleler Recheneinheiten — eine CPU nur wenige starke. Auf einer Bild-Klassifikations-Aufgabe trainiert eine GPU 20 bis 100 Mal schneller als eine CPU.

Drei Größenordnungen, um das Ausmaß einzuordnen:

Ein kleines Tabellen-Netz (MLP mit ein paar tausend Parametern, MNIST-Datensatz): wenige Minuten auf einer modernen GPU, machbar auch auf CPU.
Ein Bild-CNN von Grund auf (ResNet-50 auf ImageNet, 1,2 Mio. Bilder, 25 Mio. Parameter): Tage auf einer einzelnen H100.
GPT-4 (geschätzt ~1,8 Billionen Parameter): Monate auf Tausenden GPUs, geschätzte Trainingskosten im zweistelligen bis dreistelligen Millionen-Dollar-Bereich.

Der Stromverbrauch wird damit ebenfalls relevant. GPT-3 hat im Training geschätzt 1.287 MWh verbraucht — der Jahresbedarf von etwa 400 deutschen Haushalten. Inferenz (Antworten generieren) ist pro Anfrage deutlich günstiger, summiert sich aber bei Milliarden Anfragen pro Tag schnell zu signifikanten Strommengen.

Drei Hebel reduzieren den Bedarf:

Transfer Learning. Statt ein Modell von Null zu trainieren, lädst du ein vortrainiertes Modell (z. B. Llama 3 oder ein ResNet-Backbone) und passt es mit wenigen Hundert Beispielen auf deine Aufgabe an — Stunden statt Wochen.
Effizientere Architekturen. Mixture of Experts (z. B. in Mistral, GPT-4 vermutlich) aktiviert pro Eingabe nur einen Teil der Parameter. Sparse Models überspringen unnötige Berechnungen.
Spezialisierte Hardware. Google TPU, AMD Instinct, NVIDIA H100/B200 sind Matrix-Multiplikations-Beschleuniger, die pro Watt deutlich mehr leisten als General-Purpose-Chips.

Welche Mathematik brauche ich, um neuronale Netze zu verstehen?

Die ehrliche Antwort hängt davon ab, was du tun willst — Nutzen, Verstehen, Bauen oder Forschen.

Nutzen vortrainierter Modelle (ChatGPT, Claude, Hugging Face Inference API). Keine Mathematik. Du brauchst die Fähigkeit, klare Prompts zu formulieren — siehe Prompt-Engineering. Zeitaufwand: Stunden.

Eigene Netze trainieren (PyTorch-Tutorials, Fine-Tuning, einfache Architekturen). Schulmathe reicht: Vektoren, Matrizen mal Vektor, eine intuitive Vorstellung von Ableitung und Gradient. Plus Python-Grundlagen. Zeitaufwand: 4–8 Wochen bei 5 Stunden pro Woche.

Verstehen, warum es funktioniert (warum Backpropagation, warum ReLU besser als Sigmoid, warum Adam). Lineare Algebra (Matrizen, Eigenvektoren), Differentialrechnung (Kettenregel, partielle Ableitungen), Grundlagen Wahrscheinlichkeit. Alles Abi- oder Frühsemester-Niveau, alles per MOOC nachholbar. Zeit: 3–6 Monate.

Eigene Architekturen entwickeln (nicht nur anwenden). Numerische Optimierung, Wahrscheinlichkeitstheorie, etwas Informations-Theorie, tiefere Lineare Algebra. Bachelor-Niveau Mathematik oder Informatik. Zeit: 12–24 Monate.

Forschen (neue Architekturen oder Verfahren erfinden). Volles Studium plus Master oder PhD. Zeit: 5+ Jahre.

Drei Ressourcen, die wir in der Praxis empfehlen:

3Blue1Brown — Neural Networks (YouTube, kostenlos). Vier Videos, danach verstehst du Backpropagation intuitiv.
Fast.ai — Practical Deep Learning. Top-Down, praxisorientiert. Du baust in der ersten Stunde ein Modell, die Theorie folgt.
Andrew Ngs Deep Learning Specialization (Coursera). Der akademische Goldstandard, fünf Kurse, sehr gründlich.

Was sind die häufigsten Fehler beim Training?

Wer zum ersten Mal ein Netz trainiert, läuft fast garantiert in drei oder vier dieser Fallen. Die gute Nachricht: Alle haben bekannte Gegenmittel.

1. Lernrate falsch gewählt. Zu groß: Der Loss explodiert oder oszilliert. Zu klein: Training dauert ewig, der Loss bewegt sich kaum. Startwert für Adam: 3e-4 bis 1e-3. Wenn der Loss nach den ersten Epochs stagniert, halbiere — wenn er explodiert, viertele.

2. Overfitting. Das Netz lernt die Trainingsdaten auswendig. Symptom: Trainings-Accuracy 99 %, Validation-Accuracy fällt ab. Gegenmittel: mehr Daten, Data Augmentation (zufällige Bildtransformationen), Dropout (zufällig Neuronen deaktivieren), L2-Regularisierung, Early Stopping (Training abbrechen, sobald Validation schlechter wird), kleineres Modell.

3. Underfitting. Das Netz ist zu klein oder zu schwach trainiert. Symptom: Auch der Trainings-Loss bleibt hoch. Gegenmittel: Mehr Schichten, mehr Neuronen pro Schicht, längeres Training, geeignetere Architektur (CNN für Bilder, Transformer für Text).

4. Data Leakage. Information aus der Validation oder dem Test-Set sickert ins Training. Folge: scheinbar großartige Ergebnisse, die in der Produktion zerfallen. Klassische Quellen: Zeitreihen, bei denen Trainings- und Test-Daten nicht streng zeitlich getrennt sind; Duplikate zwischen Train und Test; Features, die das Label indirekt enthalten.

5. Imbalancierte Klassen. 99 % der Beispiele gehören zur Klasse A, 1 % zu B. Ein Modell, das immer „A” sagt, hat 99 % Accuracy — ist aber nutzlos. Gegenmittel: Class-Weights im Loss, Oversampling der Minderheitsklasse oder F1-Score statt Accuracy als Metrik.

6. Falsche Loss-Funktion. Cross-Entropy bei Mehrklassen-Klassifikation, MSE bei Regression — das sind die zwei Defaults. Wer Klassifikation mit MSE trainiert, bekommt schlechte Gradienten und ein träges Netz.

7. Zu späte Validation. Vier Stunden trainieren, dann feststellen, dass die Validation-Pipeline kaputt war. Gegenmittel: Innerhalb der ersten zehn Minuten eines Trainings-Runs einmal eine Validation-Schleife laufen lassen.

Eine ausführliche Behandlung mit Loss-Kurven-Diagnose findest du im Pillar Deep Learning.

Vertiefe dein Wissen

Dieser Hub gibt dir das Vokabular für neuronale Netze. Wenn du tiefer einsteigen willst, führen drei Wege weiter:

Grundlagen einordnen

Was ist KI? — der Rahmen, in dem neuronale Netze stehen. Für Einsteiger:innen ohne Vorwissen.
Maschinelles Lernen — der Oberbegriff. Klassisches ML mit Entscheidungsbäumen, SVMs und logistischer Regression, bevor neuronale Netze ins Spiel kommen.

Architekturen vertiefen

Deep Learning — tiefe neuronale Netze in der Praxis: Architektur-Wahl, Frameworks, Training-Loops.
Transformer — Self-Attention, Multi-Head, Encoder vs. Decoder. Die heutige Standard-Architektur im Detail.
Generative KI — was passiert, wenn tiefe Netze nicht klassifizieren, sondern erzeugen: Texte, Bilder, Stimmen.

In der Praxis ausprobieren

ChatGPT — das bekannteste Transformer-basierte Sprachmodell. Eine direkte Anwendung dessen, was du oben gelesen hast.

Weiterführend

Häufige Fragen

Was ist der Unterschied zwischen einem neuronalen Netz und Deep Learning?

Ein neuronales Netz ist die Modell-Architektur — Neuronen in Schichten, verbunden durch Gewichte. Deep Learning ist die Disziplin, die mit besonders tiefen neuronalen Netzen (ab etwa drei verdeckten Schichten) arbeitet. Jedes Deep-Learning-Modell ist ein neuronales Netz, aber nicht jedes neuronale Netz ist „deep“. Frank Rosenblatts Perceptron von 1958 hatte nur eine Schicht — das war ein neuronales Netz, aber kein Deep Learning.

Sind neuronale Netze wirklich wie das menschliche Gehirn?

Nur sehr lose. Die Ur-Inspiration stammt aus dem biologischen Neuron (Dendrit, Zellkörper, Axon), und Begriffe wie „Neuron“ und „Aktivierung“ leben aus dieser Zeit weiter. Aber: Das menschliche Gehirn hat etwa 86 Milliarden Neuronen mit komplexer biochemischer Dynamik. Ein künstliches Neuron ist nur eine Summe mit Aktivierungsfunktion. Die Architekturen lösen ähnliche Probleme — der Bauplan ist grundverschieden.

Was ist ein Perzeptron und warum war es 1958 ein Meilenstein?

Das Perceptron, gebaut 1958 von Frank Rosenblatt am Cornell Aeronautical Laboratory, war das erste lernfähige neuronale Netz. Es konnte einfache Bilder klassifizieren — etwa Buchstaben — und seine Gewichte aus Beispielen anpassen. Vorher waren KI-Systeme regelbasiert. Das Perceptron zeigte zum ersten Mal, dass eine Maschine aus Daten lernen kann. Seine Grenze: nur linear trennbare Muster. Erst tiefere Netze (Multi-Layer-Perceptron) lösten dieses Problem.

Wofür stehen CNN, RNN und Transformer?

CNN steht für „Convolutional Neural Network“ — die Architektur für Bilder und Video, populär seit AlexNet 2012. RNN heißt „Recurrent Neural Network“ — eine Architektur mit Rückkopplung für Sequenzen wie Text oder Audio, dominant 2014–2018. Transformer ist die Architektur aus dem Google-Paper „Attention is all you need“ von 2017 — Basis für GPT, Claude, Gemini und fast jedes moderne Sprach- und Multimodal-Modell.

Brauche ich Mathe-Kenntnisse, um neuronale Netze zu nutzen?

Zum Nutzen vortrainierter Modelle (ChatGPT, Claude, Hugging Face) reicht eine klare Fragestellung — keine Mathematik. Zum Selbst-Trainieren mit PyTorch oder TensorFlow brauchst du Schulmathe und Python-Grundlagen. Zum Verstehen, warum Backpropagation funktioniert, hilft Lineare Algebra und Differentialrechnung — alles Abi-Niveau. Eigene Architekturen entwickeln oder forschen erfordert Uni-Niveau (numerische Optimierung, Wahrscheinlichkeitstheorie).

Wie viele Daten braucht ein neuronales Netz zum Training?

Faustregel: 10–100 saubere Trainingsbeispiele pro Parameter. Ein kleines Tabellen-Netz (1.000 Parameter) kommt mit Hunderten Zeilen aus. Ein Bild-CNN auf ImageNet trainiert mit 1,2 Millionen Bildern. GPT-4 wurde auf einem Großteil des öffentlichen Internets trainiert — geschätzte 13 Billionen Tokens. Transfer Learning reduziert den Bedarf drastisch: Mit ein paar Hundert Beispielen und einem vortrainierten Backbone erreichst du oft Spitzenwerte.

Was ist Backpropagation einfach erklärt?

Backpropagation ist der Algorithmus, mit dem ein Netz aus Fehlern lernt. Nach einer Vorhersage wird der Gesamtfehler rückwärts durch das Netz propagiert — jedes Gewicht erhält einen Gradienten, eine Zahl, die sagt, in welche Richtung es geändert werden muss. Mathematisch ist es die Kettenregel aus der Schule, angewandt auf verschachtelte Funktionen. Popularisiert wurde der Algorithmus 1986 von Rumelhart, Hinton und Williams — ohne Backpropagation gäbe es kein praktisches Deep Learning.

Welche Programmiersprache nutzt man für neuronale Netze?

Python, praktisch ausnahmslos. PyTorch (Meta), TensorFlow (Google) und JAX (Google) — die drei dominanten Frameworks — sind alle Python-zentriert. Unter der Haube laufen die rechenintensiven Operationen in C++ und CUDA, aber als Nutzer:in schreibst du Python. Hugging Face Transformers bietet zusätzlich Zehntausende vortrainierter Modelle als Python-Library. Julia hat eine kleine ML-Nische, R ist für Statistik-Workflows üblich — beide spielen für moderne neuronale Netze keine relevante Rolle.