Neural Network Builder

⬡ Embedding Lab Lernmodus

Enter = Tokenisieren

—Tokens

—Wörter

—Unique IDs

← Text eingeben und "Tokenisieren" klicken

#	Token	ID	Typ
Noch keine Tokens

🧩 Was ist Tokenisierung?

Bevor ein Sprachmodell Text verarbeiten kann, muss dieser in Tokens zerlegt werden.

Schritt 1 – Text aufteilenWörter, Satzzeichen und Sonderzeichen werden identifiziert.

Schritt 2 – Subword-Zerlegung (BPE)Lange Wörter werden in Chunks aufgespalten. Unten siehst du jeden Split mit Original → Teile. Präfix ## = Fortsetzung eines Wortes.

Schritt 3 – Token-IDs vergebenJedes Token bekommt eine Ganzzahl-ID aus dem Vokabular.

Schritt 4 – Special Tokens[CLS] = Anfang, [SEP] = Ende, [PAD] = Auffüllen.

Tokentypen:

Special Token

Bekanntes Wort

Normales Wort

Subword (##)

GPT-4 verwendet ca. 100.000 Tokens · BERT: 30.522 · Deutsche Texte erzeugen ca. 1,4× mehr Tokens als englische.

3D Embedding Space

50-dim Vektoren → PCA → 3D

🖱 Drag = Rotieren

🖱 Scroll = Zoom

0 Punkte

Special Token

Bekanntes Wort

Neues Wort

Subword

Beispielwörter

Ähnlich (>88%)

⊕ WORT HINZUFÜGEN

Mehrere Wörter mit Komma trennen:
Hund, Katze, Auto, Fahrrad

WAS SIND EMBEDDING-VEKTOREN?

Jedes Token wird in einen hochdimensionalen Vektor umgewandelt — typisch 768 bis 4096 Dimensionen.

BEISPIEL: 50D → 3D

          Bitte zuerst Text tokenisieren…
        

Warum 3D? Wir können Menschen nicht mehr als 3 Dimensionen zeigen. Das Modell "sieht" aber alle 768+ Dimensionen gleichzeitig!

PCA (Principal Component Analysis) reduziert die Dimensionen so, dass möglichst viel Variation erhalten bleibt.

SEMANTISCHE NÄHE

Wörter mit ähnlicher Bedeutung liegen nahe beieinander.
Verbundene Punkte haben Cosinus-Similarität > 88%.

—

💾 Vektordatenbank 0 Einträge

⬡ CHROMADB CONNECTOR

▼ Erweitern

⊞ BATCH-IMPORT

#	Text	Tokens	Vektor (4 von 50 Dims)
Noch keine Einträge. Text tokenisieren → "In VectorDB speichern"

Wie funktioniert eine Vektordatenbank? Texte werden als Vektoren gespeichert. Bei einer Anfrage wird der Anfrage-Vektor berechnet und die ähnlichsten Vektoren per Cosinus-Distanz gefunden → das ist RAG.

🔍 RAG-Suche

Suchanfrage eingeben → System findet semantisch ähnliche Texte aus der Vektordatenbank:

Noch keine Suchanfrage. Speichere zuerst Texte in der VectorDB.

RAG = Retrieval Augmented Generation
1. Suchanfrage → Embedding-Vektor berechnen
2. Cosinus-Ähnlichkeit mit allen DB-Vektoren berechnen
3. Top-K ähnlichste Texte als Kontext an LLM übergeben
4. LLM generiert Antwort mit diesem Kontext

⚡ Überwachtes Lernen

📥

EINGABEN

Zahlenreihen per Drag & Drop
oder klicken zum Einfügen
Format: 1,0,1 / 0,1,0 / …

↔

📤

AUSGABEN (Ziel)

Zahlenreihen per Drag & Drop
oder klicken zum Einfügen
Format: 0 / 1 / 1 / 0

🔁 Training

Epochen

Batch Size

Loss-Funktion

Shuffle

⚡ Optimizer

Optimizer

Lernrate (η)

Momentum (β)

β₂ (Adam)

ε (Epsilon)

ρ (RMSProp)

🛡 Regularisierung

L2 (λ)

Dropout

Gewichte init.

Grad. Clipping

📉 Lernraten-Scheduler

Scheduler

Decay Rate

Step Size

Min. Lernrate

🎬 Animation

Anim.-Speed

Zeige Backprop

Log-Intervall

Frühstopp

Toleranz

Patience

● Bereit

Epoche

–

Loss

–

Best: –

Accuracy

–

LR: –

Fortschritt

Gradienten-Norm ‖∇‖

–

Zeit

–

⚡ Anim-Speed 7 Zeige Anim

▮ Loss

▮ Accuracy %

▮ Grad-Norm

▮ Lernrate

📊 Gewichts-Verteilung

🎯 Konfusionsmatrix

Bereit. Konfiguriere Daten und Hyperparameter, dann starte das Training.

⬛ CNN – Faltung & Pooling

Convolution · 6 Animationsmodi

Animations-Modus:

1. Eingabebild – Pixel-Matrix

⬆ Bild laden

⟶

2. Faltungskern – Kernel-Editor

Vorlagen

3×3 Kernel

Parameter

Divisor Bias

Randbehandlung

Aktuelle Berechnung

Modus wählen und ▶ Start drücken …

Formel

          P(x,y) = Σ [ I(x+i, y+j) × K(i,j) ] / Div + Bias
        

⟶

3. Ausgabebild – Feature Map

Histogramm der Ausgabewerte (0–255)

Geschw. 4

Gitter Werte Farb-Output

(0,0) | 0%

1. Eingabebild – Pixel-Matrix

⬆ Foto

⟶

2. Pooling – Einstellungen

Pool-Typ

Fenstergröße

Stride (Schrittweite)

Aktuelle Berechnung

Modus wählen und ▶ Start drücken …

Formeln

            Max: y = max{ I(x+dx, y+dy) }

            Avg: y = Σ I(…) / (P×P)

            Größe: ⌊(W−P)/S⌋+1 × ⌊(H−P)/S⌋+1

⟶

3. Ausgabebild – Pooled Map

–

Geschw. 4

Werte

(0,0) | 0%

Netzwerk generieren

Neural Network Builder

Embedding Lab LERNEN

⬡ Embedding Lab Lernmodus

🧩 Was ist Tokenisierung?

Reinforcement Learning Q-LEARNING

💬 KI-Assistent

⚡ Überwachtes Lernen

⬛ CNN – Faltung & Pooling