GuppyLM: 9M Parameter LLM selbst trainieren

Was GuppyLM ist

GuppyLM ist ein winziges Sprachmodell (~9M Parameter), das vorgibt, ein Fisch namens Guppy zu sein. Es wurde von Grund auf gebaut, um zu zeigen, wie Sprachmodelle funktionieren, ohne dass ein Doktortitel oder ein riesiger GPU-Cluster erforderlich ist. Das Projekt umfasst Datengenerierung, Tokenizer-Erstellung, Modellarchitektur, Trainingsschleife und Inferenz – alles in etwa 130 Zeilen PyTorch-Code.

Architekturdetails

Parameter: 8,7M
Schichten: 6
Versteckte Dimension: 384
Köpfe: 6
FFN: 768 (ReLU)
Vokabular: 4.096 (BPE)
Maximale Sequenz: 128 Token
Norm: LayerNorm
Position: Gelernte Einbettungen
LM-Kopf: Gewichtsgebunden mit Einbettungen

Dies ist ein einfacher Transformer ohne GQA, RoPE, SwiGLU oder frühes Beenden – so einfach wie möglich.

Training und Daten

Das Modell trainiert auf 60K synthetischen Gesprächen über 60 Themen in etwa 5 Minuten auf einer kostenlosen Colab T4 GPU. Der Datensatz (arman-bd/guppylm-60k-generic auf HuggingFace) enthält 57K Trainings- und 3K Testbeispiele im Format: {"input": "...", "output": "...", "category": "..."}.

Themen umfassen: Begrüßungen, Gefühle, Temperatur, Futter, Licht, Wasser, Aquarium, Lärm, Nacht, Einsamkeit, Blasen, Glas, Spiegelung, Atmung, Schwimmen, Farben, Geschmack, Pflanzen, Filter, Algen, Schnecken, Angst, Aufregung, Langeweile, Neugier, Glück, Müdigkeit, Draußen, Katzen, Regen, Jahreszeiten, Musik, Besucher, Kinder, Sinn des Lebens, Zeit, Erinnerung, Träume, Größe, Zukunft, Vergangenheit, Name, Wetter, Schlaf, Freunde, Witze, Furcht, Liebe, Alter, Intelligenz, Gesundheit, Singen, Fernsehen und mehr.

Persönlichkeit und Ausgabe

Guppy spricht in kurzen, kleingeschriebenen Sätzen über Wasser, Temperatur, Licht, Vibrationen und Futter. Es versteht keine menschlichen Abstraktionen wie Geld, Telefone oder Politik. Beispielgespräch:

Du> hallo guppy
Guppy> hallo. ich habe gerade einen schönen platz in der nähe des steins gefunden. die temperatur fühlt sich gut an.
Du> hast du hunger
Guppy> ja. immer ja. ich schwimme jetzt gleich nach oben. ich verspreche, alles aufzuessen.
Du> was ist der sinn des lebens
Guppy> futter. die antwort ist immer futter.

Schnellstart

Mit Guppy chatten (kein Training nötig): Lädt das vortrainierte Modell von HuggingFace herunter. Einfach alle Zellen im Notebook ausführen.

Eigenes Modell trainieren: Runtime auf T4 GPU setzen, alle Zellen ausführen – lädt Datensatz herunter, trainiert Tokenizer, trainiert Modell, testet es. Auf HuggingFace hochladen oder lokal herunterladen.

Lokal chatten:

pip install torch tokenizers
python -m guppylm chat

Beispielinteraktion lokal:

Du> die katze schaut dich an
Guppy> ich verstecke mich hinter der pflanze, wenn das pelzige kommt.
Du> es regnet draußen
Guppy> ich denke, regen ist das beste an draußen.

Projektstruktur

guppylm/
├── config.py          # Hyperparameter (Modell + Training)
├── model.py           # Einfacher Transformer
├── dataset.py         # Datenladen + Batching
├── train.py           # Trainingsschleife (Cosinus-LR, AMP)
├── generate_data.py   # Konversationsdatengenerator (60 Themen)
├── eval_cases.py      # Zurückgehaltene Testfälle
├── prepare_data.py    # Datenvorbereitung + Tokenizer-Training
└── inference.py       # Chat-Schnittstelle

Dieses Projekt ist nützlich für Entwickler, die die Grundlagen der Transformer-Architektur verstehen möchten, ohne sich mit Milliarden-Parameter-Modellen auseinandersetzen zu müssen. Die vollständige Implementierung zeigt jeden Schritt von Rohtext zu trainierten Gewichten zu generierter Ausgabe.

📖 Source: HN LLM Tools