Talkie: 13B LLM trainiert nur mit Texten vor 1931

Ein Team von Forschern, darunter Alec Radford (GPT, CLIP, Whisper), Nick Levine und David Duvenaud, hat gerade Talkie veröffentlicht, ein Sprachmodell mit 13 Milliarden Parametern, das ausschließlich auf Text trainiert wurde, der vor 1931 veröffentlicht wurde. Der Wissensstichtag des Modells ist der 31. Dezember 1930 — kein Internet, keine Wikipedia, keine Inhalte zum Zweiten Weltkrieg.

Warum es wichtig ist

Aktuelle LLMs (GPT, Claude, Gemini, Llama) teilen alle Trainingsdaten aus dem modernen Web, was es schwierig macht, Auswendiglernen von echtem Denken zu unterscheiden. Talkie durchbricht diese Linie: Seine Trainingsverteilung ist grundlegend anders, sodass Forscher testen können, ob Fähigkeiten aus Auswendiglernen oder Verallgemeinerung entstehen. Wie das Team anmerkt: „Es ist eine wichtige Frage, inwieweit LM-Fähigkeiten aus Auswendiglernen vs. Verallgemeinerung entstehen. Vintage-LMs ermöglichen einzigartige Verallgemeinerungstests.“

Claudes Rolle im Training

Claude Sonnet 4.6 diente als Richter in Talkies verstärkungslern-Pipeline (Online-DPO). Darüber hinaus generierte Claude Opus 4.4 synthetische Multi-Turn-Gespräche, die in der letzten Feintuning-Phase verwendet wurden. Das Team erkennt die Ironie und das Kontaminationsrisiko an und weist darauf hin, dass sie daran arbeiten, dies in zukünftigen Versionen zu beseitigen.

Schlüsselfähigkeiten

Talkie kann aus nur wenigen kontextuellen Beispielen lernen, Python-Code zu schreiben — obwohl es keinen modernen Code in seinen Trainingsdaten hat. Es schlussfolgert aus mathematischen Texten des 19. Jahrhunderts, nicht aus Abruf.
Konzipiert für Langzeitprognosen: Wie gut kann ein Modell die Zukunft aus seiner eingefrorenen Perspektive von 1930 „vorhersagen“?
Kann verwendet werden, um „Erfindungen“ zu untersuchen — ob es Ideen entwickeln kann, die nach seinem Wissensstichtag entstanden sind.
Hilft zu isolieren, welche Fähigkeiten architekturbedingt sind und welche aus Webdaten übernommen wurden.

Zugang und Lizenzierung

Sowohl Talkie als auch seine Variante sind Apache 2.0 lizenziert und in offenen Gewichten auf Hugging Face verfügbar. Du kannst unter dem bereitgestellten Link live mit ihm chatten. Das Team plant später in diesem Jahr ein Vintage-Modell im GPT-3-Maßstab.

Wofür es verwendet wird

Langzeitprognosen: zukünftige Entwicklungen aus einem historischen Blickwinkel vorhersagen.
Erfindung: Ideen generieren, die nach seinem Trainingsstichtag entstanden sind.
LLM-Identität: Was macht ein Modell aus — Isolierung von Architektur- vs. Datenverteilungseffekten.

📖 Vollständige Quelle lesen: r/ClaudeAI