LLM-Architektur-Galerie: Visuelle Referenz für Modellentwürfe

Sebastian Raschkas LLM-Architektur-Galerie ist eine Sammlung von Architekturdiagrammen und Datenblättern aus The Big LLM Architecture Comparison und A Dream of Spring for Open-Weight LLMs, die sich speziell auf Architekturpanels konzentriert. Die Galerie enthält anklickbare Diagramme, die sich zur Detailansicht vergrößern lassen, wobei Modelltitel zu den entsprechenden Artikelabschnitten verlinken.
Wichtige Modelldetails
Die Galerie bietet spezifische Architekturspezifikationen für zahlreiche Modelle:
- Llama 3 8B: 8B Parameter, veröffentlicht am 2024-04-18, Dense-Decoder mit GQA- und RoPE-Attention, dient als Pre-Norm-Baseline
- OLMo 2 7B: 7B Parameter, veröffentlicht am 2024-11-25, Dense-Decoder mit MHA und QK-Norm, verwendet Inside-Residual Post-Norm statt Pre-Norm
- DeepSeek V3: 671B Gesamtparameter (37B aktiv), veröffentlicht am 2024-12-26, Sparse-MoE-Decoder mit MLA-Attention, verwendet Dense-Prefix plus Shared-Expert
- DeepSeek R1: 671B Gesamtparameter (37B aktiv), veröffentlicht am 2025-01-20, Sparse-MoE-Decoder mit MLA-Attention, Architektur entspricht DeepSeek V3 mit reasoning-orientiertem Training
- Gemma 3 27B: 27B Parameter, veröffentlicht am 2025-03-11, Dense-Decoder mit GQA und QK-Norm, verwendet 5:1 Sliding-Window/Global-Attention-Verhältnis
- Mistral Small 3.1 24B: 24B Parameter, veröffentlicht am 2025-03-18, Dense-Decoder mit Standard-GQA, Latenzoptimiertes Design mit kleinerem KV-Cache
- Llama 4 Maverick: 400B Gesamtparameter (17B aktiv), veröffentlicht am 2025-04-05, Sparse-MoE-Decoder mit GQA-Attention, wechselt zwischen Dense- und MoE-Blöcken
- Qwen3 235B-A22B: 235B Gesamtparameter (22B aktiv), veröffentlicht am 2025-04-28, Sparse-MoE-Decoder mit GQA und QK-Norm, für Serving-Effizienz optimiert ohne Shared-Expert
- Qwen3 32B: 32B Parameter, veröffentlicht am 2025-04-28, Dense-Decoder mit GQA und QK-Norm, Referenz-Dense-Qwen-Stack mit 8 KV-Heads
- Qwen3 4B: 4B Parameter, veröffentlicht am 2025-04-28, Dense-Decoder mit GQA und QK-Norm, kompakter Stack mit 151k Vokabular
- Qwen3 8B: 8B Parameter, veröffentlicht am 2025-04-28, Dense-Decoder mit GQA und QK-Norm, Referenz-Qwen3-Dense-Stack mit 8 KV-Heads
- SmolLM3 3B: 3B Parameter, veröffentlicht am 2025-06-19, Dense-Decoder mit GQA, experimentiert mit periodischen NoPE-Layern
Praktische Funktionen
Die Galerie enthält einen Issue-Tracker zum Melden ungenauer Datenblätter, falsch beschrifteter Architekturen oder defekter Links. Eine physische Posterversion ist über Zazzle erhältlich, mit einem Hochauflösungs-Export von 14570 x 12490 Pixeln (56 MB PNG-Datei, 182 Megapixel).
Für Entwickler, die mit KI-Coding-Agenten arbeiten, bietet diese Ressource konkrete Architekturdetails, die die Modellauswahl, Feinabstimmungsentscheidungen und Leistungsoptimierung informieren können. Das Seitenvergleichsformat erleichtert das Verständnis der Kompromisse zwischen verschiedenen Architekturentscheidungen.
📖 Read the full source: HN LLM Tools
👀 Siehe auch

civStation: Open-Source VLM-Harness für die natürliche Sprachsteuerung von Civilization VI
civStation ist ein Open-Source-Computer-Use-Stack, der Sprach- und natürliche Sprachsteuerung von Civilization VI ermöglicht und strategische Befehle auf hoher Ebene durch einen VLM-basierten Beobachtungs- und Ausführungszyklus in UI-Aktionen übersetzt.

Relay: Open-Source-Steuerungsebene für OpenClaw-KI-Agenten
Relay ist eine Electron-Desktop-App, die einen Claude-Cowork-ähnlichen Workflow für OpenClaw bietet, auf Ihrer Infrastruktur läuft, Ihre Wahl von LLM-Modellen unterstützt und integrierte Governance-Funktionen wie Freigabeschleusen und exportierbare Prüfpfade umfasst.

cq: Ein lokales Wissensaustauschsystem für KI-Codierungsagenten
cq von Mozilla.ai ist ein Open-Source-Tool, das KI-Code-Agenten ermöglicht, 'Wissenseinheiten' über häufige Fallstricke über einen lokalen SQLite-Speicher zu teilen, mit optionaler Team-Freigabe über eine Docker-API. Es wird als Claude Code-Plugin oder OpenCode MCP-Server installiert.

Open-Source-CLI nutzt Claude Haiku zur Automatisierung der Xero-Ausgabenprüfung
Ein Entwickler hat ein Open-Source-Python-CLI-Tool veröffentlicht, das Claude Haiku 4.5 zur Automatisierung der Xero-Ausgabenprüfung nutzt. Das Tool folgt einem 'deterministischen Code-zuerst, dann KI zur Lückenfüllung'-Ansatz und hält die Kosten auf wenige Cent pro Prüflauf.