LLM-Architektur-Galerie: Visuelle Referenz für Modellentwürfe

Sebastian Raschkas LLM-Architektur-Galerie ist eine Sammlung von Architekturdiagrammen und Datenblättern aus The Big LLM Architecture Comparison und A Dream of Spring for Open-Weight LLMs, die sich speziell auf Architekturpanels konzentriert. Die Galerie enthält anklickbare Diagramme, die sich zur Detailansicht vergrößern lassen, wobei Modelltitel zu den entsprechenden Artikelabschnitten verlinken.

Wichtige Modelldetails

Die Galerie bietet spezifische Architekturspezifikationen für zahlreiche Modelle:

Llama 3 8B: 8B Parameter, veröffentlicht am 2024-04-18, Dense-Decoder mit GQA- und RoPE-Attention, dient als Pre-Norm-Baseline
OLMo 2 7B: 7B Parameter, veröffentlicht am 2024-11-25, Dense-Decoder mit MHA und QK-Norm, verwendet Inside-Residual Post-Norm statt Pre-Norm
DeepSeek V3: 671B Gesamtparameter (37B aktiv), veröffentlicht am 2024-12-26, Sparse-MoE-Decoder mit MLA-Attention, verwendet Dense-Prefix plus Shared-Expert
DeepSeek R1: 671B Gesamtparameter (37B aktiv), veröffentlicht am 2025-01-20, Sparse-MoE-Decoder mit MLA-Attention, Architektur entspricht DeepSeek V3 mit reasoning-orientiertem Training
Gemma 3 27B: 27B Parameter, veröffentlicht am 2025-03-11, Dense-Decoder mit GQA und QK-Norm, verwendet 5:1 Sliding-Window/Global-Attention-Verhältnis
Mistral Small 3.1 24B: 24B Parameter, veröffentlicht am 2025-03-18, Dense-Decoder mit Standard-GQA, Latenzoptimiertes Design mit kleinerem KV-Cache
Llama 4 Maverick: 400B Gesamtparameter (17B aktiv), veröffentlicht am 2025-04-05, Sparse-MoE-Decoder mit GQA-Attention, wechselt zwischen Dense- und MoE-Blöcken
Qwen3 235B-A22B: 235B Gesamtparameter (22B aktiv), veröffentlicht am 2025-04-28, Sparse-MoE-Decoder mit GQA und QK-Norm, für Serving-Effizienz optimiert ohne Shared-Expert
Qwen3 32B: 32B Parameter, veröffentlicht am 2025-04-28, Dense-Decoder mit GQA und QK-Norm, Referenz-Dense-Qwen-Stack mit 8 KV-Heads
Qwen3 4B: 4B Parameter, veröffentlicht am 2025-04-28, Dense-Decoder mit GQA und QK-Norm, kompakter Stack mit 151k Vokabular
Qwen3 8B: 8B Parameter, veröffentlicht am 2025-04-28, Dense-Decoder mit GQA und QK-Norm, Referenz-Qwen3-Dense-Stack mit 8 KV-Heads
SmolLM3 3B: 3B Parameter, veröffentlicht am 2025-06-19, Dense-Decoder mit GQA, experimentiert mit periodischen NoPE-Layern

Praktische Funktionen

Die Galerie enthält einen Issue-Tracker zum Melden ungenauer Datenblätter, falsch beschrifteter Architekturen oder defekter Links. Eine physische Posterversion ist über Zazzle erhältlich, mit einem Hochauflösungs-Export von 14570 x 12490 Pixeln (56 MB PNG-Datei, 182 Megapixel).

Für Entwickler, die mit KI-Coding-Agenten arbeiten, bietet diese Ressource konkrete Architekturdetails, die die Modellauswahl, Feinabstimmungsentscheidungen und Leistungsoptimierung informieren können. Das Seitenvergleichsformat erleichtert das Verständnis der Kompromisse zwischen verschiedenen Architekturentscheidungen.

📖 Read the full source: HN LLM Tools

LLM-Architektur-Galerie: Visuelle Referenz für Modellentwürfe

Wichtige Modelldetails

Praktische Funktionen

👀 Siehe auch

civStation: Open-Source VLM-Harness für die natürliche Sprachsteuerung von Civilization VI

Relay: Open-Source-Steuerungsebene für OpenClaw-KI-Agenten

cq: Ein lokales Wissensaustauschsystem für KI-Codierungsagenten

Open-Source-CLI nutzt Claude Haiku zur Automatisierung der Xero-Ausgabenprüfung