Galerie d'Architecture LLM : Référence Visuelle pour les Conceptions de Modèles

La Galerie d'Architectures LLM de Sebastian Raschka est une collection de figures d'architecture et de fiches techniques issues de The Big LLM Architecture Comparison et de A Dream of Spring for Open-Weight LLMs, se concentrant spécifiquement sur les panneaux d'architecture. La galerie comprend des figures cliquables qui s'agrandissent pour plus de détails, avec des titres de modèles liés aux sections d'articles correspondantes.
Détails clés des modèles
La galerie fournit des spécifications architecturales précises pour de nombreux modèles :
- Llama 3 8B : 8B paramètres, sorti le 2024-04-18, décodeur dense avec attention GQA et RoPE, sert de référence pré-norme
- OLMo 2 7B : 7B paramètres, sorti le 2024-11-25, décodeur dense avec MHA et QK-Norm, utilise une post-norme résiduelle interne au lieu de la pré-norme
- DeepSeek V3 : 671B paramètres totaux (37B actifs), sorti le 2024-12-26, décodeur MoE épars avec attention MLA, utilise un préfixe dense plus un expert partagé
- DeepSeek R1 : 671B paramètres totaux (37B actifs), sorti le 2025-01-20, décodeur MoE épars avec attention MLA, architecture identique à DeepSeek V3 avec un entraînement orienté raisonnement
- Gemma 3 27B : 27B paramètres, sorti le 2025-03-11, décodeur dense avec GQA et QK-Norm, utilise un ratio d'attention glissante/globale de 5:1
- Mistral Small 3.1 24B : 24B paramètres, sorti le 2025-03-18, décodeur dense avec GQA standard, conception axée sur la latence avec un cache KV plus petit
- Llama 4 Maverick : 400B paramètres totaux (17B actifs), sorti le 2025-04-05, décodeur MoE épars avec attention GQA, alterne blocs denses et MoE
- Qwen3 235B-A22B : 235B paramètres totaux (22B actifs), sorti le 2025-04-28, décodeur MoE épars avec GQA et QK-Norm, optimisé pour l'efficacité de service sans expert partagé
- Qwen3 32B : 32B paramètres, sorti le 2025-04-28, décodeur dense avec GQA et QK-Norm, référence de l'empilement dense Qwen avec 8 têtes KV
- Qwen3 4B : 4B paramètres, sorti le 2025-04-28, décodeur dense avec GQA et QK-Norm, empilement compact avec un vocabulaire de 151k
- Qwen3 8B : 8B paramètres, sorti le 2025-04-28, décodeur dense avec GQA et QK-Norm, référence de l'empilement dense Qwen3 avec 8 têtes KV
- SmolLM3 3B : 3B paramètres, sorti le 2025-06-19, décodeur dense avec GQA, expérimente avec des couches NoPE périodiques
Fonctionnalités pratiques
La galerie comprend un système de suivi des problèmes pour signaler des fiches techniques inexactes, des architectures mal étiquetées ou des liens cassés. Une version physique sous forme d'affiche est disponible via Zazzle avec une exportation haute résolution de 14570 x 12490 pixels (fichier PNG de 56 MB, 182 mégapixels).
Pour les développeurs travaillant avec des agents de codage IA, cette ressource fournit des détails architecturaux concrets qui peuvent éclairer la sélection des modèles, les décisions de fine-tuning et l'optimisation des performances. Le format de comparaison côte à côte facilite la compréhension des compromis entre différents choix architecturaux.
📖 Read the full source: HN LLM Tools
👀 See Also

ClaudeClaw : Plugin de code gratuit Claude pour agents IA persistants sur les plateformes de messagerie
ClaudeClaw est un plugin Claude Code gratuit, open-source sous licence MIT qui exécute Claude en tant qu'agent persistant sur Slack, WhatsApp et Telegram. Il nécessite Node.js 20+, Claude Code et votre propre clé API Anthropic, avec une isolation au niveau du système d'exploitation via le sandbox-runtime d'Anthropic.

Développeur crée une barre d'état de terminal pour surveiller les limites de session de Claude Code après une interruption inattendue.
Un développeur a créé une barre d'état en terminal Python qui affiche en direct l'utilisation de la session Claude Code après avoir été interrompu au milieu d'une refactorisation sans avertissement. L'outil utilise les sessions existantes sans nécessiter de clé API.

Watchtower : Un proxy local pour surveiller le trafic de l'API de code Claude
Watchtower est un outil gratuit et open-source qui agit comme un proxy HTTP local et un tableau de bord web en temps réel pour intercepter et afficher tout le trafic API entre Claude Code (ou Codex CLI) et leurs API. Il montre les requêtes, les flux SSE, les définitions d'outils, les prompts système, l'utilisation des tokens et les limites de débit.

Comparaison des systèmes d'IA multi-agents : Le modèle Harness d'Anthropic contre le modèle Engineering Org d'Agyn
Anthropic a publié une conception de harnais pour le développement d'applications de longue durée, tandis que le système multi-agents d'Agyn pour l'ingénierie logicielle autonome en équipe a été rendu open-source le mois dernier. Les deux systèmes rejettent les agents monolithiques au profit de la séparation des rôles, des transferts structurés et des boucles de révision.