LLM Архитектуры: Визуальный справочник моделей Llama 3, DeepSeek V3

Галерея архитектур LLM Себастьяна Рашки — это коллекция схем архитектур и технических характеристик из The Big LLM Architecture Comparison и A Dream of Spring for Open-Weight LLMs, сфокусированная именно на панелях архитектур. Галерея включает интерактивные схемы, которые можно увеличить для детального просмотра, а названия моделей являются ссылками на соответствующие разделы статьи.

Ключевые детали моделей

Галерея предоставляет конкретные архитектурные спецификации для множества моделей:

Llama 3 8B: 8 млрд параметров, выпущена 2024-04-18, плотный декодер с GQA и RoPE вниманием, служит базовой моделью с предварительной нормализацией
OLMo 2 7B: 7 млрд параметров, выпущена 2024-11-25, плотный декодер с MHA и QK-Norm, использует пост-нормализацию внутри остаточного соединения вместо предварительной нормализации
DeepSeek V3: 671 млрд общих параметров (37 млрд активных), выпущена 2024-12-26, разреженный MoE-декодер с MLA вниманием, использует плотный префикс и общий экспертный слой
DeepSeek R1: 671 млрд общих параметров (37 млрд активных), выпущена 2025-01-20, разреженный MoE-декодер с MLA вниманием, архитектура совпадает с DeepSeek V3, но с обучением, ориентированным на рассуждения
Gemma 3 27B: 27 млрд параметров, выпущена 2025-03-11, плотный декодер с GQA и QK-Norm, использует соотношение скользящего/глобального внимания 5:1
Mistral Small 3.1 24B: 24 млрд параметров, выпущена 2025-03-18, плотный декодер со стандартным GQA, дизайн сфокусирован на низкой задержке с меньшим кэшем KV
Llama 4 Maverick: 400 млрд общих параметров (17 млрд активных), выпущена 2025-04-05, разреженный MoE-декодер с GQA вниманием, чередует плотные и MoE-блоки
Qwen3 235B-A22B: 235 млрд общих параметров (22 млрд активных), выпущена 2025-04-28, разреженный MoE-декодер с GQA и QK-Norm, оптимизирована для эффективности обслуживания без общего экспертного слоя
Qwen3 32B: 32 млрд параметров, выпущена 2025-04-28, плотный декодер с GQA и QK-Norm, эталонный плотный стек Qwen с 8 головами KV
Qwen3 4B: 4 млрд параметров, выпущена 2025-04-28, плотный декодер с GQA и QK-Norm, компактный стек со словарём в 151 тыс. токенов
Qwen3 8B: 8 млрд параметров, выпущена 2025-04-28, плотный декодер с GQA и QK-Norm, эталонный плотный стек Qwen3 с 8 головами KV
SmolLM3 3B: 3 млрд параметров, выпущена 2025-06-19, плотный декодер с GQA, экспериментирует с периодическими слоями NoPE

Практические особенности

Галерея включает трекер проблем для сообщения о неточных технических характеристиках, неправильно обозначенных архитектурах или неработающих ссылках. Доступна физическая версия постера через Zazzle с экспортом в высоком разрешении 14570 x 12490 пикселей (PNG-файл 56 МБ, 182 мегапикселя).

Для разработчиков, работающих с ИИ-агентами для программирования, этот ресурс предоставляет конкретные архитектурные детали, которые могут помочь в выборе модели, принятии решений по дообучению и оптимизации производительности. Формат сравнения бок о бок упрощает понимание компромиссов между различными архитектурными решениями.

📖 Read the full source: HN LLM Tools

Галерея архитектур LLM: Визуальный справочник по проектам моделей

Ключевые детали моделей

Практические особенности

👀 Смотрите также

Представляем cltree: текстовый интерфейс для файлового дерева для Claude Code

Бенчмарк: Gemma4 12B против квантованной Qwen3 8B на Mac Mini с 24 ГБ памяти.

molequla: Постоянно обучающийся ИИ-организм, созданный с нуля с помощью ClaudeCode

Claude-Code версии 2.1.76 добавляет функцию MCP-элиситации, оптимизации рабочих деревьев и множество исправлений.