Сравнение LLM: Матрица моделей по голосам сообщества

Разработчик создал LLM Matrix — веб-сайт, который позволяет пользователям просматривать и голосовать за большие языковые модели по нескольким измерениям. Этот инструмент решает проблему централизованных сайтов с бенчмарками, внедряя рейтинги на основе сообщества.

Что делает LLM Matrix

Просмотр оценок LLM по 2 и более измерениям одновременно
Пользователи голосуют за модели, и эти голоса формируют рейтинги
Исходные данные содержат только 20 голосов на модель, основанных на агрегированных оценках из публичных интернет-источников
Остальные голоса и рейтинги определяются вводом сообщества

Детали разработки

Весь проект был создан с использованием Claude Code. Разработчик специально упомянул два плагина, которые были необходимы для разработки:

плагин production-grade: https://github.com/nagisanzenin/claude-code-production-grade-plugin
плагин claude-mem: https://github.com/thedotmack/claude-mem

Сайт в настоящее время размещён на llm-matrix.vercel.app и представляет альтернативный подход к оценке LLM, который отдаёт приоритет консенсусу сообщества над потенциально предвзятыми централизованными метриками.

📖 Read the full source: r/ClaudeAI

Матрица LLM: Сравнение моделей на основе голосов сообщества, созданное с помощью Claude Code

Что делает LLM Matrix

Детали разработки

👀 Смотрите также

Сравнение OpenClaw и Claude Cowork: Локальная автоматизация против изолированных рабочих процессов

Внутренние векторы эмоций Claude 171 влияют на вывод: инструментарий на основе исследований Anthropic

Исследователи из Стэнфорда выпустили OpenJarvis: фреймворк для локальных AI-агентов, работающих на устройствах.

graphify-ts: Локальный MCP-сервер сокращает токены проверки PR в Claude Code с 63K до 8.7K