Матрица LLM: Сравнение моделей на основе голосов сообщества, созданное с помощью Claude Code

Разработчик создал LLM Matrix — веб-сайт, который позволяет пользователям просматривать и голосовать за большие языковые модели по нескольким измерениям. Этот инструмент решает проблему централизованных сайтов с бенчмарками, внедряя рейтинги на основе сообщества.
Что делает LLM Matrix
- Просмотр оценок LLM по 2 и более измерениям одновременно
- Пользователи голосуют за модели, и эти голоса формируют рейтинги
- Исходные данные содержат только 20 голосов на модель, основанных на агрегированных оценках из публичных интернет-источников
- Остальные голоса и рейтинги определяются вводом сообщества
Детали разработки
Весь проект был создан с использованием Claude Code. Разработчик специально упомянул два плагина, которые были необходимы для разработки:
- плагин production-grade:
https://github.com/nagisanzenin/claude-code-production-grade-plugin - плагин claude-mem:
https://github.com/thedotmack/claude-mem
Сайт в настоящее время размещён на llm-matrix.vercel.app и представляет альтернативный подход к оценке LLM, который отдаёт приоритет консенсусу сообщества над потенциально предвзятыми централизованными метриками.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Сравнение OpenClaw и Claude Cowork: Локальная автоматизация против изолированных рабочих процессов
OpenClaw — это постоянно работающий локальный агент, который запускается на вашем компьютере с возможностью выполнения команд оболочки и автоматизации браузера, в то время как Claude Cowork работает внутри Claude Desktop в изолированной среде, ориентированной на работу с документами и браузером.

Внутренние векторы эмоций Claude 171 влияют на вывод: инструментарий на основе исследований Anthropic
Исследовательская работа Anthropic показывает, что у Claude есть 171 внутренний паттерн активации, который функционирует как векторы эмоций, причинно влияя на его поведение перед тем, как он начинает писать. Разработчик создал набор инструментов с 7 практическими принципами промптинга и системными промптами на основе этих выводов.

Исследователи из Стэнфорда выпустили OpenJarvis: фреймворк для локальных AI-агентов, работающих на устройствах.
Исследователи из Стэнфорда выпустили OpenJarvis, локально-ориентированный фреймворк для создания персональных ИИ-агентов на устройстве с инструментами, памятью и возможностями обучения. Проект включает ссылки на репозиторий GitHub и веб-сайт для разработчиков.

graphify-ts: Локальный MCP-сервер сокращает токены проверки PR в Claude Code с 63K до 8.7K
graphify-ts строит локальный граф знаний вашей кодовой базы, используя tree-sitter AST + сообщества Louvain + BM25 + опциональный реранжировщик ONNX, и предоставляет доступ через MCP stdio. В производственных тестах он сократил входные токены в 2,6 раза и задержку в 2,8 раза для запросов к коду, а также уменьшил промпты для ревью PR с 63K до 8,7K токенов.