LLMマトリックス:コミュニティ投票によるモデル比較、Claude Codeで構築

✍️ OpenClawRadar📅 公開日: March 8, 2026🔗 Source
LLMマトリックス:コミュニティ投票によるモデル比較、Claude Codeで構築
Ad

開発者がLLM Matrixというウェブサイトを作成しました。このツールは、複数の次元で大規模言語モデルを閲覧し投票できるようにし、中央集権的なベンチマークサイトへの懸念に対処するために、コミュニティ主導のランキングを実装しています。

LLM Matrixの機能

  • 2からN次元でLLMスコアを同時に閲覧
  • ユーザーがモデルに投票し、その投票がランキングを形成
  • 初期データは公開インターネットソースから集計したスコアに基づき、モデルごとにわずか20票でシード
  • 残りの投票とランキングはコミュニティの入力によって決定

開発詳細

このプロジェクト全体はClaude Codeを使用して構築されました。開発者は特に、開発に不可欠だった2つのプラグインを挙げています:

  • production-gradeプラグイン:https://github.com/nagisanzenin/claude-code-production-grade-plugin
  • claude-memプラグイン:https://github.com/thedotmack/claude-mem

このサイトは現在llm-matrix.vercel.appでホストされており、潜在的に偏った中央集権的な指標よりもコミュニティの合意を優先する、LLM評価への代替的アプローチを表しています。

📖 完全なソースを読む: r/ClaudeAI

Ad

👀 See Also

デブランク:LLMトークン削減のためのコード書式除去ツール
Tools

デブランク:LLMトークン削減のためのコード書式除去ツール

Deblankは、コードをLLMに送信する前にコードのフォーマット(インデント、空白、改行)を除去するオープンソースツールです。Java/C++では約30%、Pythonでは約9%のトークン削減を実現し、約76msのレイテンシで動作します。Python、Java、C/C++、C#、JS/TS、Goをサポートしています。

OpenClawRadar
44,212件のClaude Codeログにおける「プロンプト千件あたりのFワード数」メトリクスで開発者のフラストレーションを追跡
Tools

44,212件のClaude Codeログにおける「プロンプト千件あたりのFワード数」メトリクスで開発者のフラストレーションを追跡

ある開発者が「fpk」(プロンプト千件あたりのfワード数)を5ヶ月間、44,212件のClaude Codeプロンプトにわたって追跡したところ、フラストレーションがClaude Opus 4-5から4-7で3.4倍減少し、ほとんどの悪態はモデルではなく環境ツールに向けられていたことがわかった。

OpenClawRadar
エージェントワーキングメモリ:AIコーディングエージェントのためのローカルメモリシステム
Tools

エージェントワーキングメモリ:AIコーディングエージェントのためのローカルメモリシステム

AgentWorkingMemory(AWM)は、AIコーディングエージェントにおけるセッション間の記憶喪失問題を解決するローカルメモリシステムです。SQLiteデータベース、3つのローカルMLモデル(合計約124MB)、MCPによる自動統合を活用し、Claude Codeセッション間で永続的かつ文脈を意識したメモリを提供します。

OpenClawRadar
VibeSmith:Claudeコードプロジェクトにおけるスキル競合を検出するローカルツール
Tools

VibeSmith:Claudeコードプロジェクトにおけるスキル競合を検出するローカルツール

VibeSmithは、Claude Codeプロジェクト全体の統一された可視性を提供するローカルmacOSデスクトップアプリです。グローバルコンポーネントとプロジェクトレベルのコンポーネントが同じ名前を共有している場合の競合を検出し、依存関係をDAGとして視覚化し、コンテキストトークンの使用状況を追跡します。

OpenClawRadar