LLM-Matrix: Von der Community bewertete Modellvergleiche, erstellt mit Claude Code

Ein Entwickler hat LLM Matrix erstellt, eine Website, die es Nutzern ermöglicht, große Sprachmodelle über mehrere Dimensionen hinweg zu durchsuchen und darüber abzustimmen. Das Tool adressiert Bedenken bezüglich zentralisierter Benchmark-Websites durch die Implementierung von community-gesteuerten Ranglisten.
Was LLM Matrix leistet
- LLM-Bewertungen über 2 bis N Dimensionen gleichzeitig durchsuchen
- Nutzer stimmen über Modelle ab, und diese Stimmen prägen die Ranglisten
- Anfängliche Daten mit nur 20 Stimmen pro Modell basierend auf aggregierten Bewertungen aus öffentlichen Internetquellen
- Verbleibende Stimmen und Ranglisten werden durch Community-Eingaben bestimmt
Entwicklungsdetails
Das gesamte Projekt wurde mit Claude Code erstellt. Der Entwickler erwähnte speziell zwei Plugins, die für die Entwicklung wesentlich waren:
- Production-Grade-Plugin:
https://github.com/nagisanzenin/claude-code-production-grade-plugin - Claude-Mem-Plugin:
https://github.com/thedotmack/claude-mem
Die Website wird derzeit unter llm-matrix.vercel.app gehostet und stellt einen alternativen Ansatz zur LLM-Bewertung dar, der Community-Konsens über potenziell voreingenommene zentralisierte Metriken priorisiert.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

"Entkrallt: Ein gemeinschaftlich getriebener OpenClaw-Malware-Scanner"
Declawed ist ein neuer Malware-Scanner für OpenClaw SKILL.md, der sich auf die Erkennung willkürlicher Prompt-Injektionen, bösartiger Inhalte und Informationsdiebstahl in ClawHub-Fähigkeiten konzentriert.

OpenClaw-Fähigkeit zur lokalen Besprechungstranskription mit Whisper
Eine neue OpenClaw-Funktion namens ghostmeet ermöglicht lokale Meeting-Transkription mit Whisper. Sie erfasst Audio über Browser-Tabs via Chrome-Erweiterung und kann Zusammenfassungen mit Claude generieren, wobei alle Audio- und Transkriptionsdaten lokal auf Ihrem Rechner verarbeitet werden.

Tinte: Eine Bereitstellungsplattform, bei der Claude-KI-Agenten die Hauptnutzer sind
Ink (ml.ink) ist eine Bereitstellungsplattform, die für KI-Agenten wie Claude entwickelt wurde und eine einzige Tool-Aufruf-Bereitstellung, automatische Framework-Erkennung sowie integrierte Dienste wie Rechenleistung, Datenbanken, DNS, Geheimnisse, Domains, Metriken und Protokolle bietet.

MAGELLAN: Ein 15-Agenten-Autonomes Wissenschaftliches Entdeckungssystem, das auf Claude Code aufbaut
MAGELLAN ist ein 15-Agenten-System zur autonomen wissenschaftlichen Entdeckung, das vollständig auf Claude Code aufbaut. Es nutzt Opus für tiefgehende Schlussfolgerungen und Sonnet für strukturierte Aufgaben, generiert interdisziplinäre Hypothesen ohne menschliche Anleitung, mit 260 vorgeschlagenen Hypothesen, von denen 60% durch adversarische Validierung in 19 Sitzungen verworfen wurden.