Codestrap-Gründer kritisieren KI-Codierungsmetriken und warnen vor Qualitätsproblemen

✍️ OpenClawRadar📅 Veröffentlicht: 19. März 2026🔗 Source
Codestrap-Gründer kritisieren KI-Codierungsmetriken und warnen vor Qualitätsproblemen
Ad

Dorian Smiley und Connor Deeks, die Gründer des KI-Beratungsdienstes Codestrap, argumentieren, dass Unternehmen Schwierigkeiten haben, KI effektiv einzusetzen, weil es keinen etablierten Leitfaden für Referenzarchitekturen oder Anwendungsfälle gibt. Sie behaupten, dass viele Unternehmen so tun, als hätten sie KI-Strategien, während ihnen angemessene Feedback-Schleifen fehlen, um die tatsächliche Wirkung zu messen.

Problematische Metriken und fehlerhafte Ergebnisse

Smiley erklärt, dass die aktuelle Bewertung von KI-Codierung auf falschen Metriken basiert: "Codezeilen, Anzahl der [Pull-Requests] – das sind Belastungen. Das sind keine Maßstäbe für technische Exzellenz." Er nennt als geeignete technische Metriken die Bereitstellungshäufigkeit, die Durchlaufzeit bis zur Produktion, die Fehlerrate bei Änderungen, die mittlere Wiederherstellungszeit und die Schwere von Vorfällen.

Um die Folgen schlechter Messungen zu veranschaulichen, verweist Smiley auf einen kürzlichen Versuch, SQLite mithilfe von KI in Rust neu zu schreiben: "Es bestand alle Unit-Tests, der Code sieht richtig aus. Es sind 3,7-mal mehr Codezeilen, die 2.000-mal schlechter abschneiden als das eigentliche SQLite. Zweitausendmal schlechter für eine Datenbank ist ein nicht lebensfähiges Produkt."

Ad

Grundlegende Einschränkungen von LLMs

Deeks weist auf grundlegende Probleme der aktuellen LLM-Technologie hin: "Es ist schwer, ihnen neue Fakten beizubringen. Es ist schwer, Fakten zuverlässig abzurufen. Der Vorwärtsdurchlauf durch die neuronalen Netze ist nicht deterministisch, insbesondere bei Reasoning-Modellen, die einen inneren Monolog nutzen, um die Effizienz der nächsten Token-Vorhersage zu erhöhen – das bedeutet, man erhält jedes Mal eine andere Antwort."

Smiley fügt hinzu: "Und sie haben keine induktiven Denkfähigkeiten. Ein Modell kann seine eigene Arbeit nicht überprüfen. Es weiß nicht, ob die gegebene Antwort richtig ist. Das sind grundlegende Probleme, die bei der LLM-Technologie noch niemand gelöst hat."

Vorgeschlagener neuer Messansatz

Die Gründer plädieren für die Entwicklung neuer Metriken speziell für KI-gestütztes Engineering. Smiley schlägt eine mögliche Metrik vor: "die Messung der verbrauchten Tokens bis zu einem genehmigten Pull-Request – einer formal akzeptierten Softwareänderung." Er betont, dass Organisationen in Feedback-Schleifen experimentieren und iterieren müssen, weil "KI selbst im Codierungskontext noch nicht gut funktioniert".

Deeks verweist auf kürzliche Ausfälle bei Amazon und AWS als Hinweis auf mögliche zukünftige Probleme, obwohl Amazon erklärt hat, dass diese Vorfälle nichts mit KI zu tun hatten.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

Google spendet Agentenzahlungsprotokoll (AP2) an FIDO Alliance, veröffentlicht Version 0.2 mit „Human Not Present"-Zahlungen
Nachrichten

Google spendet Agentenzahlungsprotokoll (AP2) an FIDO Alliance, veröffentlicht Version 0.2 mit „Human Not Present"-Zahlungen

Google spendet das Agent Payments Protocol (AP2) an die FIDO Alliance und veröffentlicht Version 0.2 mit Unterstützung für autonome ‚Human Not Present‘-Zahlungen und einen neuen Standard für verifizierte Absichten, der gemeinsam mit Mastercard entwickelt wurde.

OpenClawRadar
Claude Code v2.1.85 Veröffentlichung: MCP-Verbesserungen, Hook-Filter und Fehlerbehebungen
Nachrichten

Claude Code v2.1.85 Veröffentlichung: MCP-Verbesserungen, Hook-Filter und Fehlerbehebungen

Claude Code v2.1.85 fügt Umgebungsvariablen für MCP headersHelper-Skripte hinzu, bedingte if-Felder für Hooks, um Prozess-Spawning zu reduzieren, und behebt Fehler bei /compact-Fehlschlägen, Plugin-Aktivierungs-/Deaktivierungsproblemen sowie Terminal-Tastaturproblemen in Ghostty, Kitty und WezTerm.

OpenClawRadar
Kritik an der Abstraktionsgrenze und Service-Integrationsansatz des MCP
Nachrichten

Kritik an der Abstraktionsgrenze und Service-Integrationsansatz des MCP

Eine Reddit-Diskussion kritisiert MCP dafür, API-Zugang, effiziente Werkzeuge und Domänenwissen in einer Ebene zu bündeln, und argumentiert, dass dies im Vergleich zu den zugrundeliegenden APIs begrenzte Schnittstellen schafft. Der Beitrag verwendet Lattice als Beispiel, wo deren öffentliche API nur HR-Administrations-Workflows abdeckt, obwohl sie eine vollständige GraphQL-API haben.

OpenClawRadar
Claude Code v2.1.90 fügt den Befehl /powerup mit gamifizierter Feature-Entdeckung hinzu
Nachrichten

Claude Code v2.1.90 fügt den Befehl /powerup mit gamifizierter Feature-Entdeckung hinzu

Claude Code v2.1.90 führt einen /powerup-Slash-Befehl ein, der ein gamifiziertes Onboarding mit 10 freischaltbaren Power-Ups bietet, von denen jedes eine Funktion vermittelt, die die meisten Nutzer übersehen. Das System enthält animierte Demos im Terminal und detaillierte Dokumentation mit Screenshots.

OpenClawRadar