KI-Codierungsmetriken: 3,7x mehr Code, 2000x langsamer

Dorian Smiley und Connor Deeks, die Gründer des KI-Beratungsdienstes Codestrap, argumentieren, dass Unternehmen Schwierigkeiten haben, KI effektiv einzusetzen, weil es keinen etablierten Leitfaden für Referenzarchitekturen oder Anwendungsfälle gibt. Sie behaupten, dass viele Unternehmen so tun, als hätten sie KI-Strategien, während ihnen angemessene Feedback-Schleifen fehlen, um die tatsächliche Wirkung zu messen.

Problematische Metriken und fehlerhafte Ergebnisse

Smiley erklärt, dass die aktuelle Bewertung von KI-Codierung auf falschen Metriken basiert: "Codezeilen, Anzahl der [Pull-Requests] – das sind Belastungen. Das sind keine Maßstäbe für technische Exzellenz." Er nennt als geeignete technische Metriken die Bereitstellungshäufigkeit, die Durchlaufzeit bis zur Produktion, die Fehlerrate bei Änderungen, die mittlere Wiederherstellungszeit und die Schwere von Vorfällen.

Um die Folgen schlechter Messungen zu veranschaulichen, verweist Smiley auf einen kürzlichen Versuch, SQLite mithilfe von KI in Rust neu zu schreiben: "Es bestand alle Unit-Tests, der Code sieht richtig aus. Es sind 3,7-mal mehr Codezeilen, die 2.000-mal schlechter abschneiden als das eigentliche SQLite. Zweitausendmal schlechter für eine Datenbank ist ein nicht lebensfähiges Produkt."

Grundlegende Einschränkungen von LLMs

Deeks weist auf grundlegende Probleme der aktuellen LLM-Technologie hin: "Es ist schwer, ihnen neue Fakten beizubringen. Es ist schwer, Fakten zuverlässig abzurufen. Der Vorwärtsdurchlauf durch die neuronalen Netze ist nicht deterministisch, insbesondere bei Reasoning-Modellen, die einen inneren Monolog nutzen, um die Effizienz der nächsten Token-Vorhersage zu erhöhen – das bedeutet, man erhält jedes Mal eine andere Antwort."

Smiley fügt hinzu: "Und sie haben keine induktiven Denkfähigkeiten. Ein Modell kann seine eigene Arbeit nicht überprüfen. Es weiß nicht, ob die gegebene Antwort richtig ist. Das sind grundlegende Probleme, die bei der LLM-Technologie noch niemand gelöst hat."

Vorgeschlagener neuer Messansatz

Die Gründer plädieren für die Entwicklung neuer Metriken speziell für KI-gestütztes Engineering. Smiley schlägt eine mögliche Metrik vor: "die Messung der verbrauchten Tokens bis zu einem genehmigten Pull-Request – einer formal akzeptierten Softwareänderung." Er betont, dass Organisationen in Feedback-Schleifen experimentieren und iterieren müssen, weil "KI selbst im Codierungskontext noch nicht gut funktioniert".

Deeks verweist auf kürzliche Ausfälle bei Amazon und AWS als Hinweis auf mögliche zukünftige Probleme, obwohl Amazon erklärt hat, dass diese Vorfälle nichts mit KI zu tun hatten.

📖 Read the full source: HN AI Agents

Codestrap-Gründer kritisieren KI-Codierungsmetriken und warnen vor Qualitätsproblemen

Problematische Metriken und fehlerhafte Ergebnisse

Grundlegende Einschränkungen von LLMs

Vorgeschlagener neuer Messansatz

👀 Siehe auch

Reddit-Diskussion über langfristige Risiken der Abhängigkeit von Programmieragenten

Agentic GRPO: Erste KI, die in einem Programmierwettbewerb jeden Menschen schlägt

Papst Leo XIV. 'Magnifica Humanitas': Eine 40.000 Wörter umfassende Enzyklika zur Abrüstung der KI

Analyse der 'Clausage': Nutzerängste in KI-Abonnementmodellen