AIコーディング評価指標の誤り：Codestrap創業者が警告する品質問題

AIアドバイザリーサービスCodestrapの創業者ドリアン・スマイル氏とコナー・ディークス氏は、企業組織がAIを効果的に導入できずに苦戦しているのは、参照アーキテクチャやユースケースの確立された手引書がないためだと主張する。多くの企業が適切なフィードバックループを持たずにAI戦略を持っているふりをしていると指摘する。

問題のある指標と欠陥のある成果

スマイル氏は、現在のAIコーディング評価は誤った指標に焦点を当てていると述べる：「コード行数、[プルリクエスト]の数、これらは負債です。これらはエンジニアリングの卓越性を測る指標ではありません」。適切なエンジニアリング指標として、デプロイ頻度、本番環境までのリードタイム、変更失敗率、平均復旧時間、インシデント重大度を挙げる。

測定の不備による結果を説明するため、スマイル氏は最近のAIを使ったSQLiteのRustへの書き換え事例を引用：「すべての単体テストに合格し、コードの形状は正しく見えました。しかし、実際のSQLiteより3.7倍多くのコード行数で、性能は2,000倍劣っていました。データベースにとって2,000倍の性能低下は、製品として成立しません」。

基盤となるLLMの限界

ディークス氏は、現在のLLM技術の根本的な問題を指摘：「新しい事実を教えるのが難しい。事実を確実に検索するのが難しい。ニューラルネットワークの順方向伝播は非決定論的です。特に、内部対話を活用して次のトークン予測の効率を高める推論モデルでは、毎回異なる答えが得られることを意味します」。

スマイル氏は付け加える：「そして、彼らには帰納的推論能力がありません。モデルは自身の作業をチェックできません。与えた答えが正しいかどうか分からないのです。これらはLLM技術で誰も解決していない根本的な問題です」。

提案される新しい測定アプローチ

創業者らは、AI支援エンジニアリングに特化した新しい指標の開発を主張。スマイル氏は一つの潜在的な指標を提案：「承認されたプルリクエスト——ソフトウェアの正式に受け入れられた変更——に至るまでに消費されたトークンを測定すること」。組織はフィードバックループで実験と反復を重ねる必要があると強調し、「AIはコーディングの文脈内でもまだ十分に機能していない」と述べる。

ディークス氏は、最近のAmazonとAWSの障害を将来の問題の兆候として言及するが、AmazonはこれらのインシデントがAIとは無関係だと表明している。

📖 Read the full source: HN AI Agents

Codestrapの創業者たちは、AIコーディングの評価指標を批判し、品質問題について警告しています。

問題のある指標と欠陥のある成果

基盤となるLLMの限界

提案される新しい測定アプローチ

👀 See Also

ローカルLLM、Unreal Engineソリティアに苦戦：Qwen 3.6-27Bが1枚のカードに687kトークンを消費

FairyFuse、三元重み乗算なし推論によりCPU上で29.6倍のカーネル高速化を達成

Claude Desktop v1.1.5749は、コンピューター制御機能と企業プロキシの修正を追加しました。

AIサブスクリプション価格の暴落：あなたの企業請求額が10倍になる理由