Codestrapの創業者たちは、AIコーディングの評価指標を批判し、品質問題について警告しています。

✍️ OpenClawRadar📅 公開日: March 19, 2026🔗 Source
Codestrapの創業者たちは、AIコーディングの評価指標を批判し、品質問題について警告しています。
Ad

AIアドバイザリーサービスCodestrapの創業者ドリアン・スマイル氏とコナー・ディークス氏は、企業組織がAIを効果的に導入できずに苦戦しているのは、参照アーキテクチャやユースケースの確立された手引書がないためだと主張する。多くの企業が適切なフィードバックループを持たずにAI戦略を持っているふりをしていると指摘する。

問題のある指標と欠陥のある成果

スマイル氏は、現在のAIコーディング評価は誤った指標に焦点を当てていると述べる:「コード行数、[プルリクエスト]の数、これらは負債です。これらはエンジニアリングの卓越性を測る指標ではありません」。適切なエンジニアリング指標として、デプロイ頻度、本番環境までのリードタイム、変更失敗率、平均復旧時間、インシデント重大度を挙げる。

測定の不備による結果を説明するため、スマイル氏は最近のAIを使ったSQLiteのRustへの書き換え事例を引用:「すべての単体テストに合格し、コードの形状は正しく見えました。しかし、実際のSQLiteより3.7倍多くのコード行数で、性能は2,000倍劣っていました。データベースにとって2,000倍の性能低下は、製品として成立しません」。

基盤となるLLMの限界

ディークス氏は、現在のLLM技術の根本的な問題を指摘:「新しい事実を教えるのが難しい。事実を確実に検索するのが難しい。ニューラルネットワークの順方向伝播は非決定論的です。特に、内部対話を活用して次のトークン予測の効率を高める推論モデルでは、毎回異なる答えが得られることを意味します」。

スマイル氏は付け加える:「そして、彼らには帰納的推論能力がありません。モデルは自身の作業をチェックできません。与えた答えが正しいかどうか分からないのです。これらはLLM技術で誰も解決していない根本的な問題です」。

提案される新しい測定アプローチ

創業者らは、AI支援エンジニアリングに特化した新しい指標の開発を主張。スマイル氏は一つの潜在的な指標を提案:「承認されたプルリクエスト——ソフトウェアの正式に受け入れられた変更——に至るまでに消費されたトークンを測定すること」。組織はフィードバックループで実験と反復を重ねる必要があると強調し、「AIはコーディングの文脈内でもまだ十分に機能していない」と述べる。

ディークス氏は、最近のAmazonとAWSの障害を将来の問題の兆候として言及するが、AmazonはこれらのインシデントがAIとは無関係だと表明している。

📖 Read the full source: HN AI Agents

Ad

👀 See Also

マーク・ザッカーバーグ、CEO補助のためのAIエージェントを開発中
News

マーク・ザッカーバーグ、CEO補助のためのAIエージェントを開発中

ウォール・ストリート・ジャーナルの報道によると、マーク・ザッカーバーグはCEOの職務を支援するAIエージェントを構築しているとのことです。この記事はHacker Newsで37ポイント、30コメントを獲得して議論されました。

OpenClawRadar
Claude Code on the Web 部分的な障害が報告されました
News

Claude Code on the Web 部分的な障害が報告されました

r/ClaudeAIからの自動ステータス更新により、Claude Code on the webで部分的な障害が2026-05-09T23:33:21.000Zから発生していることが報告されています。公式ステータスページとコミュニティのメガスレッドで最新情報を確認してください。

OpenClawRadar
Claude-Code v2.1.88 リリース:ちらつきのないレンダリング、パーミッションフック、重要な修正
News

Claude-Code v2.1.88 リリース:ちらつきのないレンダリング、パーミッションフック、重要な修正

Claude-Code v2.1.88では、CLAUDE_CODE_NO_FLICKER=1によるちらつきのないレンダリングオプション、自動モード再試行のためのPermissionDeniedフックの追加、Windows、macOS、Linuxターミナル全体でのメモリリーク、クラッシュ、レンダリング問題の修正が導入されています。

OpenClawRadar
Claude Security 公開ベータ版:コードベースをスキャン、自身の調査結果を検証、パッチを提案
News

Claude Security 公開ベータ版:コードベースをスキャン、自身の調査結果を検証、パッチを提案

Anthropicは、エンタープライズ顧客向けにClaude Securityをパブリックベータ版としてリリースしました。セキュリティ研究者のようにコードを推論し、敵対的自己検証を通じて自身の結果に挑戦し、具体的なパッチを提案します。

OpenClawRadar