決定論的 vs 確率的コード生成:BunのVibe-Coded Rust変換がレッドフラグを引き起こす理由

Noah Hall氏は、The Tech Enablerへの寄稿で、決定論的コード生成と確率的コード生成の間に明確な線引きを行っている。彼はBunによる最近のvibe-codedな100万行のコードベースのZigからRustへの変換を戒めの話として取り上げている。彼の核心的な主張は、決定論的システムは一貫性のあるレビュー可能な結果を生み出すが、LLMは不確実性をもたらし、コードレビューを大規模に行うことを不可能にするというものだ。
決定論的コード生成
Hall氏は確立された決定論的ツールを挙げている:Python 2→3移行のためのPythonの2to3、Elm、PureScript、TypeScriptなど常に同じJavaScriptを生成するトランスパイラ。彼自身の言語DerwはJavaScript、TypeScript、または英語を出力でき、TeganはJavaScriptまたはGoを出力、MojieはJavaScript、Python、または英語を対象としている。すべてASTからASTへの変換に基づいており、同じ入力に対して常に同じ出力が得られる。一貫性が重要な理由:「バグが一貫していれば修正できる。バグが一貫していなければ、修正は指数関数的に困難になる。」
確率的コード生成
LLMは実行ごとに出力が変化する——時にはA、時にはB。Hall氏は3年前にパロディとしてneuro-lingoを作成した。人間は関数シグネチャとコメントのみを書き、LLMがコンパイルのたびに実装を新たに生成する。例:
function add(a: number, b: number): number {
// Add two numbers together
}
function main() {
// Print "Hello World" to the console
// Print the result of add(2, 3)
}「neuro-lingoがコンパイルされるたびに、コードはLLMによって新たに生成される。毎回少しずつ異なる。時にはバグが混入する。時にはきれいでシンプルだ。時には混沌としている。」Hall氏は、完全にAI駆動のコードフローはまさにこれを行っているが、人間の責任のもとで本番環境にリリースしていると主張する。
「テストがある」という誤謬
テストだけでは品質を保証できない。Hall氏はSQLiteを最もテストされたコードベースとして挙げている。Cコード155.8 KSLOCに対してテストコード92,053.1 KSLOC(590倍)。100%のブランチカバレッジ、数百万のテストケース、広範なテストハーネスにもかかわらず、SQLiteは依然として人間のレビューに依存している。「人間が9日間で100万行の変更をレビューすることは不可能だ。Bunはmasterにマージしたコードをレビューしていない。」
Hall氏は、決定論的コード生成であっても検証が必要であり、確率的生成は行数に比例してリスクを生み出すと結論付けている。ソース記事では各例についてさらに深く掘り下げている。
📖 全文を読む: HN AI Agents
👀 See Also

Google AIの概要、カナダのフィドル奏者を誤って性犯罪者と表示、訴訟提起
アシュリー・マクアイザック氏は、GoogleのAI Overviewが虚偽の情報(彼が有罪判決を受けた性犯罪者であるなど)を生成し、コンサートが中止に追い込まれたとして、150万ドルの訴訟を起こした。

アマゾンの労働者、AI使用割当達成のために空回り業務を発明
社内のAIツール導入義務に対応するため、Amazonの従業員がタスクを捏造したり、利用統計を水増ししたり、指標を操作していることが明らかになった。これはAI導入ポリシーの欠陥を示している。

Claudeのコードレート制限は、100万トークンのコンテキストウィンドウ過負荷が原因かもしれません。
Redditユーザーは、Claude Codeの最近のレート制限と障害は、Opus 4.6の100万トークンコンテキストウィンドウに起因している可能性があり、非効率なコンテキスト圧縮とサーバー過負荷を引き起こしていると推測しています。古い非100万コンテキストモデルに切り替えると安定性が向上すると報告されています。

OpenRouterに2つの新モデルが登場、おそらくDeepSeek V4の亜種か
OpenRouterにhealer-alphaとhunter-alphaという2つの新モデルが登場し、その仕様はDeepSeek V4に関するリーク情報と一致しています。初期テストでは、両モデルともロールプレイシナリオで良好な性能を示し、メッセージフィルタリングがなく、GLM 5.0よりも高速なトークン生成が確認されました。