コード進化法でARC-AGI-2性能3倍

コード進化がARC-AGI-2でのLLM推論を向上

Imbueの研究者らは、コード進化がARC-AGI-2ベンチマークにおけるLLMの性能を大幅に改善できることを示す結果を発表しました。彼らの手法は、適応度に基づくサンプリングとベースLLMによるコード変異を組み合わせており、様々なモデルタイプで大きな向上を達成しています。

性能結果

進化手法は、ベースモデルによって異なる改善効果をもたらします：

Kimi K2.5（オープンウェイト）：2.8倍の性能向上、公開評価セットで12.1%から34.0%の精度、タスクあたり2.67ドル。これは現在利用可能なARC-AGI-2向け最高性能のオープンソース/オープンウェイトソリューションです。
Gemini 3 Flash：1.8倍の性能向上、34.0%から61.4%の精度、タスクあたり2.42ドル。
Gemini 3.1 Pro：88.1%から95.1%の精度に向上、タスクあたり8.71ドル。この結果は、現在の最先端技術（Confluence Labによるタスクあたり11.77ドルで97.9%）と競合します。

すべての実行は、まったく同じ進化フレームワークとプロンプトを使用しました。研究者らは、これらの結果に使用された公開評価セットのスコアは、公式ARC-AGI-2リーダーボードで使用される半非公開データセットと直接比較できないことに注意しています。

コード進化の仕組み

この手法は、適応度に基づくサンプリングとコード変異を用いて、初期ソリューションを反復的に改善します。変異ステップは基盤となるベースLLMによって駆動されますが、選択された特定のモデルには依存しません。このアプローチは、ARC-AGI-2を超えた幅広い推論および最適化タスクに適用可能です。

参考までに、ARC-AGI（抽象化と推論コーパス）は、François Cholletによって2019年に提案され、「一般的流動性知能」―システムが新規問題に対する解決策を効率的に学習する能力―を測定する方法として考案されました。各タスクは2〜5個の入出力例（色値を持つ矩形グリッド）を提示し、変換ルールを推論して課題入力に対する出力を予測することを要求します。

📖 詳細情報を読む： HN LLM Tools

コード進化法がARC-AGI-2ベンチマークでLLM性能を3倍に向上

コード進化がARC-AGI-2でのLLM推論を向上

性能結果

コード進化の仕組み

👀 See Also

Clawion: OpenClawラッパー、Claude MaxサポートとGitHub統搭載

クロードはインタラクティブなチャートとダイアグラム作成機能を追加しました

Claude Codeの自動メモリにおけるコンテキスト肥大化を命名スキーマと監査スクリプトで修正する

今はFigmaよりClaudeでデザインしています — Jane Streetデザイナーのワークフロー