コード進化法がARC-AGI-2ベンチマークでLLM性能を3倍に向上

✍️ OpenClawRadar📅 公開日: February 28, 2026🔗 Source
コード進化法がARC-AGI-2ベンチマークでLLM性能を3倍に向上
Ad

コード進化がARC-AGI-2でのLLM推論を向上

Imbueの研究者らは、コード進化がARC-AGI-2ベンチマークにおけるLLMの性能を大幅に改善できることを示す結果を発表しました。彼らの手法は、適応度に基づくサンプリングとベースLLMによるコード変異を組み合わせており、様々なモデルタイプで大きな向上を達成しています。

性能結果

進化手法は、ベースモデルによって異なる改善効果をもたらします:

  • Kimi K2.5(オープンウェイト):2.8倍の性能向上、公開評価セットで12.1%から34.0%の精度、タスクあたり2.67ドル。これは現在利用可能なARC-AGI-2向け最高性能のオープンソース/オープンウェイトソリューションです。
  • Gemini 3 Flash:1.8倍の性能向上、34.0%から61.4%の精度、タスクあたり2.42ドル。
  • Gemini 3.1 Pro:88.1%から95.1%の精度に向上、タスクあたり8.71ドル。この結果は、現在の最先端技術(Confluence Labによるタスクあたり11.77ドルで97.9%)と競合します。

すべての実行は、まったく同じ進化フレームワークとプロンプトを使用しました。研究者らは、これらの結果に使用された公開評価セットのスコアは、公式ARC-AGI-2リーダーボードで使用される半非公開データセットと直接比較できないことに注意しています。

コード進化の仕組み

この手法は、適応度に基づくサンプリングとコード変異を用いて、初期ソリューションを反復的に改善します。変異ステップは基盤となるベースLLMによって駆動されますが、選択された特定のモデルには依存しません。このアプローチは、ARC-AGI-2を超えた幅広い推論および最適化タスクに適用可能です。

参考までに、ARC-AGI(抽象化と推論コーパス)は、François Cholletによって2019年に提案され、「一般的流動性知能」―システムが新規問題に対する解決策を効率的に学習する能力―を測定する方法として考案されました。各タスクは2〜5個の入出力例(色値を持つ矩形グリッド)を提示し、変換ルールを推論して課題入力に対する出力を予測することを要求します。

📖 詳細情報を読む: HN LLM Tools

Ad

👀 See Also

mindpm: Claudeとの持続的なプロジェクトメモリのための無料MCPサーバー
Tools

mindpm: Claudeとの持続的なプロジェクトメモリのための無料MCPサーバー

mindpmは、ClaudeにローカルのSQLiteデータベースを提供して、会話全体でタスク、決定、メモ、セッションの要約を追跡する無料のオープンソースMCPサーバーです。セットアップは30秒で完了します。コマンド: claude mcp add mindpm -e MINDPM_DB_PATH=~/.mindpm/memory.db -- npx -y mindpm

OpenClawRadar
Mozilla Thunderbolt: セルフホスト型インフラストラクチャ向けオープンソースエンタープライズAIクライアント
Tools

Mozilla Thunderbolt: セルフホスト型インフラストラクチャ向けオープンソースエンタープライズAIクライアント

Mozillaは、組織がモデルの選択、エンタープライズデータの統合、クロスプラットフォームのネイティブアプリケーションを備えたセルフホスト型AIインフラを導入できるように設計された、MPL 2.0ライセンスのオープンソースAIクライアント「Thunderbolt」を発表しました。

OpenClawRadar
オープンソースツールがローカルデータ分析でAIコーディングエージェントの自律性を測定
Tools

オープンソースツールがローカルデータ分析でAIコーディングエージェントの自律性を測定

Codelens-AIは、Claude Codeセッションファイルとgit履歴を分析して、Autopilot RatioやSelf-Heal Scoreなどの自律性メトリクスを計算するオープンソースのCLIツールです。このツールはnpx claude-roiを使用してゼロセットアップでローカルで実行され、すべてのデータはお使いのマシン上に保持されます。

OpenClawRadar
Monarch v3: NES-Inspired KV Paging for 78% Faster LLM Inference
Tools

Monarch v3: NES-Inspired KV Paging for 78% Faster LLM Inference

Monarch v3 implements NES-inspired memory paging for transformers, achieving 78% faster inference (17.01 to 30.42 tok/sec) on a 1.1B parameter model with nearly zero VRAM overhead. The open-source algorithm splits KV cache into hot and cold regions with compression and promotion mechanisms.

OpenClawRadar