AIME 2026 結果:オープンモデルとクローズドモデルの両方が90%以上を獲得

AIME 2026(アメリカ数学招待試験)の結果が発表され、クローズドおよびオープンAIモデルの両方が、この難易度の高い数学的推論ベンチマークで90%以上のスコアを記録しました。
主なハイライト
- プロプライエタリ(クローズド)およびオープンソースモデルの両方が90%以上の精度を達成
- DeepSeek V3.2はAPIコスト約bash.09でテスト全体を実行可能
- これは数学的推論能力における重要なマイルストーンを表しています
この結果の意味
AIMEは伝統的に最も難しい高校数学コンテストの一つであり、洗練された数学的推論を必要とする問題が特徴です。AIモデルが90%以上の精度を達成したことは、複雑な推論能力における顕著な進歩を示しています。
コスト効率
DeepSeek V3.2がテスト全体でわずかbash.09というコストで競争力のある結果を達成できるという事実は、高度なAI能力のコストが急速に低下し、洗練された推論がよりアクセスしやすくなっていることを強調しています。
なぜこれが重要か
クローズドおよびオープンAIモデルの両方が90%以上の精度を達成したことは、AI技術の進化における画期的な瞬間を示しています。これは、AIが教育現場だけでなく、複雑な問題解決が必要な実世界の応用においても支援する可能性を示しています。この進歩は、特に高度な認知機能を必要とする分野でのAIシステムへのさらなる投資と開発を促進するかもしれません。
主なポイント
- AIME 2026におけるAIモデルのパフォーマンスは、数学的推論能力の飛躍的向上を示しています。
- プロプライエタリおよびオープンソースモデルの両方が同様の精度レベルに到達しており、AI分野での健全な競争と革新を促進しています。
- DeepSeek V3.2のようなコスト効率の良いソリューションにより、高度なAIツールがより広い層にアクセス可能になっています。
- この進歩は、教育機関がAIツールをカリキュラムに統合し、学習体験を向上させることを促す可能性があります。
始め方
数学的推論やその他の複雑なタスクにAIを活用することに興味がある方にとって、DeepSeek V3.2のようなツールを使い始めるのは簡単です。ユーザーはDeepSeekのウェブサイトでAPIキーに登録することで、モデルの能力にアクセスできます。登録後、開発者はAPIをアプリケーションに統合したり、個人プロジェクトで使用したりすることができ、AI駆動の問題解決の実験が可能になります。
完全な結果: matharena.ai
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

Claude Code v2.1.90は、ゲーム化された機能発見を備えた/powerupコマンドを追加しました。
Claude Code v2.1.90では、/powerupスラッシュコマンドが導入され、10個の解除可能なパワーアップを通じてゲーム化されたオンボーディングを提供します。各パワーアップは、多くのユーザーが見逃している機能を一つずつ教える仕組みです。このシステムには、ターミナル内でのアニメーションデモやスクリーンショット付きの詳細なドキュメントが含まれています。

Anthropic、Claude Codeの使用制限を2倍に引き上げ、SpaceXと計算リソース契約を締結
AnthropicはClaude Code ProおよびMaxサブスクライバーの5時間使用枠を倍増させ、ピーク時の制限を撤廃し、OpusのAPI制限を引き上げました。これはSpaceXとの新たな契約により、Colossus 1スーパーコンピューター(22万基以上のNVIDIA GPU)から300 MW以上の計算能力を確保したためです。

OpenClawユーザーがOpenRouter経由で1億4300万トークンを94ドルで処理したと報告
RedditユーザーがOpenClawマルチエージェントパイプラインを実行し、1億4300万トークンを94.16ドルで処理。OpenRouter経由のルーティングと特定の設定最適化により、約0.66ドル/100万トークンのコストを達成。

スタートアップ、AIコンピューティングに人件費以上の支出を報告
Swan AIのようなAIスタートアップは、月額11万3000ドルを超えるAIコンピュート料金を報告しており、CEOたちはこれをAI支出が従来の人件費予算に取って代わる「トークンマキシング」と表現しています。