Nemotron 3 4Bは、要求の厳しいベンチマークにおいてQwen 3.5 4Bに及ばない結果を示しています。

ベンチマーク結果: Qwen 3.5 4BがNemotron 3 4Bを上回る
Qwen 3.5 4B Q8とNemotron 3 4B Q8の詳細なベンチマーク比較により、数学的推論と構造化出力タスクにおいて顕著な性能差が明らかになりました。
テスト方法論
ベンチマークは、数学的証明、モジュラー演算、アルゴリズム設計、多言語テキスト生成を要求する5つの厳しいサブタスクで構成され、すべて有効なJSON形式でラップされていました。具体的なプロンプトは以下の内容を要求しました:
- S(n) = Σ(-1)^k C(n,k)/(k+1)^2の定義と評価(H_{n+1}を用いた閉形式)、n=2026での評価、積分を用いた8行の証明
- T = Σ[floor((17k+8)/29) - floor((17k-4)/29)]の計算(k=1から2026まで、モジュラー正当化付き)
- 動的配列内の互いに素なペアを数えるためのメビウス関数+包除原理アルゴリズム(変数名は8文字以内、正確に14行の擬似コード)
- ルーカスの定理と7進数変換を用いたC(4052, 2026) mod 7の計算
- 「Möbius」「inclusão-exclusão」「Lucas」を含み、「fim.」で終わる正確に47語のポルトガル語段落
結果の詳細
Qwen 3.5 4B Q8(正解): すべてのサブタスクが正しく完了した有効なJSONを生成しました。数学的証明は正確で、以下を含みました:
{
"A": {
"closed_form": "H_{n+1}/(n+1)",
"value_2026": "H_{2027}/2027",
"proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
},
"B": {
"value": 838,
"justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
}
}
Nemotron 3 4B Q8(不正解): 正しい推論と構造化された出力を生成できませんでした。問題点は以下を含みました:
- 数学的証明における誤った置換を含む乱れた積分ステップ
- 必要な14行の代わりにプレースホルダーのハッシュ記号を含む不完全な擬似コード
- 途中で終了したポルトガル語段落
{
"C": {
"pseudocodigo": [
"read n",
"a = []",
"mu = [0]*(max+1)",
"for i in range(n): a.append(int(input()))",
"for x in a:",
" for d in range(1,int(sqrt(x))):",
" if x%d==0",
" mu[d]+=1",
" mu[x//d]-=1",
"#",
"#",
"#",
"#",
"#",
"#",
"#"
],
"complexidade": "O(n√max)"
}
}
主要な発見
このベンチマークは、Nemotron 3 4Bのアーキテクチャ上の利点(より大きなコンテキストウィンドウのサポート)が、そのコンテキスト内での優れた推論能力にはつながらないことを明らかにしています。Nemotronは理論的には拡張されたコンテキスト容量を提供しますが、Qwen 3.5 4Bが正しく処理した複雑な数学的推論と構造化出力生成を実行できませんでした。
📖 Read the full source: r/LocalLLaMA
👀 See Also

CursorのComposer 2.0は、APIエンドポイントの証拠に基づくと、Kimi 2.5モデルを使用しているようです。
ネットワーク分析によると、CursorのComposer 2.0は「kimi-k2p5-rl-0317-s515-fast」を含むエンドポイントにリクエストを送信しており、Kimi 2.5を基にしていることが示唆されています。修正MITライセンスは、帰属表示を必要とするものの、その他の義務は最小限であると報告されています。

OpenClaw 5.2移行によりCronジョブとMCPプラグイン呼び出しが破損
OpenClawを4.23から5.2にアップグレードすると、MCPツールプラグインが表示されるもののエージェントから呼び出せなくなり、CLI経由のcronジョブ登録がデバイスペアリングエラーで失敗します。

マニフェストは、GitHub CopilotをOpenClawルーティングの4番目のAIプロバイダーとして追加します。
Manifestは現在、GitHub Copilotサブスクリプションを通じてOpenClawリクエストをルーティングすることをサポートし、Anthropic、OpenAI、Minimaxに続く利用可能なプロバイダーとして加わりました。これにより、開発者は開発用に構築されたモデルを通じて、既存のCopilotプランをコードタスクに使用できるようになります。

卒業式でAIの激励演説に学生がブーイング、開発者の心情を反映
今シーズンの複数の大学の卒業式で、卒業生たちがAIへの熱意を語るスピーカーにブーイングを浴びせ、AIの雇用や社会への影響に対する広範な不安を反映した。