Nemotron 3 4B уступает Qwen 3.5 4B в сложных тестах производительности.

Результаты тестирования: Qwen 3.5 4B превосходит Nemotron 3 4B
Детальное сравнительное тестирование между Qwen 3.5 4B Q8 и Nemotron 3 4B Q8 выявило значительные различия в производительности при выполнении задач на математические рассуждения и структурированный вывод.
Методология тестирования
Тестирование состояло из пяти сложных подзадач, требующих математических доказательств, модульной арифметики, разработки алгоритмов и генерации многоязычного текста, представленных в валидном формате JSON. Точный запрос включал:
- Определение и вычисление S(n) = Σ(-1)^k C(n,k)/(k+1)^2 с замкнутой формой через H_{n+1}, вычисление при n=2026 и 8-строчное доказательство с использованием интегралов
- Вычисление T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] от k=1 до 2026 с модульным обоснованием
- Алгоритм Мёбиуса + включения-исключения для подсчета взаимно простых пар в динамическом массиве с псевдокодом ровно в 14 строках (имена переменных ≤8 символов)
- Вычисление C(4052, 2026) mod 7 с использованием теоремы Лукаса с преобразованием в систему счисления по основанию 7
- Португальский абзац ровно из 47 слов, содержащий "Möbius", "inclusão-exclusão" и "Lucas", заканчивающийся на "fim."
Детализация результатов
Qwen 3.5 4B Q8 (корректно): Сгенерировал валидный JSON со всеми корректно выполненными подзадачами. Математические доказательства были точными, включая:
{
"A": {
"closed_form": "H_{n+1}/(n+1)",
"value_2026": "H_{2027}/2027",
"proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
},
"B": {
"value": 838,
"justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
}
}
Nemotron 3 4B Q8 (некорректно): Не смог предоставить корректные рассуждения и структурированный вывод. Проблемы включали:
- Искаженные шаги интегрирования с неправильными подстановками в математическом доказательстве
- Неполный псевдокод с заполнителями в виде хэш-символов вместо требуемых 14 строк
- Обрезанный португальский абзац, заканчивающийся на середине предложения
{
"C": {
"pseudocodigo": [
"read n",
"a = []",
"mu = [0]*(max+1)",
"for i in range(n): a.append(int(input()))",
"for x in a:",
" for d in range(1,int(sqrt(x))):",
" if x%d==0",
" mu[d]+=1",
" mu[x//d]-=1",
"#",
"#",
"#",
"#",
"#",
"#",
"#"
],
"complexidade": "O(n√max)"
}
}
Ключевой вывод
Тестирование показывает, что архитектурное преимущество Nemotron 3 4B — поддержка больших контекстных окон — не приводит к лучшим способностям рассуждения в рамках этого контекста. Хотя Nemotron теоретически предлагает расширенную емкость контекста, он не смог выполнить сложные математические рассуждения и генерацию структурированного вывода, с которыми Qwen 3.5 4B успешно справился.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Последнее обновление сломало расширение Claude для VS Code на Windows из-за жестко заданного пути для Linux
Недавнее обновление расширения VS Code от Anthropic жестко прописывает путь Linux, что ломает расширение на Windows. Возврат к предыдущей версии восстанавливает функциональность.

Журналы сессий агента кодирования хранятся локально, что может обеспечить открытое федеративное обучение.
Кодирующие агенты, такие как Claude Code и Codex CLI, хранят подробные журналы сессий локально, включая задачи, рассуждения, вызовы инструментов и ответы среды. В посте на Reddit предлагается использовать эти данные с помощью федеративного обучения для создания открытого аналога проприетарных наборов данных для обучения.

Кими k2.5: Прокладывая новые пути в автоматизации ИИ
Kimi k2.5 установила новый стандарт в области автоматизации ИИ, обладая передовыми возможностями, которые привлекают внимание в технологическом сообществе. Узнайте, как она перестраивает ландшафт.

完全转型为AI工程师:不再接触代码
Макс Хейер описывает рабочий процесс, где агенты пишут весь код, а он только читает diff'ы, пишет спецификации и проверяет результат. Важен вкус — оценивать код сложнее, чем писать его.