Nemotron 3 4B уступает Qwen 3.5 4B в сложных тестах производительности.

✍️ OpenClawRadar📅 Опубликовано: 19 марта 2026 г.🔗 Source
Nemotron 3 4B уступает Qwen 3.5 4B в сложных тестах производительности.
Ad

Результаты тестирования: Qwen 3.5 4B превосходит Nemotron 3 4B

Детальное сравнительное тестирование между Qwen 3.5 4B Q8 и Nemotron 3 4B Q8 выявило значительные различия в производительности при выполнении задач на математические рассуждения и структурированный вывод.

Методология тестирования

Тестирование состояло из пяти сложных подзадач, требующих математических доказательств, модульной арифметики, разработки алгоритмов и генерации многоязычного текста, представленных в валидном формате JSON. Точный запрос включал:

  • Определение и вычисление S(n) = Σ(-1)^k C(n,k)/(k+1)^2 с замкнутой формой через H_{n+1}, вычисление при n=2026 и 8-строчное доказательство с использованием интегралов
  • Вычисление T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] от k=1 до 2026 с модульным обоснованием
  • Алгоритм Мёбиуса + включения-исключения для подсчета взаимно простых пар в динамическом массиве с псевдокодом ровно в 14 строках (имена переменных ≤8 символов)
  • Вычисление C(4052, 2026) mod 7 с использованием теоремы Лукаса с преобразованием в систему счисления по основанию 7
  • Португальский абзац ровно из 47 слов, содержащий "Möbius", "inclusão-exclusão" и "Lucas", заканчивающийся на "fim."
Ad

Детализация результатов

Qwen 3.5 4B Q8 (корректно): Сгенерировал валидный JSON со всеми корректно выполненными подзадачами. Математические доказательства были точными, включая:

{
  "A": {
    "closed_form": "H_{n+1}/(n+1)",
    "value_2026": "H_{2027}/2027",
    "proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
  },
  "B": {
    "value": 838,
    "justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
  }
}

Nemotron 3 4B Q8 (некорректно): Не смог предоставить корректные рассуждения и структурированный вывод. Проблемы включали:

  • Искаженные шаги интегрирования с неправильными подстановками в математическом доказательстве
  • Неполный псевдокод с заполнителями в виде хэш-символов вместо требуемых 14 строк
  • Обрезанный португальский абзац, заканчивающийся на середине предложения
{
  "C": {
    "pseudocodigo": [
      "read n",
      "a = []",
      "mu = [0]*(max+1)",
      "for i in range(n): a.append(int(input()))",
      "for x in a:",
      " for d in range(1,int(sqrt(x))):",
      " if x%d==0",
      " mu[d]+=1",
      " mu[x//d]-=1",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#"
    ],
    "complexidade": "O(n√max)"
  }
}

Ключевой вывод

Тестирование показывает, что архитектурное преимущество Nemotron 3 4B — поддержка больших контекстных окон — не приводит к лучшим способностям рассуждения в рамках этого контекста. Хотя Nemotron теоретически предлагает расширенную емкость контекста, он не смог выполнить сложные математические рассуждения и генерацию структурированного вывода, с которыми Qwen 3.5 4B успешно справился.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Последнее обновление сломало расширение Claude для VS Code на Windows из-за жестко заданного пути для Linux
Новости

Последнее обновление сломало расширение Claude для VS Code на Windows из-за жестко заданного пути для Linux

Недавнее обновление расширения VS Code от Anthropic жестко прописывает путь Linux, что ломает расширение на Windows. Возврат к предыдущей версии восстанавливает функциональность.

OpenClawRadar
Журналы сессий агента кодирования хранятся локально, что может обеспечить открытое федеративное обучение.
Новости

Журналы сессий агента кодирования хранятся локально, что может обеспечить открытое федеративное обучение.

Кодирующие агенты, такие как Claude Code и Codex CLI, хранят подробные журналы сессий локально, включая задачи, рассуждения, вызовы инструментов и ответы среды. В посте на Reddit предлагается использовать эти данные с помощью федеративного обучения для создания открытого аналога проприетарных наборов данных для обучения.

OpenClawRadar
Кими k2.5: Прокладывая новые пути в автоматизации ИИ
Новости

Кими k2.5: Прокладывая новые пути в автоматизации ИИ

Kimi k2.5 установила новый стандарт в области автоматизации ИИ, обладая передовыми возможностями, которые привлекают внимание в технологическом сообществе. Узнайте, как она перестраивает ландшафт.

OpenClawRadar
完全转型为AI工程师:不再接触代码
Новости

完全转型为AI工程师:不再接触代码

Макс Хейер описывает рабочий процесс, где агенты пишут весь код, а он только читает diff'ы, пишет спецификации и проверяет результат. Важен вкус — оценивать код сложнее, чем писать его.

OpenClawRadar