Qwen 3.5 4B vs Nemotron 3 4B: кто победил в тестах?

Результаты тестирования: Qwen 3.5 4B превосходит Nemotron 3 4B

Детальное сравнительное тестирование между Qwen 3.5 4B Q8 и Nemotron 3 4B Q8 выявило значительные различия в производительности при выполнении задач на математические рассуждения и структурированный вывод.

Методология тестирования

Тестирование состояло из пяти сложных подзадач, требующих математических доказательств, модульной арифметики, разработки алгоритмов и генерации многоязычного текста, представленных в валидном формате JSON. Точный запрос включал:

Определение и вычисление S(n) = Σ(-1)^k C(n,k)/(k+1)^2 с замкнутой формой через H_{n+1}, вычисление при n=2026 и 8-строчное доказательство с использованием интегралов
Вычисление T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] от k=1 до 2026 с модульным обоснованием
Алгоритм Мёбиуса + включения-исключения для подсчета взаимно простых пар в динамическом массиве с псевдокодом ровно в 14 строках (имена переменных ≤8 символов)
Вычисление C(4052, 2026) mod 7 с использованием теоремы Лукаса с преобразованием в систему счисления по основанию 7
Португальский абзац ровно из 47 слов, содержащий "Möbius", "inclusão-exclusão" и "Lucas", заканчивающийся на "fim."

Детализация результатов

Qwen 3.5 4B Q8 (корректно): Сгенерировал валидный JSON со всеми корректно выполненными подзадачами. Математические доказательства были точными, включая:

{
  "A": {
    "closed_form": "H_{n+1}/(n+1)",
    "value_2026": "H_{2027}/2027",
    "proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
  },
  "B": {
    "value": 838,
    "justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
  }
}

Nemotron 3 4B Q8 (некорректно): Не смог предоставить корректные рассуждения и структурированный вывод. Проблемы включали:

Искаженные шаги интегрирования с неправильными подстановками в математическом доказательстве
Неполный псевдокод с заполнителями в виде хэш-символов вместо требуемых 14 строк
Обрезанный португальский абзац, заканчивающийся на середине предложения

{
  "C": {
    "pseudocodigo": [
      "read n",
      "a = []",
      "mu = [0]*(max+1)",
      "for i in range(n): a.append(int(input()))",
      "for x in a:",
      " for d in range(1,int(sqrt(x))):",
      " if x%d==0",
      " mu[d]+=1",
      " mu[x//d]-=1",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#"
    ],
    "complexidade": "O(n√max)"
  }
}

Ключевой вывод

Тестирование показывает, что архитектурное преимущество Nemotron 3 4B — поддержка больших контекстных окон — не приводит к лучшим способностям рассуждения в рамках этого контекста. Хотя Nemotron теоретически предлагает расширенную емкость контекста, он не смог выполнить сложные математические рассуждения и генерацию структурированного вывода, с которыми Qwen 3.5 4B успешно справился.

📖 Read the full source: r/LocalLLaMA

Nemotron 3 4B уступает Qwen 3.5 4B в сложных тестах производительности.

Результаты тестирования: Qwen 3.5 4B превосходит Nemotron 3 4B

Методология тестирования

Детализация результатов

Ключевой вывод

👀 Смотрите также

Последнее обновление сломало расширение Claude для VS Code на Windows из-за жестко заданного пути для Linux

Журналы сессий агента кодирования хранятся локально, что может обеспечить открытое федеративное обучение.

Кими k2.5: Прокладывая новые пути в автоматизации ИИ

完全转型为AI工程师：不再接触代码