Nemotron 3 4B vs Qwen 3.5 4B: 벤치마크 성능 비교

벤치마크 결과: Qwen 3.5 4B가 Nemotron 3 4B보다 성능 우위

Qwen 3.5 4B Q8과 Nemotron 3 4B Q8 간의 상세한 벤치마크 비교에서 수학적 추론 및 구조화된 출력 작업에서 상당한 성능 차이가 드러났습니다.

테스트 방법론

벤치마크는 수학적 증명, 모듈러 산술, 알고리즘 설계, 다국어 텍스트 생성을 요구하는 다섯 가지 까다로운 하위 작업으로 구성되었으며, 모두 유효한 JSON 형식으로 포장되었습니다. 정확한 프롬프트는 다음을 요구했습니다:

S(n) = Σ(-1)^k C(n,k)/(k+1)^2의 정의 및 H_{n+1}로 표현된 닫힌 형태로 평가, n=2026에서의 평가, 적분을 사용한 8줄 증명
k=1부터 2026까지 T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] 계산 및 모듈러 정당화
동적 배열에서 서로소 쌍을 세기 위한 뫼비우스 + 포함-배제 알고리즘, 정확히 14줄의 의사코드(변수 이름 ≤8자)
루카스 정리와 7진법 변환을 사용한 C(4052, 2026) mod 7 계산
정확히 47단어의 포르투갈어 단락으로 "Möbius", "inclusão-exclusão", "Lucas"를 포함하고 "fim."으로 끝남

결과 상세 분석

Qwen 3.5 4B Q8 (정답): 모든 하위 작업이 올바르게 완료된 유효한 JSON을 생성했습니다. 수학적 증명은 정확했으며, 다음을 포함합니다:

{
  "A": {
    "closed_form": "H_{n+1}/(n+1)",
    "value_2026": "H_{2027}/2027",
    "proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
  },
  "B": {
    "value": 838,
    "justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
  }
}

Nemotron 3 4B Q8 (오답): 올바른 추론과 구조화된 출력을 생성하지 못했습니다. 문제점은 다음과 같습니다:

수학적 증명에서 잘못된 치환으로 인한 적분 단계 왜곡
필요한 14줄 대신 자리 표시자 해시 기호를 포함한 불완전한 의사코드
문장 중간에 끊긴 포르투갈어 단락

{
  "C": {
    "pseudocodigo": [
      "read n",
      "a = []",
      "mu = [0]*(max+1)",
      "for i in range(n): a.append(int(input()))",
      "for x in a:",
      " for d in range(1,int(sqrt(x))):",
      " if x%d==0",
      " mu[d]+=1",
      " mu[x//d]-=1",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#"
    ],
    "complexidade": "O(n√max)"
  }
}

주요 발견

이 벤치마크는 Nemotron 3 4B의 더 큰 컨텍스트 창 지원이라는 아키텍처적 장점이 해당 컨텍스트 내에서 더 나은 추론 능력으로 이어지지 않음을 보여줍니다. Nemotron이 이론적으로 확장된 컨텍스트 용량을 제공하지만, Qwen 3.5 4B가 올바르게 처리한 복잡한 수학적 추론과 구조화된 출력 생성을 실행하지 못했습니다.

📖 Read the full source: r/LocalLLaMA