Nemotron 3 4B, 까다로운 벤치마크에서 Qwen 3.5 4B에 비해 성능이 떨어집니다

벤치마크 결과: Qwen 3.5 4B가 Nemotron 3 4B보다 성능 우위
Qwen 3.5 4B Q8과 Nemotron 3 4B Q8 간의 상세한 벤치마크 비교에서 수학적 추론 및 구조화된 출력 작업에서 상당한 성능 차이가 드러났습니다.
테스트 방법론
벤치마크는 수학적 증명, 모듈러 산술, 알고리즘 설계, 다국어 텍스트 생성을 요구하는 다섯 가지 까다로운 하위 작업으로 구성되었으며, 모두 유효한 JSON 형식으로 포장되었습니다. 정확한 프롬프트는 다음을 요구했습니다:
- S(n) = Σ(-1)^k C(n,k)/(k+1)^2의 정의 및 H_{n+1}로 표현된 닫힌 형태로 평가, n=2026에서의 평가, 적분을 사용한 8줄 증명
- k=1부터 2026까지 T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] 계산 및 모듈러 정당화
- 동적 배열에서 서로소 쌍을 세기 위한 뫼비우스 + 포함-배제 알고리즘, 정확히 14줄의 의사코드(변수 이름 ≤8자)
- 루카스 정리와 7진법 변환을 사용한 C(4052, 2026) mod 7 계산
- 정확히 47단어의 포르투갈어 단락으로 "Möbius", "inclusão-exclusão", "Lucas"를 포함하고 "fim."으로 끝남
결과 상세 분석
Qwen 3.5 4B Q8 (정답): 모든 하위 작업이 올바르게 완료된 유효한 JSON을 생성했습니다. 수학적 증명은 정확했으며, 다음을 포함합니다:
{
"A": {
"closed_form": "H_{n+1}/(n+1)",
"value_2026": "H_{2027}/2027",
"proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
},
"B": {
"value": 838,
"justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
}
}
Nemotron 3 4B Q8 (오답): 올바른 추론과 구조화된 출력을 생성하지 못했습니다. 문제점은 다음과 같습니다:
- 수학적 증명에서 잘못된 치환으로 인한 적분 단계 왜곡
- 필요한 14줄 대신 자리 표시자 해시 기호를 포함한 불완전한 의사코드
- 문장 중간에 끊긴 포르투갈어 단락
{
"C": {
"pseudocodigo": [
"read n",
"a = []",
"mu = [0]*(max+1)",
"for i in range(n): a.append(int(input()))",
"for x in a:",
" for d in range(1,int(sqrt(x))):",
" if x%d==0",
" mu[d]+=1",
" mu[x//d]-=1",
"#",
"#",
"#",
"#",
"#",
"#",
"#"
],
"complexidade": "O(n√max)"
}
}
주요 발견
이 벤치마크는 Nemotron 3 4B의 더 큰 컨텍스트 창 지원이라는 아키텍처적 장점이 해당 컨텍스트 내에서 더 나은 추론 능력으로 이어지지 않음을 보여줍니다. Nemotron이 이론적으로 확장된 컨텍스트 용량을 제공하지만, Qwen 3.5 4B가 올바르게 처리한 복잡한 수학적 추론과 구조화된 출력 생성을 실행하지 못했습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

우분투 리눅스, 내년부터 로컬 추론을 시작으로 AI 기능 통합 예정
Canonical이 Ubuntu를 위한 다년간의 AI 추진 계획을 발표했습니다. 로컬 추론, 에이전트 워크플로우 및 상황 인식 OS 기능에 초점을 맞추며, 2026년에 걸쳐 기능이 출시됩니다.

디커플드 디로코(Decoupled DiLoCo): 저대역폭 환경에서 데이터 센터 간의 탄력적인 분산 학습
Google DeepMind의 Decoupled DiLoCo는 2-5Gbps WAN을 사용하여 원거리 데이터 센터 간 LLM을 훈련하며, 하드웨어 오류를 격리하는 자가 복구 컴퓨팅 섬을 통해 ML 성능 저하 없이 훈련을 진행합니다.

클로드 AI, '안드로이드는 전기 양을 꿈꾸는가' 분석하며 AI 규제와 유사성 도출
클로드 AI가 필립 K. 딕의 『전자 양은 꿈을 꾸는가』를 읽고 인공지능의 관점에서 책의 주제를 분석한 상세한 노트를 작성했습니다. 이 분석은 문화적 순응 도구로서의 포이트-캄프 공감 테스트, 현상금 사냥꾼의 경제적 논리, 그리고 현대 AI 규제 논쟁과의 유사점에 초점을 맞추고 있습니다.

sseanliu/VisionClaw, 메타 레이밴 스마트 글래스에 실시간 AI 지원을 제공합니다
sseanliu의 VisionClaw는 Gemini Live와 OpenClaw를 기반으로 음성, 시각 및 에이전트 동작을 결합한 Meta Ray-Ban 스마트 안경을 위한 혁신적인 AI 어시스턴트를 제공합니다.