M1 Ultra에서 1M 토큰 컨텍스트로 Nemotron 3 Super 120B 벤치마킹하기

✍️ OpenClawRadar📅 게시일: March 12, 2026🔗 Source
M1 Ultra에서 1M 토큰 컨텍스트로 Nemotron 3 Super 120B 벤치마킹하기
Ad

Nemotron 3 Super로 로컬 100만 토큰 컨텍스트 테스트

레딧 사용자가 M1 Ultra 시스템에서 Nemotron 3 Super 120B를 사용하여 100만 토큰 컨텍스트를 로컬에서 처리하는 가능성을 평가하기 위한 벤치마크 테스트를 수행했습니다. 이 테스트는 증가된 컨텍스트 길이에서 메모리 효율성을 제공하는 모델의 하이브리드 맘바-2 아키텍처를 활용했습니다.

하드웨어 및 설정 세부사항

테스트는 다음과 같은 구성으로 llama.cpp를 사용하여 M1 Ultra에서 실행되었습니다:

  • 모델: Nemotron-3-Super-120B-Q4_K.gguf (Q4_K_M 양자화)
  • 컨텍스트 할당: 전체 100만 토큰
  • VRAM 사용량: 약 90GB
  • 백엔드: MTL,BLAS, 1 스레드
  • 통합 배치 크기: 2048
  • 플래시 어텐션: 활성화됨 (fa 1)
  • GPU 레이어: 99 (-ngl 99)

벤치마크 명령어 및 결과

사용자는 다음 명령어로 llama-bench를 실행했습니다:

llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000

벤치마크의 주요 성능 결과:

  • 0 컨텍스트에서 프롬프트 처리 (pp512): 255.03 ± 0.36 토큰/초
  • 0 컨텍스트에서 토큰 생성 (tg128): 26.72 ± 0.02 토큰/초
  • 10만 토큰 컨텍스트에서 프롬프트 처리: 184.99 ± 0.19 토큰/초
  • 10만 토큰 컨텍스트에서 토큰 생성: 22.37 ± 0.01 토큰/초
  • 15만 토큰 컨텍스트에서 프롬프트 처리: 161.60 ± 0.22 토큰/초
  • 15만 토큰 컨텍스트에서 토큰 생성: 20.58 ± 0.01 토큰/초
  • 20만 토큰 컨텍스트에서 프롬프트 처리: 141.87 ± 0.19 토큰/초

결과는 컨텍스트 길이가 증가함에 따라 성능이 저하되는 것을 보여주며, 프롬프트 처리 속도가 0 컨텍스트에서 255 t/s에서 20만 토큰에서 약 142 t/s로 떨어집니다.

Ad

시스템 정보

Metal 백엔드 초기화는 다음을 보여주었습니다:

  • GPU 이름: MTL0
  • GPU 패밀리: MTLGPUFamilyApple7 (1007)
  • 통합 메모리 보유: true
  • BFloat 지원: true
  • 권장 최대 작업 세트 크기: 134,217.73 MB

이 테스트는 고급 애플 실리콘 하드웨어와 양자화된 모델을 사용하면 극도로 큰 컨텍스트(최대 100만 토큰)의 로컬 처리가 기술적으로 가능하지만, 컨텍스트가 확장됨에 따라 상당한 메모리 요구사항과 성능 절충이 있음을 보여줍니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also