M1 Ultra에서 120B 모델 1M 토큰 컨텍스트 벤치마크: 속도 결과

Nemotron 3 Super로 로컬 100만 토큰 컨텍스트 테스트

레딧 사용자가 M1 Ultra 시스템에서 Nemotron 3 Super 120B를 사용하여 100만 토큰 컨텍스트를 로컬에서 처리하는 가능성을 평가하기 위한 벤치마크 테스트를 수행했습니다. 이 테스트는 증가된 컨텍스트 길이에서 메모리 효율성을 제공하는 모델의 하이브리드 맘바-2 아키텍처를 활용했습니다.

하드웨어 및 설정 세부사항

테스트는 다음과 같은 구성으로 llama.cpp를 사용하여 M1 Ultra에서 실행되었습니다:

모델: Nemotron-3-Super-120B-Q4_K.gguf (Q4_K_M 양자화)
컨텍스트 할당: 전체 100만 토큰
VRAM 사용량: 약 90GB
백엔드: MTL,BLAS, 1 스레드
통합 배치 크기: 2048
플래시 어텐션: 활성화됨 (fa 1)
GPU 레이어: 99 (-ngl 99)

벤치마크 명령어 및 결과

사용자는 다음 명령어로 llama-bench를 실행했습니다:

llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000

벤치마크의 주요 성능 결과:

0 컨텍스트에서 프롬프트 처리 (pp512): 255.03 ± 0.36 토큰/초
0 컨텍스트에서 토큰 생성 (tg128): 26.72 ± 0.02 토큰/초
10만 토큰 컨텍스트에서 프롬프트 처리: 184.99 ± 0.19 토큰/초
10만 토큰 컨텍스트에서 토큰 생성: 22.37 ± 0.01 토큰/초
15만 토큰 컨텍스트에서 프롬프트 처리: 161.60 ± 0.22 토큰/초
15만 토큰 컨텍스트에서 토큰 생성: 20.58 ± 0.01 토큰/초
20만 토큰 컨텍스트에서 프롬프트 처리: 141.87 ± 0.19 토큰/초

결과는 컨텍스트 길이가 증가함에 따라 성능이 저하되는 것을 보여주며, 프롬프트 처리 속도가 0 컨텍스트에서 255 t/s에서 20만 토큰에서 약 142 t/s로 떨어집니다.

시스템 정보

Metal 백엔드 초기화는 다음을 보여주었습니다:

GPU 이름: MTL0
GPU 패밀리: MTLGPUFamilyApple7 (1007)
통합 메모리 보유: true
BFloat 지원: true
권장 최대 작업 세트 크기: 134,217.73 MB

이 테스트는 고급 애플 실리콘 하드웨어와 양자화된 모델을 사용하면 극도로 큰 컨텍스트(최대 100만 토큰)의 로컬 처리가 기술적으로 가능하지만, 컨텍스트가 확장됨에 따라 상당한 메모리 요구사항과 성능 절충이 있음을 보여줍니다.

📖 Read the full source: r/LocalLLaMA

M1 Ultra에서 1M 토큰 컨텍스트로 Nemotron 3 Super 120B 벤치마킹하기

Nemotron 3 Super로 로컬 100만 토큰 컨텍스트 테스트

하드웨어 및 설정 세부사항

벤치마크 명령어 및 결과

시스템 정보

👀 See Also

클로드 코드를 위한 학술 연구 기술: 논문 작성을 위한 인간 참여 파이프라인

클로드 창작 작업용: 블렌더, 어도비, 에이블톤 등을 위한 MCP 커넥터

미니파이된 Electron 앱에서 Claude Desktop 릴리스 노트 자동화하기

OpenClaw를 Qwen2.5 Coder에 연결하기: 타당성과 고려사항