M1 Ultra에서 1M 토큰 컨텍스트로 Nemotron 3 Super 120B 벤치마킹하기

Nemotron 3 Super로 로컬 100만 토큰 컨텍스트 테스트
레딧 사용자가 M1 Ultra 시스템에서 Nemotron 3 Super 120B를 사용하여 100만 토큰 컨텍스트를 로컬에서 처리하는 가능성을 평가하기 위한 벤치마크 테스트를 수행했습니다. 이 테스트는 증가된 컨텍스트 길이에서 메모리 효율성을 제공하는 모델의 하이브리드 맘바-2 아키텍처를 활용했습니다.
하드웨어 및 설정 세부사항
테스트는 다음과 같은 구성으로 llama.cpp를 사용하여 M1 Ultra에서 실행되었습니다:
- 모델: Nemotron-3-Super-120B-Q4_K.gguf (Q4_K_M 양자화)
- 컨텍스트 할당: 전체 100만 토큰
- VRAM 사용량: 약 90GB
- 백엔드: MTL,BLAS, 1 스레드
- 통합 배치 크기: 2048
- 플래시 어텐션: 활성화됨 (fa 1)
- GPU 레이어: 99 (-ngl 99)
벤치마크 명령어 및 결과
사용자는 다음 명령어로 llama-bench를 실행했습니다:
llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000벤치마크의 주요 성능 결과:
- 0 컨텍스트에서 프롬프트 처리 (pp512): 255.03 ± 0.36 토큰/초
- 0 컨텍스트에서 토큰 생성 (tg128): 26.72 ± 0.02 토큰/초
- 10만 토큰 컨텍스트에서 프롬프트 처리: 184.99 ± 0.19 토큰/초
- 10만 토큰 컨텍스트에서 토큰 생성: 22.37 ± 0.01 토큰/초
- 15만 토큰 컨텍스트에서 프롬프트 처리: 161.60 ± 0.22 토큰/초
- 15만 토큰 컨텍스트에서 토큰 생성: 20.58 ± 0.01 토큰/초
- 20만 토큰 컨텍스트에서 프롬프트 처리: 141.87 ± 0.19 토큰/초
결과는 컨텍스트 길이가 증가함에 따라 성능이 저하되는 것을 보여주며, 프롬프트 처리 속도가 0 컨텍스트에서 255 t/s에서 20만 토큰에서 약 142 t/s로 떨어집니다.
시스템 정보
Metal 백엔드 초기화는 다음을 보여주었습니다:
- GPU 이름: MTL0
- GPU 패밀리: MTLGPUFamilyApple7 (1007)
- 통합 메모리 보유: true
- BFloat 지원: true
- 권장 최대 작업 세트 크기: 134,217.73 MB
이 테스트는 고급 애플 실리콘 하드웨어와 양자화된 모델을 사용하면 극도로 큰 컨텍스트(최대 100만 토큰)의 로컬 처리가 기술적으로 가능하지만, 컨텍스트가 확장됨에 따라 상당한 메모리 요구사항과 성능 절충이 있음을 보여줍니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

vllm-mlx 포크는 로컬 AI 코딩 에이전트를 위한 도구 호출 및 프롬프트 캐시 기능을 추가합니다.
한 개발자가 vllm-mlx를 수정하여 도구 호출 문제를 해결하고 프롬프트 캐싱을 추가해 Apple Silicon에서 OpenClaw의 TTFT를 28초에서 0.3초로 줄였습니다. 이 포크는 M3 Ultra에서 Qwen3-Coder-Next를 65 tok/s 속도로 작동하며 기능 호출도 지원합니다.

4개 창 iTerm2 설정으로 Claude 코드 CLI의 AI 역할 분리
한 개발자가 컨텍스트 드리프트와 자기 평가 편향을 해결하기 위해 Claude Code CLI를 위한 4개 창 iTerm2 터미널 설정을 구축했습니다. 각 창은 전용 모델과 권한으로 특정 역할에 고정되어 있습니다.

실시간 데스크톱 오버레이로 Claude 코드 사용 제한 모니터링
오픈소스 데스크톱 오버레이가 Claude Code 사용량 제한을 실시간으로 표시하여 '/usage'를 반복해서 입력할 필요를 없앱니다.
Tendril: 즉석에서 도구를 구축하고 등록하는 자체 확장 에이전트
Tendril은 자율적으로 도구를 발견, 구축 및 등록하는 에이전틱 샌드박스입니다. 단 세 개의 부트스트랩 도구로 시작하여 사용자에게 묻지 않고 동적으로 기능 레지스트리를 확장합니다.