Évaluation de Nemotron 3 Super 120B avec un contexte de 1 million de tokens sur M1 Ultra

✍️ OpenClawRadar📅 Publié: March 12, 2026🔗 Source
Évaluation de Nemotron 3 Super 120B avec un contexte de 1 million de tokens sur M1 Ultra
Ad

Test local d'un contexte de 1 million de tokens avec Nemotron 3 Super

Un utilisateur de Reddit a réalisé un test de benchmark pour évaluer la faisabilité de traiter localement des contextes d'un million de tokens en utilisant Nemotron 3 Super 120B sur un système M1 Ultra. Le test a tiré parti de l'architecture hybride mamba-2 du modèle, qui offre une efficacité mémoire pour des longueurs de contexte accrues.

Détails du matériel et de la configuration

Le test a été exécuté sur un M1 Ultra en utilisant llama.cpp avec la configuration suivante :

  • Modèle : Nemotron-3-Super-120B-Q4_K.gguf (quantification Q4_K_M)
  • Allocation de contexte : 1 million de tokens complets
  • Utilisation de la VRAM : Environ 90 Go
  • Backend : MTL,BLAS avec 1 thread
  • Taille de lot unifiée : 2048
  • Attention flash : Activée (fa 1)
  • Couches GPU : 99 (-ngl 99)
Ad

Commande de benchmark et résultats

L'utilisateur a exécuté llama-bench avec cette commande :

llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000

Résultats de performance clés du benchmark :

  • Traitement de prompt (pp512) à 0 contexte : 255,03 ± 0,36 tokens/seconde
  • Génération de tokens (tg128) à 0 contexte : 26,72 ± 0,02 tokens/seconde
  • Traitement de prompt à 100 000 tokens de contexte : 184,99 ± 0,19 tokens/seconde
  • Génération de tokens à 100 000 tokens de contexte : 22,37 ± 0,01 tokens/seconde
  • Traitement de prompt à 150 000 tokens de contexte : 161,60 ± 0,22 tokens/seconde
  • Génération de tokens à 150 000 tokens de contexte : 20,58 ± 0,01 tokens/seconde
  • Traitement de prompt à 200 000 tokens de contexte : 141,87 ± 0,19 tokens/seconde

Les résultats montrent une dégradation des performances à mesure que la longueur du contexte augmente, avec la vitesse de traitement de prompt passant de 255 t/s sans contexte à environ 142 t/s à 200 000 tokens.

Informations système

L'initialisation du backend Metal a affiché :

  • Nom du GPU : MTL0
  • Famille GPU : MTLGPUFamilyApple7 (1007)
  • Mémoire unifiée : true
  • Support bfloat : true
  • Taille maximale recommandée du jeu de travail : 134 217,73 Mo

Ce test démontre que le traitement local de contextes extrêmement grands (jusqu'à 1 million de tokens) est techniquement possible avec du matériel Apple Silicon haut de gamme et des modèles quantifiés, bien qu'avec des exigences mémoire importantes et des compromis de performance à mesure que le contexte s'étend.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Assistant fiscal IA axé sur la confidentialité avec données personnelles chiffrées, développé sur MCP
Tools

Assistant fiscal IA axé sur la confidentialité avec données personnelles chiffrées, développé sur MCP

Un développeur a créé une extension de déclaration fiscale pour Crow qui chiffre toutes les informations personnelles identifiables (PII) avec AES-256-GCM et fonctionne avec tout client compatible MCP, y compris Claude, ChatGPT, Gemini ou des modèles locaux via Ollama. Le système gère localement les calculs pour la déclaration 1040, l'Annexe 1, le HSA (8889), les crédits d'éducation (8863), le travail indépendant (Annexe C/SE) et les plus-values (Annexe D).

OpenClawRadar
Claude Code Mastery : Le système de configuration open-source ajoute une mémoire persistante et des compétences organisées à l'interface CLI Claude Code.
Tools

Claude Code Mastery : Le système de configuration open-source ajoute une mémoire persistante et des compétences organisées à l'interface CLI Claude Code.

Claude Code Mastery est un système de configuration open-source qui ajoute une mémoire persistante entre les sessions, des crochets de cycle de vie intelligents et plus de 26 compétences sélectionnées à l'interface en ligne de commande Claude Code. Il inclut une Banque de Mémoire de 6 fichiers par projet, un lanceur sans configuration et une prise en charge multiplateforme.

OpenClawRadar
AgentLens : Outil d'observabilité pour les flux de travail d'IA multi-agents
Tools

AgentLens : Outil d'observabilité pour les flux de travail d'IA multi-agents

AgentLens offre un traçage unifié pour Ollama, vLLM, Anthropic et OpenAI, avec suivi des coûts, un serveur MCP pour interroger les statistiques depuis Claude Code, et une CLI pour des vérifications en ligne. Il est auto-hébergé et s'exécute localement via Docker.

OpenClawRadar
Corbeau : La plateforme MCP open-source ajoute une mémoire persistante et un partage pair-à-pair aux interfaces LLM.
Tools

Corbeau : La plateforme MCP open-source ajoute une mémoire persistante et un partage pair-à-pair aux interfaces LLM.

Crow est une plateforme de serveur MCP open-source et auto-hébergée qui fournit aux interfaces LLM une mémoire persistante basée sur SQLite, des outils de recherche structurés et un partage pair-à-pair chiffré. Il fonctionne avec tout client compatible MCP comme Claude Desktop, Cursor ou Windsurf et ne nécessite aucune dépendance cloud par défaut.

OpenClawRadar