Nemotron 3 Super 120B : Test 1M tokens sur M1 Ultra

Test local d'un contexte de 1 million de tokens avec Nemotron 3 Super

Un utilisateur de Reddit a réalisé un test de benchmark pour évaluer la faisabilité de traiter localement des contextes d'un million de tokens en utilisant Nemotron 3 Super 120B sur un système M1 Ultra. Le test a tiré parti de l'architecture hybride mamba-2 du modèle, qui offre une efficacité mémoire pour des longueurs de contexte accrues.

Détails du matériel et de la configuration

Le test a été exécuté sur un M1 Ultra en utilisant llama.cpp avec la configuration suivante :

Modèle : Nemotron-3-Super-120B-Q4_K.gguf (quantification Q4_K_M)
Allocation de contexte : 1 million de tokens complets
Utilisation de la VRAM : Environ 90 Go
Backend : MTL,BLAS avec 1 thread
Taille de lot unifiée : 2048
Attention flash : Activée (fa 1)
Couches GPU : 99 (-ngl 99)

Commande de benchmark et résultats

L'utilisateur a exécuté llama-bench avec cette commande :

llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000

Résultats de performance clés du benchmark :

Traitement de prompt (pp512) à 0 contexte : 255,03 ± 0,36 tokens/seconde
Génération de tokens (tg128) à 0 contexte : 26,72 ± 0,02 tokens/seconde
Traitement de prompt à 100 000 tokens de contexte : 184,99 ± 0,19 tokens/seconde
Génération de tokens à 100 000 tokens de contexte : 22,37 ± 0,01 tokens/seconde
Traitement de prompt à 150 000 tokens de contexte : 161,60 ± 0,22 tokens/seconde
Génération de tokens à 150 000 tokens de contexte : 20,58 ± 0,01 tokens/seconde
Traitement de prompt à 200 000 tokens de contexte : 141,87 ± 0,19 tokens/seconde

Les résultats montrent une dégradation des performances à mesure que la longueur du contexte augmente, avec la vitesse de traitement de prompt passant de 255 t/s sans contexte à environ 142 t/s à 200 000 tokens.

Informations système

L'initialisation du backend Metal a affiché :

Nom du GPU : MTL0
Famille GPU : MTLGPUFamilyApple7 (1007)
Mémoire unifiée : true
Support bfloat : true
Taille maximale recommandée du jeu de travail : 134 217,73 Mo

Ce test démontre que le traitement local de contextes extrêmement grands (jusqu'à 1 million de tokens) est techniquement possible avec du matériel Apple Silicon haut de gamme et des modèles quantifiés, bien qu'avec des exigences mémoire importantes et des compromis de performance à mesure que le contexte s'étend.

📖 Read the full source: r/LocalLLaMA

Évaluation de Nemotron 3 Super 120B avec un contexte de 1 million de tokens sur M1 Ultra

Test local d'un contexte de 1 million de tokens avec Nemotron 3 Super

Détails du matériel et de la configuration

Commande de benchmark et résultats

Informations système

👀 See Also

Smriti : Un système similaire à Git pour gérer l'état de raisonnement des LLM afin d'éviter la dérive des conversations

Plugin Design Studio pour Claude Code Ajoute une Équipe de Conception Virtuelle avec 9 Rôles et 16 Commandes

Côtes : Hôtes conteneurisés pour exécuter plusieurs environnements localhost

Avant de coder : Un plugin Claude Code qui oblige à réfléchir avant de programmer