Modèle de langage Transformer fonctionnant localement sur une Game Boy Color standard
Un développeur a réussi à faire fonctionner un véritable modèle de langage transformer sur une Game Boy Color (GBC) de série — sans téléphone, PC, Wi-Fi ni inférence dans le cloud. L'ensemble du pipeline d'inférence s'exécute localement sur le matériel portable.
Détails clés
- Modèle : TinyStories-260K d'Andrej Karpathy, converti en poids INT8 avec des mathématiques en virgule fixe — aucun support de la virgule flottante requis.
- Matériel : Game Boy Color de série + cartouche flash EZ Flash Junior + carte microSD.
- Chaîne d'outils de compilation : GBDK-2020, produisant une ROM Game Boy au format MBC5.
- Architecture mémoire : Les poids du modèle résident dans la ROM de la cartouche à commutation de banques. Le cache KV est stocké dans la SRAM de la cartouche car la RAM de travail de la GBC est minuscule.
- Saisie de l'invite : Sur l'appareil à l'aide du D-pad/boutons et d'un clavier à l'écran.
- Pipeline d'inférence : Tokenisation de l'invite sur la GBC, puis préremplissage du transformer et génération autorégressive avec mise en cache KV.
- Performances : Extrêmement lent ; la sortie est incohérente en raison d'une quantification lourde et d'approximations mathématiques, mais la boucle transformer centrale fonctionne.
- Code source : Disponible sur GitHub à l'adresse github.com/maddiedreese/gbc-transformer. Une grande partie du code a été construite à l'aide de Codex AI.
Ce projet démontre que même un matériel sévèrement contraint en ressources peut exécuter une inférence transformer avec des astuces agressives de quantification et de gestion mémoire. C'est une preuve de concept, pas un LLM pratique, mais c'est une curiosité technique qui mérite d'être examinée.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Claude Code 2.1.80 ajoute la visibilité des limites de débit, la messagerie push MCP et des améliorations de la mémoire.
La version 2.1.80 de Claude Code introduit la visibilité des limites de débit dans la barre d'état, la messagerie push MCP via le drapeau --channels, la configuration en ligne des plugins, et réduit l'utilisation de la mémoire de 80 Mo au démarrage.

Anthropic restreint les abonnements à Claude via des plateformes tierces comme OpenClaw.
Anthropic met fin à la couverture des abonnements Claude pour les interfaces tierces, y compris OpenClaw, à partir du 4 avril. Les utilisateurs devront activer une facturation à l'usage supplémentaire facturée séparément, avec un crédit unique équivalent au prix de l'abonnement mensuel disponible jusqu'au 17 avril.

Programme ACCESS de Medicare : Modèle de paiement conçu pour les agents IA, détails à l'intérieur
Le programme ACCESS de CMS finance les soins chroniques pilotés par l'IA, pas seulement le temps passé avec les cliniciens. Flora, l'agent vocal IA de Pair Team, a réduit les visites aux urgences de 50 %. La cohorte démarre le 5 juillet.

Les agents d'IA préfèrent les requêtes structurées au langage naturel lors des tests du serveur MCP Cala.
L'équipe de Cala a construit un serveur MCP avec trois méthodes d'accès au graphe de connaissances : requêtes en langage naturel, langage de requête structuré et parcours direct des entités/relations. Les agents ont abandonné le langage naturel en quelques minutes, choisissant les requêtes structurées et le parcours de graphe sans incitation.