Ångstrom a utilisé Claude Code pour entraîner un modèle qui a battu l'UMA-OMC de Meta — 100 000 tâches GPU sur des instances spot

Ångstrom AI (YC S24), en collaboration avec l'Université de Cambridge (groupe Csanyi) et AstraZeneca, a publié Précision DFT dans la prédiction de structures cristallines avec des potentiels interatomiques d'apprentissage automatique, introduisant CSP-MACE-Å. Le modèle remplace la DFT (théorie de la fonctionnelle de la densité) dans la prédiction de structures cristallines (CSP) avec une précision identique mais un accélération de 10 000×. Il a largement surpassé UMA-OMC de Meta, le précédent état de l'art des potentiels interatomiques ML pour les cristaux moléculaires organiques.
Pourquoi la CSP est importante
La CSP détermine tous les polymorphes cristallins possibles qu'une molécule peut former. Les polymorphes ont des propriétés physiques différentes, ce qui pose un risque pour la fabrication de médicaments — en 1998, une forme inattendue du ritonavir a coûté plus de 250 millions de dollars à Abbott. La DFT, l'étalon-or, prend des jours à semaines par molécule. CSP-MACE-Å réduit cela à quelques minutes, permettant d'évaluer bien plus de structures candidates.
Boucle d'expérimentation pilotée par agent
Les chercheurs d'Ångstrom ont utilisé Claude Code comme assistant de recherche dans la boucle itérative : hypothèse → conception de l'expérience → lancement des jobs → analyse des résultats → hypothèse suivante. Claude transformait les plans en actions concrètes en utilisant la même interface Anycloud que l'équipe utilisait manuellement. Il lançait des lots de jobs, surveillait leur état, téléchargeait les résultats et générait des graphiques/résumés.
La boucle a produit environ 100 000 jobs GPU, presque entièrement sur des instances spot multi-cloud à travers leurs propres comptes cloud. Claude gérait la répartition et la comptabilité entre les décisions de recherche tandis que les scientifiques se concentraient sur l'interprétation.
Contrôle des coûts avec Anycloud
Laurence Midgley, CTO d'Ångstrom : « Anycloud me donne la confiance nécessaire pour laisser mes agents agir sans stresser qu'ils épuisent tout notre calcul. Aujourd'hui, ils continuent de travailler toute la nuit, gérant mes expériences de recherche de manière autonome, pendant que je dors. » L'interface en ligne de commande et la configuration cloud d'Anycloud ont gardé la boucle d'expérimentation sous contrôle — critique lorsqu'un mauvais lot pourrait coûter des milliers de dollars.
Références
CSP-MACE-Å est le premier modèle à démontrer une précision de niveau DFT pour la CSP, tandis qu'UMA-OMC était en deçà de la DFT de référence. Les suites d'évaluation d'Ångstrom (les leurs + celles d'AstraZeneca) ont confirmé la supériorité.
📖 Lire la source complète : HN AI Agents
👀 See Also

Pourquoi les avocats continuent de citer des affaires issues d'hallucinations de l'IA : le point de vue d'un développeur
Plus de 1 400 affaires judiciaires citent des précédents inventés par l'IA. Les avocats continuent de faire confiance aux hallucinations malgré les sanctions. Comment le biais d'automatisation affaiblit le jugement professionnel.

Claude Code Opus 4.6 utilise désormais par défaut une fenêtre de contexte de 1 million de tokens
Le modèle Opus 4.6 de Claude Code est désormais doté par défaut d'une fenêtre de contexte d'un million de tokens, tout en conservant les mêmes tarifs que les versions précédentes. Ce changement semble être en vigueur sans annonce officielle.

Architecture IA hybride : Composants open-source avec modèles de raisonnement propriétaires
Une architecture hybride d'IA pratique émerge, où 89 % des organisations utilisent des composants open source pour réduire les coûts de plus de 50 %, tandis que les modèles propriétaires gèrent les tâches de raisonnement complexes. Les frameworks open source offrent transparence et capacités de réglage fin sans négociations de licences.

Bench du cache KV Qwen 3.6-35B-A3B : f16 vs q8_0 vs Turbo3 vs Turbo4 sur M5 Max jusqu'à 1M de contexte
Les benchmarks du fork TurboQuant Metal de TheTom sur M5 Max montrent que f16 et q8_0 manquent de mémoire au-delà de 256K, tandis que turbo3 atteint 1M à 6,5 tok/s en décodage. La séparation préremplissage/décodage favorise turbo3 pour le préremplissage et turbo4 pour le décodage sur les longs contextes.