LamBench : Une suite de benchmarks en calcul lambda pour les agents de codage IA

Victor Taelin a publié LamBench v1, un framework de benchmark conçu pour tester les agents de codage IA sur des problèmes de calcul lambda. Le projet est hébergé sur GitHub à l'adresse github.com/VictorTaelin/LamBench et comprend un site en direct à victortaelin.github.io/lambench/.
Détails clés
- Métriques : Le benchmark mesure trois axes :
:intelligence,:speedet:elegance. - Composants : Un ensemble de
:problemset une:matrixpour noter les résultats. - Version : v1 (première version).
LamBench fait partie d'un effort plus large de Taelin pour créer des évaluations rigoureuses pour les systèmes d'IA en calcul symbolique. Pour contexte, le calcul lambda est un système formel en logique mathématique et en informatique, souvent utilisé pour tester les capacités de raisonnement et de programmation fonctionnelle — ce qui rend ce benchmark particulièrement pertinent pour les agents de codage IA qui doivent manipuler des symboles, gérer la récursion et les fonctions d'ordre supérieur.
À qui cela s'adresse
Chercheurs et développeurs en IA créant ou évaluant des agents de codage, en particulier ceux travaillant avec la programmation fonctionnelle ou les tâches de raisonnement symbolique.
📖 Read the full source: HN AI Agents
👀 See Also

Encre : Une plateforme de déploiement où les agents IA Claude sont les utilisateurs principaux
Ink (ml.ink) est une plateforme de déploiement conçue pour les agents d'IA comme Claude, offrant un déploiement par simple appel d'outil, une détection automatique des frameworks, et des services intégrés incluant le calcul, les bases de données, le DNS, les secrets, les domaines, les métriques et les journaux.

OnUI : Extension de navigateur pour un retour d'interface utilisateur précis à Claude Code
OnUI est une extension de navigateur qui vous permet d'annoter des éléments de page web et d'exporter des rapports structurés pour Claude Code via MCP local, éliminant les descriptions d'interface utilisateur ambiguës. Développée principalement avec Claude Code, elle est gratuite, open-source et disponible pour Chrome, Edge et Firefox.

Compétence OpenClaw Réduit le Transfert d'Agent en Permettant l'Exécution Automatique
Une nouvelle compétence pour les agents OpenClaw aborde le problème courant où les agents identifient l'étape suivante mais s'arrêtent à 'voici ce qu'il faut faire ensuite', nécessitant un transfert à un humain. La compétence permet aux agents d'effectuer certaines actions eux-mêmes, comme s'inscrire, publier, répondre et signer.

Les crochets de code Claude empêchent les interférences entre les onglets Chrome lors de sessions multiples.
Un développeur a créé trois hooks (session-start, capture-tab-id, enforce-tab-id) qui épinglent chaque session Claude Code à son propre onglet Chrome, empêchant les sessions d'accéder accidentellement aux onglets d'autres sessions lors des exécutions de tests et des remplissages de formulaires.