Spec27 : Validation pilotée par spécifications pour les agents d’IA – Tests au niveau de l’API sans accès interne

Safe Intelligence a lancé Spec27, un outil de validation piloté par spécifications pour les agents IA. Contrairement aux frameworks d'évaluation LLM traditionnels qui notent le comportement général du modèle, Spec27 permet aux équipes de définir des spécifications réutilisables pour la mission spécifique qu'un agent doit accomplir. Les tests sont générés automatiquement à partir de ces spécifications et exécutés uniquement sur les interfaces principales de l'agent — sans hypothèse sur la pile interne, sans nécessiter de SDK ou de passerelles.
Fonctionnalités clés
- Tests de l'extérieur : Tous les tests s'exécutent contre l'API ou l'interface utilisateur exposée de l'agent. Pas besoin d'instrumenter les composants internes de l'agent, ce qui est crucial pour les agents construits sur des plateformes fournisseurs où vous ne contrôlez pas la pile.
- Génération de tests pilotée par spécifications : Définissez des spécifications en termes de comportement attendu (par exemple, "quand on demande X, doit faire Y et non Z"). Spec27 génère automatiquement des vérifications adverses et de robustesse, révélant les sensibilités et régressions à mesure que les modèles, invites ou outils changent.
- Accès anticipé : Actuellement le plus performant pour la validation d'agents et d'applications à tour unique. Les interactions multi-tours et une télémétrie/intégration d'appels d'outils plus riches sont sur la feuille de route.
À qui s'adresse-t-il
Les équipes déployant des agents internes, des agents fournisseurs, ou tout système IA où la fiabilité compte plus que les scores de référence. Si vous testez des agents sur des plateformes qui n'exposent pas les éléments internes, l'approche en boîte noire de Spec27 répond directement à ce besoin.
Pour commencer
Spec27 est ouvert à l'essai pour les lecteurs de HN. Le site de lancement propose un flux d'exemple pour explorer sans configuration. Inscrivez-vous sur spec27.ai/launch.
📖 Lire la source complète : HN AI Agents
👀 See Also

OpenClaw Plugin de Mémoire Partagée : Coordination Multi-Agents Basée sur SQLite
Un développeur a créé un plugin pour les configurations multi-agents OpenClaw qui permet aux agents de partager leur mémoire en utilisant SQLite, éliminant ainsi le besoin de services externes. Le plugin permet le partage explicite de mémoire via un outil, l'extraction automatique de contexte, le contrôle d'accès, le suivi des entités et la détection de contradictions.

Bibliothèque de Workflows Claude : 10 Workflows IA Complets pour les Utilisateurs Non-Techniques
Un dépôt GitHub gratuit propose 10 flux de travail IA complets pour les utilisateurs de Claude sans bagage technique, incluant des systèmes pour l'étude, la recherche, l'écriture, les affaires, la création de contenu, la prise de décision, l'apprentissage, la recherche d'emploi, la productivité et la planification de vie.

L'optimisation de l'ANE par des expériences d'IA pilotées par téléphone démontre les avantages de la fusion de noyaux
Un développeur a mené 55 expériences d'optimisation sur le moteur neuronal d'Apple, pilotant le processus depuis son téléphone en utilisant Claude pour le brainstorming. Les améliorations clés incluent la fusion de 3 noyaux ANE en 1 méga-noyau, réduisant la perte de validation de 3,75 à 2,49 et le temps d'étape de 176 ms à 96 ms.

GuppyLM : Un LLM de 9M paramètres construit à partir de zéro à des fins éducatives
GuppyLM est un modèle de langage d'environ 9 millions de paramètres entraîné à partir de zéro sur 60 000 conversations synthétiques, utilisant une architecture de transformateur classique avec 6 couches, 384 dimensions cachées et 6 têtes d'attention. Il s'entraîne en environ 5 minutes sur un GPU T4 Colab gratuit et parle avec une personnalité de poisson axée sur l'eau, la nourriture et la vie en aquarium.