LLMock : Serveur de simulation basé sur HTTP pour des tests déterministes de LLM entre processus

LLMock est un serveur de simulation qui intercepte les appels d'API LLM en s'exécutant comme un véritable serveur HTTP sur un port spécifié, permettant des tests déterministes sur plusieurs processus sans solliciter les API payantes.
Détails clés
L'outil a été découvert après qu'un développeur ait dépensé 12 $ en exécutant des tests Playwright sur les véritables API OpenAI. Le problème est survenu lors de l'utilisation de MSW (Mock Service Worker), qui modifie le module HTTP à l'intérieur du processus Node.js qui appelle server.listen(), mais laisse les processus séparés (comme un agent Python) complètement aveugles à la simulation.
Avec LLMock, vous pointez la variable d'environnement OPENAI_BASE_URL vers le serveur de simulation depuis chaque processus, qu'il s'agisse de Node.js, Python ou tout autre langage :
const mock = new LLMock({ port: 5555 });
await mock.start();
process.env.OPENAI_BASE_URL = "http://localhost:5555/v1";Les fixtures sont de simples fichiers JSON qui correspondent à des sous-chaînes de messages utilisateur ou à des motifs regex, éliminant le code passe-partout des gestionnaires :
{
"fixtures": [
{
"match": { "userMessage": "stock price of AAPL" },
"response": { "content": "The current stock price of Apple Inc. (AAPL) is $150.25." }
}
]
}Fonctionnalités clés de la source :
- Utilise correctement le format SSE réel d'OpenAI/Claude/Gemini (se tromper sur les types d'événements perturbe subtilement le streaming)
- Prise en charge complète des appels d'outils - les frameworks d'agents les exécutent normalement
- Routage par prédicat pour inspecter l'état de l'invite système ou l'historique des messages pour les flux multi-agents
- Journal des requêtes pour vérifier ce qui a réellement été appelé, pas seulement si le test a réussi
- Zéro dépendance
Le développeur a fini avec 9 appels LLM sur 3 tests Playwright, coûtant 0 $ et produisant des résultats déterministes à chaque exécution.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Utilisateur d'OpenClaw critique l'architecture de l'outil et ses lacunes en matière de sécurité.
Un utilisateur de Reddit décrit OpenClaw comme le seul outil qui rend ce type d'automatisation d'agent aussi accessible, mais critique son architecture pour son manque de couche de contrôle pour les opérations sur fichiers, d'un noyau protégé, d'une gestion de contexte appropriée, et de fonctionnalités intégrées de versioning ou de tests.

9 Blocs de Construction pour Exécuter Claude Code comme un OS Persistant à Travers 18 Entreprises
Un développeur exécute 18 instances de Claude Code comme un OS partagé avec synchronisation sélective, état déplacé vers des serveurs MCP, vérification basée sur des reçus, et règles de chargement automatique. Détaille l'architecture.

OmniCoder-9B affiné démontre de solides performances pour le codage agentique sur des systèmes dotés de 8 Go de VRAM.
Un utilisateur de Reddit a testé OmniCoder-9B, une version affinée de Qwen3.5-9B sur des traces Opus, avec OpenCode et a rapporté des vitesses de plus de 40 tokens par seconde en utilisant la quantification GGUF Q4_K_M avec une longueur de contexte de 100k sur un système avec 8 Go de VRAM.

Un sorcier gratuit migre l'historique de ChatGPT vers les projets Claude — Leçons clés sur les limites de jetons et la RAG
Un outil gratuit, sans code, importe les exports ChatGPT dans les Projets Claude, révélant qu'un JSON de 26 Mo atteint les limites de tokens et que la division par sujet est la solution. Le RAG de Claude ne lit que des parties des fichiers volumineux, donc les requêtes spécifiques fonctionnent mieux.