Google PM rend public l'agent de mémoire Always On avec stockage SQLite, sans base de données vectorielle

✍️ OpenClawRadar📅 Publié: March 8, 2026🔗 Source
Google PM rend public l'agent de mémoire Always On avec stockage SQLite, sans base de données vectorielle
Ad

Ce que c'est

Shubham Saboo, directeur de produit IA senior chez Google, a rendu open source un "agent de mémoire toujours actif" sur la page GitHub officielle de Google Cloud Platform sous licence MIT. Il s'agit d'une implémentation de référence pour un système d'agent capable d'ingérer des informations en continu, de les consolider en arrière-plan et de les récupérer ultérieurement sans s'appuyer sur des bases de données vectorielles conventionnelles.

Détails techniques

L'agent fonctionne en continu et ingère des fichiers ou des entrées API, stockant des souvenirs structurés dans SQLite. Il effectue une consolidation de mémoire planifiée toutes les 30 minutes par défaut. Le système prend en charge l'ingestion de texte, d'images, d'audio, de vidéo et de PDF.

Le dépôt présente la conception avec l'affirmation : "Pas de base de données vectorielle. Pas d'embeddings. Juste un LLM qui lit, pense et écrit des souvenirs structurés." Cela déplace la question des performances de la surcharge de recherche vectorielle vers la latence du modèle, la logique de compactage de la mémoire et la stabilité comportementale à long terme.

L'agent a été construit avec le kit de développement d'agents (ADK) de Google, introduit au printemps 2025, et utilise Gemini 3.1 Flash-Lite, que Google a présenté le 3 mars 2026 comme son modèle Gemini 3 le plus rapide et le plus économique.

Modèle et performances

Gemini 3.1 Flash-Lite est tarifé à 0,25 $ par million de tokens d'entrée et 1,50 $ par million de tokens de sortie. Google affirme qu'il est 2,5 fois plus rapide que Gemini 2.5 Flash en temps jusqu'au premier token et offre une augmentation de 45 % de la vitesse de sortie tout en maintenant une qualité similaire ou meilleure.

Sur les benchmarks publiés par Google, le modèle obtient un score Elo de 1432 sur Arena.ai, 86,9 % sur GPQA Diamond et 76,8 % sur MMMU Pro. Google positionne ces caractéristiques comme adaptées aux tâches à haute fréquence comme la traduction, la modération, la génération d'interface utilisateur et la simulation.

Ad

Architecture et composants

Le dépôt semble utiliser une architecture interne multi-agents avec des composants spécialisés gérant l'ingestion, la consolidation et l'interrogation. Une API HTTP locale et un tableau de bord Streamlit sont inclus. Le projet sert d'implémentation de référence pratique pour quelque chose que de nombreuses équipes IA souhaitent mais que peu ont mis en production de manière propre.

ADK en tant que framework prend en charge les systèmes multi-agents, mais ce dépôt spécifique est mieux décrit comme un agent de mémoire toujours actif, ou couche de mémoire, construit avec des sous-agents spécialisés et un stockage persistant.

Cas d'utilisation et considérations

La sortie importe moins en tant que lancement de produit qu'en tant que signal sur la direction que prend l'infrastructure des agents. Elle empaquette une vision de l'autonomie à long terme qui est de plus en plus attrayante pour les systèmes de support, les assistants de recherche, les copilots internes et l'automatisation des flux de travail.

Le choix de conception d'éviter les bases de données vectorielles peut simplifier les prototypes et réduire la prolifération d'infrastructure, en particulier pour les agents de petite ou moyenne mémoire. Cependant, cela met les questions de gouvernance en lumière dès que la mémoire cesse d'être liée à une session.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

Krasis : un runtime hybride CPU/GPU pour les grands modèles MoE atteint 3 324 tok/s en pré-remplissage sur RTX 5080
Tools

Krasis : un runtime hybride CPU/GPU pour les grands modèles MoE atteint 3 324 tok/s en pré-remplissage sur RTX 5080

Krasis est un runtime hybride CPU/GPU conçu pour exécuter de grands modèles MoE en traitant le préremplissage sur GPU et le décodage sur CPU, atteignant 3 324 tokens/seconde en préremplissage sur un RTX 5080 avec Qwen3-Coder-Next 80B Q4. Il nécessite environ 2,5 fois la taille du modèle en RAM système mais permet d'exécuter des modèles trop volumineux pour la VRAM.

OpenClawRadar
Termrender : Visualisation d'interface ASCII 6x plus économe en tokens pour Claude
Tools

Termrender : Visualisation d'interface ASCII 6x plus économe en tokens pour Claude

Termrender est un outil Python open-source qui génère des visualisations d'interface utilisateur en ASCII avec une efficacité de 6x en tokens par rapport à la sortie brute de Claude. Il produit des diagrammes et des panneaux en utilisant un minimum de tokens pour une génération et une édition plus rapides.

OpenClawRadar
Omnara : Exécutez Claude Code et Codex depuis n'importe où
Tools

Omnara : Exécutez Claude Code et Codex depuis n'importe où

Omnara est un IDE web et mobile qui permet aux développeurs d'exécuter et d'interagir avec les sessions Claude Code et Codex depuis n'importe où, avec des fonctionnalités comme la synchronisation cloud et un agent vocal.

OpenClawRadar
Les tests de référence MemAware évaluent la mémoire de l'IA au-delà de la simple recherche par mots-clés.
Tools

Les tests de référence MemAware évaluent la mémoire de l'IA au-delà de la simple recherche par mots-clés.

MemAware est un benchmark avec 900 questions réparties sur 3 niveaux de difficulté qui teste si les assistants IA dotés de mémoire peuvent faire remonter un contexte pertinent lorsque les requêtes ne le suggèrent pas. Les résultats montrent que la recherche BM25 a obtenu 2,8 % contre 0,8 % sans mémoire, tandis que la recherche vectorielle chute à 0,7 % sur les connexions inter-domaines.

OpenClawRadar