Agent mémoire Always On Google PM : stockage SQLite

Ce que c'est

Shubham Saboo, directeur de produit IA senior chez Google, a rendu open source un "agent de mémoire toujours actif" sur la page GitHub officielle de Google Cloud Platform sous licence MIT. Il s'agit d'une implémentation de référence pour un système d'agent capable d'ingérer des informations en continu, de les consolider en arrière-plan et de les récupérer ultérieurement sans s'appuyer sur des bases de données vectorielles conventionnelles.

Détails techniques

L'agent fonctionne en continu et ingère des fichiers ou des entrées API, stockant des souvenirs structurés dans SQLite. Il effectue une consolidation de mémoire planifiée toutes les 30 minutes par défaut. Le système prend en charge l'ingestion de texte, d'images, d'audio, de vidéo et de PDF.

Le dépôt présente la conception avec l'affirmation : "Pas de base de données vectorielle. Pas d'embeddings. Juste un LLM qui lit, pense et écrit des souvenirs structurés." Cela déplace la question des performances de la surcharge de recherche vectorielle vers la latence du modèle, la logique de compactage de la mémoire et la stabilité comportementale à long terme.

L'agent a été construit avec le kit de développement d'agents (ADK) de Google, introduit au printemps 2025, et utilise Gemini 3.1 Flash-Lite, que Google a présenté le 3 mars 2026 comme son modèle Gemini 3 le plus rapide et le plus économique.

Modèle et performances

Gemini 3.1 Flash-Lite est tarifé à 0,25 $ par million de tokens d'entrée et 1,50 $ par million de tokens de sortie. Google affirme qu'il est 2,5 fois plus rapide que Gemini 2.5 Flash en temps jusqu'au premier token et offre une augmentation de 45 % de la vitesse de sortie tout en maintenant une qualité similaire ou meilleure.

Sur les benchmarks publiés par Google, le modèle obtient un score Elo de 1432 sur Arena.ai, 86,9 % sur GPQA Diamond et 76,8 % sur MMMU Pro. Google positionne ces caractéristiques comme adaptées aux tâches à haute fréquence comme la traduction, la modération, la génération d'interface utilisateur et la simulation.

Architecture et composants

Le dépôt semble utiliser une architecture interne multi-agents avec des composants spécialisés gérant l'ingestion, la consolidation et l'interrogation. Une API HTTP locale et un tableau de bord Streamlit sont inclus. Le projet sert d'implémentation de référence pratique pour quelque chose que de nombreuses équipes IA souhaitent mais que peu ont mis en production de manière propre.

ADK en tant que framework prend en charge les systèmes multi-agents, mais ce dépôt spécifique est mieux décrit comme un agent de mémoire toujours actif, ou couche de mémoire, construit avec des sous-agents spécialisés et un stockage persistant.

Cas d'utilisation et considérations

La sortie importe moins en tant que lancement de produit qu'en tant que signal sur la direction que prend l'infrastructure des agents. Elle empaquette une vision de l'autonomie à long terme qui est de plus en plus attrayante pour les systèmes de support, les assistants de recherche, les copilots internes et l'automatisation des flux de travail.

Le choix de conception d'éviter les bases de données vectorielles peut simplifier les prototypes et réduire la prolifération d'infrastructure, en particulier pour les agents de petite ou moyenne mémoire. Cependant, cela met les questions de gouvernance en lumière dès que la mémoire cesse d'être liée à une session.

📖 Lire la source complète : HN AI Agents

Google PM rend public l'agent de mémoire Always On avec stockage SQLite, sans base de données vectorielle

Ce que c'est

Détails techniques

Modèle et performances

Architecture et composants

Cas d'utilisation et considérations

👀 See Also

Interface utilisateur et serveur pour les autoencodeurs en langage naturel d'Anthropic sur llama.cpp

GitAgent : Une norme ouverte pour les agents d'IA portables dans les dépôts Git

Compétence Open Source pour Agents de Codage IA Parallèles avec Supervision Humaine

Mémoire persistante pour Claude : Stack local avec MCP, récupération en 39 ms, réduction de tokens de 82 %