Plateforme IA de Cloudflare : Couche d'Inférence Unifiée pour les Agents IA

Ce que propose la plateforme IA de Cloudflare
Cloudflare a étendu ses capacités d'IA en une couche d'inférence unifiée conçue spécifiquement pour les agents d'IA. La plateforme répond au défi de l'évolution rapide des modèles d'IA et à la nécessité d'utiliser plusieurs modèles pour différentes tâches dans les flux de travail agentiques.
Fonctionnalités clés et mise en œuvre
L'offre principale est une API unique pour accéder à n'importe quel modèle d'IA de n'importe quel fournisseur. Pour les utilisateurs de Workers, vous pouvez appeler des modèles tiers en utilisant la même liaison AI.run() déjà utilisée pour Workers AI. Changer de fournisseur ne nécessite qu'une seule modification de code.
const response = await env.AI.run('@cf/moonshotai/kimi-k2.5', {
prompt: 'Qu'est-ce qu'AI Gateway ?'
}, {
metadata: {
"teamId": "AI",
"userId": 12345
}
});La plateforme donne accès à plus de 70 modèles provenant de plus de 12 fournisseurs, dont Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway et Vidu. Les offres de modèles incluent désormais des modèles d'image, vidéo et parole pour créer des applications multimodales.
Gestion des coûts et prise en charge BYOM
Toutes les dépenses d'IA peuvent être gérées en un seul endroit via AI Gateway. En incluant des métadonnées personnalisées avec les requêtes, vous pouvez obtenir des ventilations de coûts par attributs comme utilisateurs gratuits vs payants, clients individuels ou flux de travail spécifiques.
Pour les besoins en modèles personnalisés, Cloudflare travaille à permettre aux utilisateurs d'apporter leurs propres modèles à Workers AI en utilisant la technologie Cog de Replicate. Cela implique de conteneuriser des modèles d'apprentissage automatique avec un fichier cog.yaml et du code d'inférence Python, en masquant les dépendances CUDA, les versions Python et le chargement des poids.
Mises à jour récentes et disponibilité
Les ajouts récents incluent des passerelles par défaut sans configuration, des nouvelles tentatives automatiques en cas d'échec en amont et des contrôles de journalisation plus granulaires. La prise en charge de l'API REST pour les utilisateurs non-Workers arrivera dans les prochaines semaines.
📖 Read the full source: HN AI Agents
👀 See Also

md-viewer : Un visualiseur Markdown avec rechargement en direct pour les flux de travail de code Claude
md-viewer est un outil Rust léger qui offre une visualisation en temps réel des fichiers Markdown générés par Claude Code. Il fonctionne indépendamment des éditeurs, prend en charge les diagrammes Mermaid et s'installe via AUR, Snap ou Cargo.

Code-Graph-MCP : Le serveur MCP open source réduit l'utilisation de tokens de code par Claude de 40 à 60 %
code-graph-mcp est un serveur MCP qui indexe les bases de code dans un graphe de connaissances AST, remplaçant de multiples appels grep/read par des requêtes structurées uniques. Le développeur rapporte des économies de 40 à 60 % sur les tokens de session totale et 80 % d'appels d'outils en moins par tâche de navigation.

L'Approche de Cursor pour une Recherche Rapide d'Expressions Régulières pour les Agents IA
Cursor développe une recherche d'expressions régulières indexée pour résoudre les problèmes de performance dans les monorepos de grande taille où ripgrep peut prendre plus de 15 secondes, en utilisant des index inversés avec des n-grammes basés sur des recherches de 1993 par Zobel, Moffat et Sacks-Davis.

Présentation de Lean Collab : Un Orchestrateur Multi-Agents pour les Tâches LLM de Longue Durée
Lean Collab est un orchestrateur open-source conçu pour gérer des tâches LLM de longue durée en utilisant des sous-agents coordonnés et parallèles.