Les utilisateurs de Claude Code atteignent les limites d'utilisation plus vite que prévu, des bogues sont soupçonnés.

Problèmes de quotas Claude Code perturbant les flux de travail des développeurs
Anthropic a confirmé que les utilisateurs de Claude Code atteignent les limites d'utilisation 'bien plus rapidement que prévu', causant des perturbations dans les flux de travail automatisés et le codage quotidien. L'entreprise déclare qu'il s'agit de sa 'priorité absolue' et qu'elle mène une enquête active.
Signalements des utilisateurs et plaintes spécifiques
De multiples utilisateurs de différents niveaux d'abonnement sont concernés :
- Abonnement Claude Pro (200 $ par an) : 'Il est épuisé tous les lundis et se réinitialise le samedi... sur 30 jours, je peux utiliser Claude 12 jours.'
- Forfait Max 5 (100 $/mois) : 'J'ai utilisé Max 5 en 1 heure de travail, alors qu'avant je pouvais travailler 8 heures.'
Causes potentielles et détails techniques
Plusieurs facteurs pourraient contribuer à l'augmentation de l'utilisation des jetons :
- Réductions de quota pendant les heures de pointe : Anthropic a récemment réduit les quotas pendant les heures de pointe, affectant environ 7 % des utilisateurs.
- Fin de la promotion : Le 28 mars était le dernier jour d'une promotion Claude qui doublait les limites d'utilisation en dehors d'une fenêtre de pointe de six heures.
- Bogues présumés dans la mise en cache des invites : Un utilisateur affirme avoir découvert 'deux bogues indépendants qui font échouer le cache des invites, gonflant silencieusement les coûts de 10 à 20 fois' après avoir rétro-conçu le binaire de Claude Code.
Solutions de contournement et optimisation du cache
Certains utilisateurs ont trouvé des solutions temporaires :
- Rétrogradation vers une version plus ancienne : 'Le rétrogradage vers la version 2.1.34 a fait une différence très notable.'
- Limitations du cache des invites : Le cache a une durée de vie par défaut de seulement cinq minutes, ce qui signifie que de courtes pauses entraînent des coûts plus élevés à la reprise.
- Option de cache étendu : Les développeurs peuvent augmenter la durée de vie du cache à une heure, mais 'les jetons d'écriture du cache d'une heure coûtent 2 fois le prix de base des jetons d'entrée.' Les jetons de lecture du cache coûtent 0,1 fois le prix de base.
Problèmes de transparence et contexte plus large
Anthropic ne précise pas les limites d'utilisation exactes de ses forfaits :
- Forfait Pro : 'au moins cinq fois plus d'utilisation par session que notre service gratuit'
- Forfait Équipe Standard : '1,25 fois plus d'utilisation par session que le forfait Pro'
Les utilisateurs doivent vérifier leur tableau de bord pour surveiller leur consommation de quota. Des problèmes similaires ont été signalés plus tôt ce mois-ci avec Google Antigravity.
Impact sur les flux de travail automatisés
Pour les développeurs exécutant Claude Code dans des flux de travail automatisés : 'Les erreurs de limitation de débit doivent être interceptées explicitement – elles ressemblent à des échecs génériques et déclencheront silencieusement des nouvelles tentatives. Une seule session dans une boucle peut épuiser votre budget quotidien en quelques minutes.'
📖 Read the full source: HN AI Agents
👀 See Also

Anthropic lance le programme des ambassadeurs de la communauté Claude
Anthropic a lancé le programme Claude Community Ambassadors, qui fournit des ressources pour organiser des rencontres locales de développeurs et connecter les créateurs du monde entier. Le programme est ouvert aux participants de tous horizons et de toutes localisations.

Analyse des coûts de DeepSeek V4 Flash : Taux de cache et rapport de prix expliqués
DeepSeek V4 Flash coûte 0,0066x par tâche agentique par rapport à Opus 4.7, grâce à un taux de hit de cache de 97 % et un rapport de prix lecture-écriture du cache de 0,02.

Étude de l'ETH Zurich remet en question la valeur des fichiers AGENTS.md pour les agents d'IA en programmation.
De nouvelles recherches de l'ETH Zurich révèlent que les fichiers AGENTS.md générés par LLM réduisent le taux de réussite des tâches des agents IA de 3 % et augmentent les coûts d'inférence de plus de 20 %, tandis que les fichiers rédigés par des humains n'offrent que des gains marginaux de 4 % avec des augmentations de coûts similaires.

Autoresearch pousse Qwen3.5-397B à 20,34 tok/s sur M5 Max via le streaming SSD
Un développeur a atteint une vitesse d'inférence de 20,34 tokens/seconde pour le modèle Qwen3.5-397B de 209 Go sur un MacBook Pro M5 Max avec 128 Go de RAM en utilisant le streaming SSD et 36 expériences systématiques. Ce résultat représente une accélération de 2x par rapport au point de référence du M5 Max et de 4,67x par rapport au résultat original du M3 Max.