Skill Seekers v3.2.0 ajoute l'extraction de tutoriels YouTube pour les compétences Claude.

Skill Seekers v3.2.0 ajoute des capacités d'extraction vidéo à cet outil open-source qui convertit la documentation en compétences pour Claude. Vous pouvez désormais le pointer vers un tutoriel YouTube et obtenir un fichier SKILL.md structuré que Claude peut utiliser comme contexte persistant.
Fonctionnement
La commande de base est :
skill-seekers video --url https://youtube.com/watch?v=... --enhance-level 2
Le pipeline comprend :
- Extraction de transcription via l'API YouTube → yt-dlp → Whisper en secours
- Extraction et classification d'images clés (éditeur de code, terminal, diapositives, webcam)
- OCR sur les panneaux de code avec un ensemble multi-moteurs
- Suivi de l'évolution du code entre les images (quelles lignes ont été ajoutées/modifiées/supprimées)
- Amélioration par IA en deux passes pour le nettoyage
Flux de travail d'amélioration par IA en deux passes
La passe 1 envoie le fichier de référence brut (OCR bruité + transcription) à Claude et lui demande de reconstruire la chronologie du code. Cela corrige les erreurs OCR comme l/1 et O/0, supprime les éléments d'interface indésirables qui se sont glissés (panneaux d'inspection, barres d'onglets), et utilise la narration de la transcription comme contexte pour ce que le code devrait être.
La passe 2 prend la référence nettoyée et génère le SKILL.md final — un document structuré avec des étapes de configuration, des exemples de code et des concepts extraits du tutoriel.
Vous pouvez définir des flux de travail d'amélioration personnalisés en YAML :
stages:
- name: ocr_code_cleanup
prompt: "Nettoyer les artefacts OCR des blocs de code..."
- name: tutorial_synthesis
prompt: "Synthétiser un récit pédagogique..."
Perspectives techniques issues du développement
- L'OCR sur les éditeurs de code est étonnamment difficile à cause des éléments décoratifs de l'IDE (numéros de ligne, marqueurs de réduction, barres d'onglets) qui s'infiltrent dans le texte
- La classification des images est importante — les images de webcam produisent des déchets purs lors de l'OCR ; les ignorer a réduit la sortie indésirable d'environ 40 %
- L'approche en deux passes a été un grand bond en qualité, permettant à Claude de voir à la fois le contexte OCR et de la transcription pour reconstruire le code altéré
Autres sources prises en charge
- Sites web de documentation (préréglages pour React, Vue, Django, FastAPI, Godot, Kubernetes, et plus)
- Dépôts GitHub (analyse AST, détection de motifs)
- PDF et documents Word
- Sorties pour Claude, Gemini, OpenAI, ou formats RAG (LangChain, Pinecone, ChromaDB, etc.)
Installation et configuration
Installez avec : pip install skill-seekers
Les dépendances vidéo nécessitent une configuration GPU : skill-seekers video --setup (détection automatique CUDA/ROCm/CPU)
📖 Lire la source complète : r/ClaudeAI
👀 See Also

Gemma 4 E2B Testé en tant que Coordinateur Multi-Agent dans un Framework TypeScript
Un développeur a testé Gemma 4 E2B en tant que coordinateur dans une configuration multi-agent en utilisant le framework TypeScript open-multi-agent. Le modèle a réussi à décomposer les tâches en JSON, à assigner des agents, à appeler des outils comme bash et des opérations sur fichiers, et à synthétiser les résultats.

Le plugin Open-source Claude Code capture les livres et les les convertit en Markdown structuré.
Un développeur a open-sourcé un plugin Claude Code qui capture automatiquement les pages de livres via des captures d'écran, effectue une OCR avec macOS Vision, et génère des fichiers Markdown structurés organisés par thème plutôt que par ordre des chapitres. L'outil prend en charge Kindle, Apple Books, Kindle Cloud Reader et les PDF scannés sur macOS.

Développeur d'OpenClaw Réalise des Percées en Agents IA avec l'Automatisation des Réservations Uber et de Restaurants
Un développeur d'OpenClaw a réussi à créer des agents d'IA qui effectuent de manière autonome des réservations de courses Uber et de restaurants sur des sites web réels, contournant la détection de bots et les CAPTCHA grâce à une pile technique comprenant des navigateurs furtifs, des proxies résidentiels et une résolution de CAPTCHA.

Lumyr : Génération de Tableaux de Bord via Claude avec Automatisation Python et Streamlit
Lumyr est un outil qui génère des tableaux de bord en direct et partageables à partir de descriptions en anglais simple, utilisant Claude pour la génération des tableaux de bord et automatisant la couche Python et Streamlit. Les utilisateurs n'ont pas besoin d'écrire du Python, d'ouvrir Streamlit, de déployer, de configurer l'hébergement ou de gérer l'infrastructure.