Skill Seekers v3.2.0 fügt die Extraktion von YouTube-Tutorials für Claude-Fähigkeiten hinzu.

Skill Seekers v3.2.0 erweitert dieses Open-Source-Tool um Videoextraktionsfähigkeiten, um Dokumentation in Claude-Fähigkeiten umzuwandeln. Sie können es nun auf ein YouTube-Tutorial richten und eine strukturierte SKILL.md-Datei erhalten, die Claude als persistenten Kontext nutzen kann.
So funktioniert es
Der grundlegende Befehl lautet:
skill-seekers video --url https://youtube.com/watch?v=... --enhance-level 2
Die Pipeline umfasst:
- Transkriptextraktion mit YouTube-API → yt-dlp → Whisper-Fallback
- Keyframe-Extraktion und Klassifizierung (Code-Editor, Terminal, Folien, Webcam)
- OCR auf Code-Panels mit Multi-Engine-Ensemble
- Code-Entwicklungsverfolgung über Frames hinweg (welche Zeilen hinzugefügt/geändert/entfernt wurden)
- Zweistufige KI-Verbesserung für die Bereinigung
Zweistufiger KI-Verbesserungsprozess
Stufe 1 sendet die rohe Referenzdatei (verrauschte OCR + Transkript) an Claude und bittet es, den Code-Zeitstrahl zu rekonstruieren. Dies behebt OCR-Fehler wie l/1 und O/0, entfernt UI-Müll, der eingedrungen ist (Inspektor-Panels, Tab-Leisten), und nutzt das Transkript als Kontext dafür, wie der Code aussehen sollte.
Stufe 2 nimmt die bereinigte Referenz und generiert die finale SKILL.md – ein strukturiertes Dokument mit Einrichtungsschritten, Codebeispielen und aus dem Tutorial extrahierten Konzepten.
Sie können benutzerdefinierte Verbesserungsprozesse in YAML definieren:
stages:
- name: ocr_code_cleanup
prompt: "Bereinige OCR-Artefakte aus Codeblöcken..."
- name: tutorial_synthesis
prompt: "Synthetisiere eine Lehr-Erzählung..."
Technische Einblicke aus der Entwicklung
- OCR auf Code-Editoren ist überraschend schwierig aufgrund von IDE-Dekorationen (Zeilennummern, Ausklappmarker, Tab-Leisten), die in den Text eindringen
- Frame-Klassifizierung ist wichtig – Webcam-Frames produzieren reinen Müll bei OCR; ihr Überspringen reduzierte Müllausgabe um ~40%
- Der zweistufige Ansatz war ein großer Qualitätssprung, da Claude sowohl OCR- als auch Transkript-Kontext sieht, um beschädigten Code zu rekonstruieren
Andere unterstützte Quellen
- Dokumentations-Websites (Voreinstellungen für React, Vue, Django, FastAPI, Godot, Kubernetes und mehr)
- GitHub-Repos (AST-Analyse, Mustererkennung)
- PDFs und Word-Dokumente
- Ausgaben für Claude, Gemini, OpenAI oder RAG-Formate (LangChain, Pinecone, ChromaDB, etc.)
Installation und Einrichtung
Installieren mit: pip install skill-seekers
Video-Abhängigkeiten benötigen GPU-Einrichtung: skill-seekers video --setup (erkennt automatisch CUDA/ROCm/CPU)
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Solitaire: Open-Source Identitätsinfrastruktur für KI-Agenten
Solitaire ist eine Open-Source-Identitätsinfrastruktur für KI-Agenten, die sich darauf konzentriert, wie Agenten ihre Arbeitsbeziehung mit Nutzern im Laufe der Zeit verbessern, nicht nur auf Erinnerungsabruf. Es ist lokal-first, modellunabhängig und verfügbar über pip install solitaire-ai.

Adam: Eine einbettbare, plattformübergreifende KI-Agenten-Bibliothek in C
Adam ist eine C-Bibliothek, die einen vollständigen Agenten-Loop mit Tool-Aufrufen, Gedächtnis, Sprache und Unterstützung für Cloud- sowie lokale LLMs bietet und dafür entwickelt wurde, in jede Anwendung eingebettet zu werden.
MTP + Unified Memory steigert llama.cpp Inferenz um 30% auf RTX 5090
Die Aktivierung von MTP-Spekulation zusammen mit GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 steigert Qwen3.6-27B Q8_0 von 49 auf 64 tok/s auf einer RTX 5090 mit 128 GB Arbeitsspeicher.

Bifrost AI Gateway: Open-Source-Tool schließt Lücken in der KI-Infrastruktur
Bifrost ist ein Open-Source-LLM-Gateway auf Go-Basis, das automatisches Failover zwischen Anbietern, Budgetobergrenzen, die Anfragen ablehnen, Audit-Protokollierung und Hooks für die Evaluierung bietet. Benchmarks zeigen, dass es bei hohem Durchsatz etwa 50-mal schneller ist als LiteLLM.