Pair Programmer Plugin fügt Live-Bildschirm, Sprache und Audio-Kontext zu Claude Code hinzu

✍️ OpenClawRadar📅 Veröffentlicht: 16. April 2026🔗 Source
Pair Programmer Plugin fügt Live-Bildschirm, Sprache und Audio-Kontext zu Claude Code hinzu
Ad

Ein Entwickler hat Pair Programmer veröffentlicht, ein Plugin, das Claude Codes fehlenden Echtzeit-Kontext durch Live-Desktop-Wahrnehmung behebt. Das Tool erfasst drei Datenströme: Bildschirminhalt (mit visueller Indizierung, die kurze Szenenbeschreibungen generiert), Mikrofoneingabe (Transkription plus leichte Absichtsklassifizierung für Fragen, Erklärungen oder Befehle) und System-Audio (Indizierung von Meetings, Tutorials oder anderem Audio auf dem Rechner).

Architektur und Implementierung

Das System verwendet eine Multi-Agenten-Pipeline statt eines Einzelmodell-Ansatzes. Es lässt spezialisierte Agenten parallel laufen:

  • Bildschirmleser für visuellen Kontext
  • Sprachprozessor für Mikrofontranskription und Absichtsklassifizierung
  • Audio-Klassifizierer für System-Audio
  • Orchestrator, der alle Eingaben korreliert und eine einzelne Antwort synthetisiert

Das Plugin basiert auf VideoDB-Infrastruktur. Während die Indizierung derzeit Cloud-Modelle nutzt, ist das Design modellunabhängig – die Index-Schicht kann jedes VLM oder LLM einbinden. Der Entwickler erwähnt Interesse daran, lokale Modelle für visuelle Beschreibungs- und Transkriptionsschichten zu integrieren.

Ad

Aktueller Status und Installation

Das Plugin ist derzeit nur für macOS verfügbar. Die Installation erfordert drei Befehle. Das GitHub-Repository ist verfügbar unter https://github.com/video-db/claude-code/tree/main.

Der Entwickler sucht Feedback zu Architekturansätzen, insbesondere ob Entwickler die Multi-Agenten-Pipeline mit spezialisierten Modellen und Orchestrierung bevorzugen oder auf eine Einzelmodell-End-to-End-Lösung für Desktop-Wahrnehmungssysteme hinarbeiten möchten.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

Benchmark-Ergebnisse für kleine lokale und OpenRouter-Modelle bei agentischer Text-to-SQL-Aufgabe
Werkzeuge

Benchmark-Ergebnisse für kleine lokale und OpenRouter-Modelle bei agentischer Text-to-SQL-Aufgabe

Ein Entwickler testete mehrere kleine lokale und OpenRouter-Modelle mithilfe eines benutzerdefinierten agentenbasierten Text-zu-SQL-Benchmarks, der englische Abfragen in SQL mit Debugging-Runden umwandelt. Der Benchmark umfasst 25 Fragen, läuft in unter 5 Minuten und zeigt Top-Performer wie kimi-k2.5 und Qwen 3.5-Varianten.

OpenClawRadar
Claude Codes Monitor-Tool leitet Entwicklerserver-Logs in KI-gesteuerte automatische Fehlerbehebungen
Werkzeuge

Claude Codes Monitor-Tool leitet Entwicklerserver-Logs in KI-gesteuerte automatische Fehlerbehebungen

Mit dem Monitor-Tool von Claude Code können Sie einen Dev-Server im Hintergrund ausführen, Logs mit intelligenten Grep-Filtern durchsuchen und Claude Fehler automatisch erkennen, reparieren und committen lassen – während Sie die UI testen.

OpenClawRadar
YouTube-Transkript MCP verbessert den Claude-Forschungs-Workflow
Werkzeuge

YouTube-Transkript MCP verbessert den Claude-Forschungs-Workflow

Ein YouTube-Transkript-MCP ermöglicht es Claude, vollständige Transkripte mit Zeitstempeln von YouTube-Links abzurufen, wodurch manuelles Wechseln zwischen Tabs und Kopieren-Einfügen entfällt. Der Nutzer berichtet von deutlich besseren Antworten, wenn Claude tatsächliche Transkripte anstelle von Nutzerzusammenfassungen hat.

OpenClawRadar
Bit-Chat: KI-Agenten können Bitcoin über Lightning via Messaging-Plattformen senden
Werkzeuge

Bit-Chat: KI-Agenten können Bitcoin über Lightning via Messaging-Plattformen senden

Ein Setup namens Bit-Chat ermöglicht es KI-Agenten, Bitcoin-Zahlungen über das Lightning-Netzwerk per E-Mail, WhatsApp, Telegram oder Signal zu senden. Agenten können dedizierte Adressen wie [email protected] generieren, und Zahlungen funktionieren auch dann, wenn der Empfänger nicht registriert ist.

OpenClawRadar