Pair Programmer 플러그인으로 Claude Code에 실시간 화면·음성 추가

한 개발자가 Claude Code의 실시간 컨텍스트 부족 문제를 해결하기 위해 라이브 데스크톱 인식을 제공하는 Pair Programmer 플러그인을 출시했습니다. 이 도구는 세 가지 데이터 스트림을 캡처합니다: 화면 콘텐츠(시각적 인덱싱으로 짧은 장면 설명 생성), 마이크 입력(질문, 설명 또는 명령에 대한 경량 의도 분류와 함께 전사), 시스템 오디오(머신에서 재생되는 회의, 튜토리얼 또는 기타 오디오 인덱싱).

아키텍처 및 구현

이 시스템은 단일 모델 접근 방식이 아닌 다중 에이전트 파이프라인을 사용합니다. 특화된 에이전트를 병렬로 실행합니다:

시각적 컨텍스트를 위한 화면 리더
마이크 전사 및 의도 분류를 위한 음성 프로세서
시스템 오디오를 위한 오디오 분류기
모든 입력을 상관관계화하고 단일 응답을 합성하는 오케스트레이터

이 플러그인은 VideoDB 인프라 위에 구축되었습니다. 인덱싱은 현재 클라우드 모델을 사용하지만, 설계는 모델에 구애받지 않습니다—인덱스 계층은 모든 VLM 또는 LLM으로 교체할 수 있습니다. 개발자는 시각적 설명 및 전사 계층에 로컬 모델을 연결하는 데 관심을 표명했습니다.