TranscriptionSuite v1.1.2는 WhisperX, NeMo 및 VibeVoice 모델을 추가합니다.

✍️ OpenClawRadar📅 게시일: April 17, 2026🔗 Source
TranscriptionSuite v1.1.2는 WhisperX, NeMo 및 VibeVoice 모델을 추가합니다.
Ad

TranscriptionSuite v1.1.2 출시

완전히 로컬에서 실행되는 오픈소스 오디오 전사 애플리케이션인 TranscriptionSuite가 커뮤니티 피드백을 바탕으로 한 중요한 기능 추가와 함께 버전 1.1.2를 출시했습니다.

주요 업데이트

개발자는 이전의 faster-whisper 구현을 WhisperX로 교체하고 여러 새로운 모델 패밀리에 대한 지원을 추가했습니다:

  • WhisperX - PyAnnote를 통한 화자 분리 포함
  • NeMo 모델 - PyAnnote를 통한 화자 분리를 지원하는 Parakeet 및 Canary 모델 지원
  • VibeVoice 모델 - 내장 화자 분리를 지원하는 메인 모델과 4비트 양자화 버전 모두 지원

새로운 기능

  • 모델 관리자 - 다양한 전사 모델을 관리하기 위한 중앙 집중식 제어
  • 병렬 처리 모드 - 동시 전사 및 화자 분리
  • 단축키 제어 - 향상된 워크플로우를 위한 키보드 단축키
  • 커서 위치에 붙여넣기 - 직접 텍스트 삽입 기능
  • 24kHz 녹음 파이프라인 - VibeVoice 모델의 장점을 최대한 활용하기 위해 특별히 추가됨 (Whisper 및 NeMo 모델은 16kHz 필요)

이 애플리케이션은 이제 선택된 모델 패밀리에 따라 다른 화자 분리 접근 방식을 가진 세 가지 구별되는 전사 파이프라인을 제공합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

GLM-5-Turbo, 사용자 테스트에서 낮은 도구 호출 오류율 보여
Tools

GLM-5-Turbo, 사용자 테스트에서 낮은 도구 호출 오류율 보여

z-ai/glm-5-turbo 모델은 테스트에서 평균 0.57%의 도구 호출 오류율을 보여주며, 이는 GLM-5의 약 3% 오류율보다 현저히 낮습니다. 한 사용자는 CLI 도구와 함께 사용하여 97,000단어의 판타지 소설을 최소한의 문제로 작성하는 데 성공했다고 보고했습니다.

OpenClawRadar
오픈소스 JARVIS 데스크톱 어시스턴트, Claude Code로 2일 만에 구축됨
Tools

오픈소스 JARVIS 데스크톱 어시스턴트, Claude Code로 2일 만에 구축됨

개발자가 Claude Code를 주요 개발 도구로 사용하여 1-2일 만에 JARVIS라는 macOS 데스크톱 AI 어시스턴트를 구축했습니다. 이 애플리케이션은 홀로그램 UI, 시스템 제어를 위한 18개의 네이티브 도구, 음성 인터페이스, Gmail, Google Calendar, Notion, GitHub, Obsidian과의 통합 기능을 갖추고 있습니다.

OpenClawRadar
260개 이상의 AI 에이전트 및 도구 모음집 (오픈소스 및 셀프 호스팅 중심)
Tools

260개 이상의 AI 에이전트 및 도구 모음집 (오픈소스 및 셀프 호스팅 중심)

포괄적인 GitHub 저장소는 260개 이상의 AI 에이전트와 프레임워크를 나열하며, Ollama, OpenClaw, DeerFlow를 포함한 오픈소스, 자체 호스팅, 로컬 우선 옵션을 강조합니다.

OpenClawRadar
LLM 숨겨진 에이전시 신호(Â)를 활용한 향상된 도구 호출
Tools

LLM 숨겨진 에이전시 신호(Â)를 활용한 향상된 도구 호출

개발자가 LLM이 AUC > 0.94로 도구 호출을 예측하는 선형 분리 가능한 숨겨진 상태 방향인 Â를 가지고 있음을 발견했습니다. 이 신호를 사용하여 도구 호출을 강제하면 Qwen3-1.7B 성능이 26.7%에서 85%로 향상되었으며(+58% 이득), 도구 미사용 실패가 43%에서 2.6%로 감소했습니다.

OpenClawRadar