OpenClaw용 로컬 음성-텍스트 변환, Parakeet TDT 0.6b v3 사용

OpenClaw를 위한 로컬 자막 생성 설정
커뮤니티 개발자가 NVIDIA의 Parakeet TDT 0.6b v3 모델을 OpenClaw 내에서 로컬 음성-텍스트 변환에 맞게 조정했습니다. 이 모델은 ONNX 추론을 통해 CPU에서 실행되어 API 비용을 제거하고 25개의 유럽 언어를 지원합니다.
기술적 구현
이 솔루션은 CPU 배포를 위한 Docker 컨테이너를 제공하는 GitHub 저장소(groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai)를 사용합니다. 컨테이너는 http://127.0.0.1:5092/v1에서 OpenAI 호환 API 엔드포인트를 노출합니다.
지원되는 언어는 다음과 같습니다: 불가리아어(bg), 크로아티아어(hr), 체코어(cs), 덴마크어(da), 네덜란드어(nl), 영어(en), 에스토니아어(et), 핀란드어(fi), 프랑스어(fr), 독일어(de), 그리스어(el), 헝가리어(hu), 이탈리아어(it), 라트비아어(lv), 리투아니아어(lt), 몰타어(mt), 폴란드어(pl), 포르투갈어(pt), 루마니아어(ro), 슬로바키아어(sk), 슬로베니아어(sl), 스페인어(es), 스웨덴어(sv), 러시아어(ru), 우크라이나어(uk).
OpenClaw와의 통합
개발자는 자막 생성을 위한 Python 스크립트를 제공합니다:
#!/home/openclaw/.local/share/pipx/venvs/openai/bin/python
import sys
from openai import OpenAI
client = OpenAI(
base_url="http://127.0.0.1:5092/v1",
api_key="sk-no-key-required"
)
audio_file = open(sys.argv[1], "rb")
transcript = client.audio.transcriptions.create(
model="parakeet-tdt-0.6b-v3",
file=audio_file,
response_format="text"
)
print(transcript)
이 스크립트는 OpenClaw의 openclaw.json 파일에서 구성할 수 있습니다:
"tools": {
"media": {
"audio": {
"enabled": true,
"models": [
{
"type": "cli",
"command": "/home/openclaw/.local/bin/transcribe",
"args": ["{{MediaPath}}"],
"timeoutSeconds": 60
}
]
}
}
}또는 OpenClaw는 스크립트의 모델 이름과 더미 API 키를 사용하여 OpenAI 호환 API 엔드포인트를 직접 사용하도록 구성할 수 있습니다.
배포 참고사항
개발자는 M4 Pro가 탑재된 Mac Mini의 ARM64 Ubuntu Linux VM에서 이를 테스트했으며, 적절한 Intel 호환 CPU에서 합리적으로 빠르게 실행되어야 한다고 언급했습니다. Docker 컨테이너는 GitHub 저장소의 README 지침에 따라 빌드됩니다.
📖 전체 소스 읽기: r/openclaw
👀 See Also

ai-codex: Claude 토큰을 절약하기 위해 코드베이스를 사전 인덱싱하세요
ai-codex는 코드베이스의 간결한 마크다운 인덱스를 생성하여 Claude Code가 일반적으로 대화당 30-50K 토큰을 소비하는 초기 탐색 단계를 건너뛸 수 있게 해주는 도구입니다. 이 도구는 경로, 페이지, 라이브러리, 스키마, 컴포넌트를 다루는 다섯 개의 파일을 생성합니다.

Temporal-MCP: OAuth 지원을 갖춘 LLM을 위한 실시간 시계 인식
Temporal-MCP는 LLM에 실제 시간 인식을 제공하여 잘못된 인사(예: 오후 11시에 "좋은 아침")와 오래된 컨텍스트와 같은 시간 관련 오류 모드를 해결하는 최소한의 MCP 서버입니다. 경과 시간, 날짜 변경 감지, 새 스레드 플래그를 반환하는 두 가지 도구(temporal_tick 및 temporal_peek)를 제공합니다.

Microsoft Teams SDK, 기존 AI 에이전트용 HTTP 서버 어댑터 추가
Microsoft Teams SDK는 이제 개발자가 기존 AI 에이전트를 Microsoft Teams에 연결할 수 있도록 HTTP 서버 어댑터를 제공합니다. 이 접근 방식은 Slack이나 LangChain과 같은 다른 플랫폼용으로 구축된 에이전트가 최소한의 변경으로 Teams에서 실행될 수 있게 합니다.

마스터 플랜: Claude 코드 사용자를 위해 구축된 미니멀 터미널 작업 시스템
한 개발자가 Claude Code용 플러그인인 master-plan을 만들었습니다. 이 플러그인은 네 가지 슬래시 명령어로 구성되어 있으며, 마크다운 파일과 git을 사용해 터미널에서 직접 작업을 관리합니다. 이 시스템은 컨텍스트 전환 없이 세션 중 아이디어를 포착하고 테스트 러너를 자동으로 감지합니다.