OpenClaw용 로컬 음성-텍스트 변환, Parakeet TDT 0.6b v3 사용

✍️ OpenClawRadar📅 게시일: March 3, 2026🔗 Source
OpenClaw용 로컬 음성-텍스트 변환, Parakeet TDT 0.6b v3 사용
Ad

OpenClaw를 위한 로컬 자막 생성 설정

커뮤니티 개발자가 NVIDIA의 Parakeet TDT 0.6b v3 모델을 OpenClaw 내에서 로컬 음성-텍스트 변환에 맞게 조정했습니다. 이 모델은 ONNX 추론을 통해 CPU에서 실행되어 API 비용을 제거하고 25개의 유럽 언어를 지원합니다.

기술적 구현

이 솔루션은 CPU 배포를 위한 Docker 컨테이너를 제공하는 GitHub 저장소(groxaxo/parakeet-tdt-0.6b-v3-fastapi-openai)를 사용합니다. 컨테이너는 http://127.0.0.1:5092/v1에서 OpenAI 호환 API 엔드포인트를 노출합니다.

지원되는 언어는 다음과 같습니다: 불가리아어(bg), 크로아티아어(hr), 체코어(cs), 덴마크어(da), 네덜란드어(nl), 영어(en), 에스토니아어(et), 핀란드어(fi), 프랑스어(fr), 독일어(de), 그리스어(el), 헝가리어(hu), 이탈리아어(it), 라트비아어(lv), 리투아니아어(lt), 몰타어(mt), 폴란드어(pl), 포르투갈어(pt), 루마니아어(ro), 슬로바키아어(sk), 슬로베니아어(sl), 스페인어(es), 스웨덴어(sv), 러시아어(ru), 우크라이나어(uk).

Ad

OpenClaw와의 통합

개발자는 자막 생성을 위한 Python 스크립트를 제공합니다:

#!/home/openclaw/.local/share/pipx/venvs/openai/bin/python
import sys
from openai import OpenAI

client = OpenAI( base_url="http://127.0.0.1:5092/v1", api_key="sk-no-key-required" )

audio_file = open(sys.argv[1], "rb") transcript = client.audio.transcriptions.create( model="parakeet-tdt-0.6b-v3", file=audio_file, response_format="text" ) print(transcript)

이 스크립트는 OpenClaw의 openclaw.json 파일에서 구성할 수 있습니다:

"tools": {
    "media": {
        "audio": {
            "enabled": true,
            "models": [
                {
                    "type": "cli",
                    "command": "/home/openclaw/.local/bin/transcribe",
                    "args": ["{{MediaPath}}"],
                    "timeoutSeconds": 60
                }
            ]
        }
    }
}

또는 OpenClaw는 스크립트의 모델 이름과 더미 API 키를 사용하여 OpenAI 호환 API 엔드포인트를 직접 사용하도록 구성할 수 있습니다.

배포 참고사항

개발자는 M4 Pro가 탑재된 Mac Mini의 ARM64 Ubuntu Linux VM에서 이를 테스트했으며, 적절한 Intel 호환 CPU에서 합리적으로 빠르게 실행되어야 한다고 언급했습니다. Docker 컨테이너는 GitHub 저장소의 README 지침에 따라 빌드됩니다.

📖 전체 소스 읽기: r/openclaw

Ad

👀 See Also

ai-codex: Claude 토큰을 절약하기 위해 코드베이스를 사전 인덱싱하세요
Tools

ai-codex: Claude 토큰을 절약하기 위해 코드베이스를 사전 인덱싱하세요

ai-codex는 코드베이스의 간결한 마크다운 인덱스를 생성하여 Claude Code가 일반적으로 대화당 30-50K 토큰을 소비하는 초기 탐색 단계를 건너뛸 수 있게 해주는 도구입니다. 이 도구는 경로, 페이지, 라이브러리, 스키마, 컴포넌트를 다루는 다섯 개의 파일을 생성합니다.

OpenClawRadar
Temporal-MCP: OAuth 지원을 갖춘 LLM을 위한 실시간 시계 인식
Tools

Temporal-MCP: OAuth 지원을 갖춘 LLM을 위한 실시간 시계 인식

Temporal-MCP는 LLM에 실제 시간 인식을 제공하여 잘못된 인사(예: 오후 11시에 "좋은 아침")와 오래된 컨텍스트와 같은 시간 관련 오류 모드를 해결하는 최소한의 MCP 서버입니다. 경과 시간, 날짜 변경 감지, 새 스레드 플래그를 반환하는 두 가지 도구(temporal_tick 및 temporal_peek)를 제공합니다.

OpenClawRadar
Microsoft Teams SDK, 기존 AI 에이전트용 HTTP 서버 어댑터 추가
Tools

Microsoft Teams SDK, 기존 AI 에이전트용 HTTP 서버 어댑터 추가

Microsoft Teams SDK는 이제 개발자가 기존 AI 에이전트를 Microsoft Teams에 연결할 수 있도록 HTTP 서버 어댑터를 제공합니다. 이 접근 방식은 Slack이나 LangChain과 같은 다른 플랫폼용으로 구축된 에이전트가 최소한의 변경으로 Teams에서 실행될 수 있게 합니다.

OpenClawRadar
마스터 플랜: Claude 코드 사용자를 위해 구축된 미니멀 터미널 작업 시스템
Tools

마스터 플랜: Claude 코드 사용자를 위해 구축된 미니멀 터미널 작업 시스템

한 개발자가 Claude Code용 플러그인인 master-plan을 만들었습니다. 이 플러그인은 네 가지 슬래시 명령어로 구성되어 있으며, 마크다운 파일과 git을 사용해 터미널에서 직접 작업을 관리합니다. 이 시스템은 컨텍스트 전환 없이 세션 중 아이디어를 포착하고 테스트 러너를 자동으로 감지합니다.

OpenClawRadar