순수 C 언어로 음성 인식을 위한 Mistral Voxtral Realtime 4B 탐구하기

Mistral Voxtral Realtime 4B는 순수 C로 구현된 음성-텍스트 모델로, C 표준 라이브러리만 사용하는 의존성 없는 대안을 제공합니다. antirez의 voxtral.c 저장소는 추론 시 Python 런타임, CUDA 툴킷 또는 기타 외부 라이브러리가 필요 없이 추론 파이프라인을 가능하게 합니다.
주요 기능
- 순수 C 구현: C 표준 라이브러리 외에 외부 의존성이 필요 없어, 최소 의존성이 중요한 환경에 적합합니다.
- 플랫폼별 백엔드: 두 가지 make 타겟을 제공합니다: Apple Silicon에서 더 빠른 처리를 위한
make mps와, bf16에서 fp32로의 변환 필요로 인해 성능이 느리지만 OpenBLAS가 장착된 Intel Mac 또는 Linux 시스템용make blas입니다. - 오디오 처리: 입력 길이에 관계없이 메모리 사용량을 제한하기 위해 겹치는 창이 있는 청크 인코더를 사용합니다. 또한 macOS에서 stdin 또는 마이크를 통한 오디오 입력을 허용하여 실시간 또는 파일 기반 전사 작업에 대한 다양성을 높입니다.
- 스트리밍 C API:
vox_stream_tAPI는 증분 오디오 공급을 허용하고 생성된 대로 토큰 문자열을 출력합니다.
사용법
./download_model.sh를 사용하여 모델(~8.9GB)을 다운로드합니다.- 파일에서 오디오 전사:
./voxtral -d voxtral-model -i audio.wav - macOS에서 마이크를 통한 실시간 전사:
./voxtral -d voxtral-model --from-mic ffmpeg를 사용한 트랜스코딩 및 전사:ffmpeg -i audio.mp3 -f s16le -ar 16000 -ac 1 - 2> /dev/null | ./voxtral -d voxtral-model --stdin
이 프로젝트는 현재 제한된 샘플에 의존하므로 추가 테스트에 열려 있습니다. 완전한 프로덕션 준비에는 특히 KV 캐시의 순환 버퍼를 테스트하기 위한 긴 전사 처리에 더 많은 작업이 필요할 수 있습니다.
📖 전체 소스 읽기: HN AI Agents
👀 See Also

MCP-인디아-스택: AI 에이전트를 위한 인도 금융 데이터 오프라인 우선 서버
MCP-India-Stack는 인증이나 외부 API 호출 없이 인도 금융 및 정부 API 기능을 제공하는 오프라인 우선 MCP 서버입니다. 세금 계산, 검증 도구 및 조회를 위해 데이터셋을 로컬에 번들로 제공합니다.

Codex Chrome 확장 프로그램, 탭 간 백그라운드 브라우저 자동화 기능 추가
Codex의 새로운 Chrome 확장 프로그램을 사용하면 macOS/Windows에서 배경 탭에서 병렬로 브라우저 작업을 실행할 수 있으며, 브라우저를 점유하지 않습니다. 디버깅 흐름, 대시보드, 리서치, CRM 업데이트 등을 다룹니다.

개인정보 보호를 최우선으로 하는 MCP 서버 디렉토리가 데이터 처리 정책을 공개하며 출시되었습니다.
toolora.dev/mcp-hub의 새 디렉토리는 MCP 서버를 나열하며, 각 서버의 데이터 처리 정책을 문서화합니다. 여기에는 로컬 대 호스팅 분류, 각 도구가 전송하는 데이터, 계정 필요 여부 등이 포함됩니다. 제작자는 또한 개인정보 보호 주장을 검증할 수 있는 브라우저 테스트 방법을 제공합니다.

에이전트 관찰: Claude 코드 에이전트 팀 모니터링을 위한 실시간 대시보드
Agents Observe는 OTEL 대신 훅을 사용하여 Claude Code 에이전트 세션에 대한 실시간 가시성을 제공하는 로컬 대시보드입니다. 모든 도구 호출, 에이전트 계층 구조 및 이벤트를 필터링 및 검색 기능과 함께 캡처하며, Claude 세션과 함께 자동 시작되는 Docker 컨테이너로 실행됩니다.