제미니 3.1 플래시 라이브: 향상된 벤치마크와 워터마킹 기능을 갖춘 구글의 최신 오디오 모델

Ad
Gemini 3.1 Flash Live의 새로운 점
구글은 실시간 대화를 위해 설계된 최고 품질의 오디오 및 음성 모델인 Gemini 3.1 Flash Live를 출시했습니다. 이 모델은 음성 중심 AI 애플리케이션을 위해 향상된 속도와 자연스러운 리듬을 제공합니다.
주요 기술 사항
- 벤치마크 점수: ComplexFuncBench Audio(제약 조건이 있는 다단계 함수 호출)에서 90.8%, Scale AI의 Audio MultiChallenge(복잡한 지시 사항을 '생각하며' 따르기)에서 36.1%
- 향상된 기능: 더 나은 음조 이해, 피치와 속도 같은 음향적 뉘앙스 인식, 사용자의 좌절감이나 혼란에 대한 동적 조정
- 워터마킹: 생성된 모든 오디오에는 AI 콘텐츠 감지를 위한 SynthID 워터마크가 포함됨
- 다국어 지원: 200개 이상의 국가 및 지역에서 이용 가능
이용 가능성 및 접근성
- 개발자용: Google AI Studio의 Gemini Live API를 통해 미리보기로 이용 가능
- 기업용: Gemini Enterprise for Customer Experience에 포함됨
- 일반 사용자용: Search Live와 Gemini Live를 통해 접근 가능
이 모델은 시끄러운 환경에서 복잡한 작업을 처리하는 음성 준비 에이전트 구축을 가능하게 하며, 장시간 상호작용 중 더 긴 대화 스레드를 지원합니다.
📖 Read the full source: HN AI Agents
Ad
👀 See Also

News
할리우드 작가들, AI 훈련으로 전환: 데이터 주석 작업의 1인칭 증언
할리우드 쇼러너가 2023년 파업 이후 시간당 52달러에 AI 훈련 작업으로 전환해 Mercor, Outlier 같은 회사를 위해 대화, 이미지, 비디오에 주석을 다는 과정을 설명합니다.
OpenClawRadar

News
NVIDIA DGX Spark 커뮤니티, 재현 가능한 LLM 벤치마크를 위한 Spark Arena 출시
NVIDIA DGX Spark 커뮤니티는 표준화된 도구와 방법론을 사용하여 오픈 웨이트 LLM 성능을 위한 재현 가능한 리더보드인 Spark Arena를 출시했습니다. 현재 최고 성능 모델로는 gpt-oss-120b와 Qwen3-Coder-Next가 포함됩니다.
OpenClawRadar

News
대법원, AI 저작권 소송 상고 기각…하급심 판결 유지
미국 대법원은 AI 생성 자료에 대한 저작권 분쟁을 심리하지 않기로 결정하여, 인간 저작 없이 창작된 작품에 대한 저작권 보호를 거부한 하급 법원 판결을 그대로 유지했습니다.
OpenClawRadar

News
OpenClaw의 사용성과 경제적 타당성에 대한 우려가 제기되다
OpenClaw는 높은 진입 장벽, 과도한 비용, 보안 문제, 그리고 오해의 소지가 있는 메모리 기능 때문에 비판을 받아왔습니다. MemU Bot과 같은 대안 솔루션이 권장되고 있습니다.
OpenClawRadar