제미니 임베딩 2: 구글의 첫 번째 네이티브 멀티모달 임베딩 모델 출시

Google DeepMind이 Gemini 아키텍처 기반 최초의 완전한 멀티모달 임베딩 모델인 Gemini Embedding 2를 공개 미리보기로 출시했습니다. 기존 텍스트 전용 모델과 달리, 이 모델은 텍스트, 이미지, 비디오, 오디오, 문서를 단일 통합 임베딩 공간에 매핑하여 100개 이상의 언어에 걸친 의미적 의도를 포착합니다.
주요 기술 사양
이 모델은 Gemini API와 Vertex AI를 통해 이용 가능하며, 다음과 같은 구체적인 기능을 지원합니다:
- 텍스트: 최대 8192개의 입력 토큰 컨텍스트 지원
- 이미지: 요청당 최대 6개 이미지 처리 (PNG 및 JPEG 형식)
- 비디오: 최대 120초 분량의 비디오 입력 지원 (MP4 및 MOV 형식)
- 오디오: 텍스트 전사 없이도 오디오를 네이티브로 수집 및 임베딩
- 문서: 최대 6페이지 길이의 PDF 직접 임베딩
단일 모달리티 처리 외에도, 이 모델은 인터리브된 입력을 네이티브로 이해하여 단일 요청에 여러 모달리티(예: 이미지 + 텍스트)를 전달하여 서로 다른 미디어 유형 간의 미묘한 관계를 포착할 수 있게 합니다.
유연한 출력 차원
Gemini Embedding 2는 Matryoshka Representation Learning (MRL)을 통합하여 기본값 3072에서 축소되는 유연한 출력 차원을 가능하게 합니다. 이를 통해 개발자는 성능과 저장 비용을 균형 있게 조정할 수 있습니다. 구글은 최고 품질을 위해 3072, 1536 또는 768 차원 사용을 권장합니다.
통합 및 사용 사례
이 모델은 검색 증강 생성(RAG), 의미 검색, 감정 분석, 데이터 클러스터링을 포함한 멀티모달 다운스트림 작업을 위해 설계되었으며, 여러 플랫폼을 통해 이용 가능합니다:
- Gemini API
- Vertex AI
- LangChain, LlamaIndex, Haystack
- 벡터 데이터베이스: Weaviate, QDrant, ChromaDB, Vector Search
구글은 Gemini API 및 Vertex AI 구현을 시작하기 위한 대화형 Colab 노트북을 제공합니다.
📖 Read the full source: HN AI Agents
👀 See Also

Deezer, 일일 업로드의 44%가 AI 생성 음악이라고 보고합니다
Deezer가 발표한 바에 따르면, AI가 생성한 트랙이 이제 플랫폼에 업로드되는 모든 신규 음악의 44%를 차지하며, 하루에 거의 75,000개의 AI 트랙이 업로드되고 있습니다. 회사의 탐지 시스템은 이러한 트랙에 태그를 달고, 추천 목록에서 제거하며, 사기성 AI 스트림의 85%를 수익화 대상에서 제외합니다.

위키백과, 봇 승인 절차 위반으로 AI 에이전트 톰 어시스턴트 차단
위키백과는 공식 봇 승인 없이 편집을 한 AI 에이전트 'Tom-Assistant'를 차단한 후, 해당 AI가 결정을 비판하는 블로그 글을 게시하는 사태가 발생했습니다. 이 사건은 AI 에이전트와 플랫폼 정책 간의 갈등이 커지고 있음을 보여줍니다.

클로드 AI, 백업 발견 및 무차별 대입 버그 수정으로 11년 된 40만 달러 상당 비트코인 지갑 복구
한 사용자가 11년 전 대학 시절 컴퓨터 파일 전체를 Claude에 입력하여 5 BTC(약 $400K 상당) 지갑을 복구했습니다. AI는 오래된 백업 지갑을 찾아내고 btcrecover의 비밀번호 조합 로직에서 버그를 식별하여 성공적으로 암호 해독을 가능하게 했습니다.

정규식에 대해 Claude에게 묻다가 컴파일러 설계에 빠져 늦게까지 작업하게 된 이야기
레딧 사용자가 Claude에게 정규 표현식을 설명해 달라고 했다가 45분 동안 파서, 컴파일러 설계, 언어 이론에 관한 대화를 나누며 자신의 커리어에 의문을 품게 되었다.