Gemini Embedding 2: 구글 첫 네이티브 멀티모달 임베딩 모델

Google DeepMind이 Gemini 아키텍처 기반 최초의 완전한 멀티모달 임베딩 모델인 Gemini Embedding 2를 공개 미리보기로 출시했습니다. 기존 텍스트 전용 모델과 달리, 이 모델은 텍스트, 이미지, 비디오, 오디오, 문서를 단일 통합 임베딩 공간에 매핑하여 100개 이상의 언어에 걸친 의미적 의도를 포착합니다.

주요 기술 사양

이 모델은 Gemini API와 Vertex AI를 통해 이용 가능하며, 다음과 같은 구체적인 기능을 지원합니다:

텍스트: 최대 8192개의 입력 토큰 컨텍스트 지원
이미지: 요청당 최대 6개 이미지 처리 (PNG 및 JPEG 형식)
비디오: 최대 120초 분량의 비디오 입력 지원 (MP4 및 MOV 형식)
오디오: 텍스트 전사 없이도 오디오를 네이티브로 수집 및 임베딩
문서: 최대 6페이지 길이의 PDF 직접 임베딩

단일 모달리티 처리 외에도, 이 모델은 인터리브된 입력을 네이티브로 이해하여 단일 요청에 여러 모달리티(예: 이미지 + 텍스트)를 전달하여 서로 다른 미디어 유형 간의 미묘한 관계를 포착할 수 있게 합니다.

유연한 출력 차원

Gemini Embedding 2는 Matryoshka Representation Learning (MRL)을 통합하여 기본값 3072에서 축소되는 유연한 출력 차원을 가능하게 합니다. 이를 통해 개발자는 성능과 저장 비용을 균형 있게 조정할 수 있습니다. 구글은 최고 품질을 위해 3072, 1536 또는 768 차원 사용을 권장합니다.