Gemini Embedding 2: Google初のネイティブマルチモーダル埋め込みモデル

Google DeepMindは、Geminiアーキテクチャを基に構築された初の完全マルチモーダル埋め込みモデルであるGemini Embedding 2をパブリックプレビューでリリースしました。従来のテキスト専用モデルとは異なり、このモデルはテキスト、画像、動画、音声、文書を単一の統一された埋め込み空間にマッピングし、100以上の言語にわたる意味的意図を捉えます。

主要な技術詳細

このモデルはGemini APIおよびVertex AIを通じて利用可能で、以下の特定の機能をサポートしています：

テキスト： 最大8192入力トークンのコンテキストをサポート
画像： リクエストごとに最大6枚の画像を処理（PNGおよびJPEG形式）
動画： 最大120秒の動画入力をサポート（MP4およびMOV形式）
音声： テキスト書き起こしを必要とせずにネイティブで音声を取り込み埋め込み
文書： 最大6ページのPDFを直接埋め込み

単一モダリティの処理に加えて、このモデルはインターリーブされた入力をネイティブで理解し、複数のモダリティ（例：画像＋テキスト）を単一リクエストで渡して、異なるメディアタイプ間の微妙な関係を捉えることができます。

柔軟な出力次元

Gemini Embedding 2はMatryoshka Representation Learning（MRL）を組み込んでおり、デフォルトの3072からスケールダウンする柔軟な出力次元を可能にします。これにより、開発者はパフォーマンスとストレージコストのバランスを取ることができます。Googleは最高品質のために3072、1536、または768次元の使用を推奨しています。