ジェミニ エンベディング 2: Google初のネイティブマルチモーダル埋め込みモデルがリリース

Google DeepMindは、Geminiアーキテクチャを基に構築された初の完全マルチモーダル埋め込みモデルであるGemini Embedding 2をパブリックプレビューでリリースしました。従来のテキスト専用モデルとは異なり、このモデルはテキスト、画像、動画、音声、文書を単一の統一された埋め込み空間にマッピングし、100以上の言語にわたる意味的意図を捉えます。
主要な技術詳細
このモデルはGemini APIおよびVertex AIを通じて利用可能で、以下の特定の機能をサポートしています:
- テキスト: 最大8192入力トークンのコンテキストをサポート
- 画像: リクエストごとに最大6枚の画像を処理(PNGおよびJPEG形式)
- 動画: 最大120秒の動画入力をサポート(MP4およびMOV形式)
- 音声: テキスト書き起こしを必要とせずにネイティブで音声を取り込み埋め込み
- 文書: 最大6ページのPDFを直接埋め込み
単一モダリティの処理に加えて、このモデルはインターリーブされた入力をネイティブで理解し、複数のモダリティ(例:画像+テキスト)を単一リクエストで渡して、異なるメディアタイプ間の微妙な関係を捉えることができます。
柔軟な出力次元
Gemini Embedding 2はMatryoshka Representation Learning(MRL)を組み込んでおり、デフォルトの3072からスケールダウンする柔軟な出力次元を可能にします。これにより、開発者はパフォーマンスとストレージコストのバランスを取ることができます。Googleは最高品質のために3072、1536、または768次元の使用を推奨しています。
統合とユースケース
このモデルは、Retrieval-Augmented Generation(RAG)、セマンティック検索、感情分析、データクラスタリングなどのマルチモーダル下流タスク向けに設計されています。以下の複数のプラットフォームで利用可能です:
- Gemini API
- Vertex AI
- LangChain、LlamaIndex、Haystack
- ベクトルデータベース:Weaviate、QDrant、ChromaDB、Vector Search
Googleは、Gemini APIおよびVertex AIの実装を始めるためのインタラクティブなColabノートブックを提供しています。
📖 Read the full source: HN AI Agents
👀 See Also

AIは高すぎる:ハイパースケーラーが損益分岐点に達するには3兆ドルが必要
ハイパースケーラーはAIに8000億ドル以上の資本的支出を行い、2027年までにさらに1兆ドルを計画している。マイクロソフトだけでもOpenAIのインフラに約1000億ドルを費やしたが、AI収益は資本的支出の約20%しかカバーしていない。

Claudeデスクトップアプリ、起動のたびに13GBファイルをオプトアウトなしで自動ダウンロード
Claudeデスクトップアプリは、起動するたびに約12.95GBの「claudevm.bundle」というファイルを自動的にダウンロードします。これはClaude Codeを使用しないユーザーでも同様です。Anthropicのサポートはこれが意図的なものであり、個々のユーザーには無効化する方法がないことを確認しました。

推論価格分析により、同一モデルでもプロバイダー間で4.4倍の価格差があることが判明
Llama 3.1 70B Instructの推論価格分析によると、プロバイダー間で4.4倍のコスト差があり、DeepInfraは100万トークンあたり0.20ドル/0.27ドル、Togetherは0.88ドル/0.88ドルとなっています。推論モデルでは、DeepSeek R1とOpenAI o1の間で約30倍の差に達しています。

RTX 5000 PRO 48GB、Qwen3.6-27Bに対し4400トークン/秒の高精度キャッシングを実現
初めてPCを自作したユーザーが、Qwen3.6-27B-FP8フルプレシジョンKVキャッシュを搭載した単一のRTX 5000 Pro 48GBで、4400 tok/sのプロンプト処理と80 tok/sの生成を達成したと報告。vLLMとClaude Codeを使用。