Gemini搭載AIマウスポインタ: Google DeepMindがマウス操作を再定義

Google DeepMindは、従来のマウスカーソルにGeminiによるコンテキスト認識機能を追加したプロトタイプ「AI対応ポインタ」を発表しました。核となるアイデアは、コンテンツをAIツールのウィンドウにドラッグする代わりに、画面上の任意のものを指して自然言語でコマンドを発する（例：建物の画像を指して「道順を教えて」と言う）ことです。AIは視覚的・意味的なコンテキストの両方を理解し、ピクセルを（場所、日付、物体などの）アクション可能なエンティティとして扱います。

4つのインタラクション原則

フローを維持： AIは別ウィンドウではなく、すべてのアプリで動作します。例：PDFを指して「箇条書きの要約をメールに貼り付けて」、テーブルにホバーして「円グラフにして」、レシピをハイライトして「材料をすべて2倍にして」。
見せて伝える： ポインタが視覚的・意味的コンテキストを取得するため、詳細なプロンプトは不要。指すだけで、AIは関連する単語、段落、画像部分、コードブロックを把握します。
「これ」「それ」の力を活用： 「これを直して」「それをここに移動」「これはどういう意味？」などの自然な省略表現が可能。AIはジェスチャー、コンテキスト、音声を組み合わせて意図を推測します。
ピクセルをアクション可能なエンティティに： 走り書きのメモの写真がインタラクティブなTODOリストに、旅行動画の一時停止フレームが表示されたレストランの予約リンクになります。

製品への統合

DeepMindはこれらの機能を2つの場所で展開しています。

Chrome（Gemini統合）： Webページの一部を指してGeminiに質問。例：いくつかの商品を選んで比較を依頼、新しいソファを可視化したい場所を指定。
Googlebook（Magic Pointer）： Googlebookノートパソコン向けの近日公開機能で、直感的な操作のためのGeminiを「指先に」提供します。

実験的なデモはGoogle AI Studioでも利用可能で、画像の編集や地図上の場所を指して話すことで検索できます。チームはGoogle LabsのDiscoプラットフォームを通じて、将来のコンセプトもテスト中です。

対象： AIエージェントインターフェースを構築する開発者、UX研究者、人間とAIのインタラクションパターンに取り組むすべての人。

📖 原文を読む： HN AI Agents