Google DeepMindのAIポインター:ジェミニとの相互作用のためのマウスの再考
Google DeepMindは、従来のマウスカーソルにGeminiによるコンテキスト認識機能を追加したプロトタイプ「AI対応ポインタ」を発表しました。核となるアイデアは、コンテンツをAIツールのウィンドウにドラッグする代わりに、画面上の任意のものを指して自然言語でコマンドを発する(例:建物の画像を指して「道順を教えて」と言う)ことです。AIは視覚的・意味的なコンテキストの両方を理解し、ピクセルを(場所、日付、物体などの)アクション可能なエンティティとして扱います。
4つのインタラクション原則
- フローを維持: AIは別ウィンドウではなく、すべてのアプリで動作します。例:PDFを指して「箇条書きの要約をメールに貼り付けて」、テーブルにホバーして「円グラフにして」、レシピをハイライトして「材料をすべて2倍にして」。
- 見せて伝える: ポインタが視覚的・意味的コンテキストを取得するため、詳細なプロンプトは不要。指すだけで、AIは関連する単語、段落、画像部分、コードブロックを把握します。
- 「これ」「それ」の力を活用: 「これを直して」「それをここに移動」「これはどういう意味?」などの自然な省略表現が可能。AIはジェスチャー、コンテキスト、音声を組み合わせて意図を推測します。
- ピクセルをアクション可能なエンティティに: 走り書きのメモの写真がインタラクティブなTODOリストに、旅行動画の一時停止フレームが表示されたレストランの予約リンクになります。
製品への統合
DeepMindはこれらの機能を2つの場所で展開しています。
- Chrome(Gemini統合): Webページの一部を指してGeminiに質問。例:いくつかの商品を選んで比較を依頼、新しいソファを可視化したい場所を指定。
- Googlebook(Magic Pointer): Googlebookノートパソコン向けの近日公開機能で、直感的な操作のためのGeminiを「指先に」提供します。
実験的なデモはGoogle AI Studioでも利用可能で、画像の編集や地図上の場所を指して話すことで検索できます。チームはGoogle LabsのDiscoプラットフォームを通じて、将来のコンセプトもテスト中です。
対象: AIエージェントインターフェースを構築する開発者、UX研究者、人間とAIのインタラクションパターンに取り組むすべての人。
📖 原文を読む: HN AI Agents
👀 See Also

開発者、初のAI支援プルリクエスト後に不正感を語る
ある開発者が、Hugoのデフォルト構文ハイライターであるChromaに対して、初めてAI支援でプルリクエストを作成した経験を語っています。彼らはClaude Codeを使用してPRを生成し、Hugoブログ投稿用のERB構文ハイライトを追加しました。

Qwen3.6 Plusプレビュー版がOpenRouter経由でOpenClawに無料提供中
Qwen3.6 Plus Previewモデルが、OpenClawユーザー向けにOpenRouterを通じて無料で利用可能になりました。セットアップには、OpenRouterからAPIキーを取得し、OpenClawで設定する必要があり、初回使用時に思考レベルを設定するプロンプトが表示されます。

アンソピックのビジネス戦略:API収益が消費者向け階層の制限を推進
Anthropicのコンシューマー向けサブスクリプション階層は、AIのマインドシェア構築のために補助金が投入され赤字で運営されており、一方でAPIビジネスが収益を生み出しています。20ドルのPro階層は意図的に制限され、より高価値なMaxサブスクリプションへユーザーを誘導するためのフィルターとして機能しています。

Claude Codeのリークで隠しペットシステム発見:アスキーアニメーション付きガチャメカニックス
流出したClaude Codeの分析により、18種類の種族、レアリティ階層、ASCIIアニメーションを備えた隠しコンパニオンペットシステムが明らかになりました。このシステムはユーザーIDから決定論的ハッシュを使用して種族データを保存せずにユニークなペットを生成します。