AI Pointer от DeepMind: управление Gemini мышью

Google DeepMind представил AI-управляемый указатель — прототип, который расширяет традиционный курсор мыши контекстной осведомленностью на базе Gemini. Основная идея: вместо перетаскивания контента в окно AI-инструмента пользователи могут указывать на любой элемент на экране и отдавать команды на естественном языке (например, указать на изображение здания и сказать «Покажи маршруты»). ИИ понимает как визуальный, так и семантический контекст, превращая пиксели в интерактивные объекты (места, даты, предметы).

Четыре принципа взаимодействия

Сохранение потока: ИИ работает во всех приложениях, а не в отдельном окне. Примеры: указать на PDF и попросить сводку в виде маркированного списка для вставки в письмо; навести курсор на таблицу и запросить круговую диаграмму; выделить рецепт и сказать «удвоить все ингредиенты».
Покажи и расскажи: Указатель захватывает визуальный и семантический контекст, поэтому не нужен подробный запрос. Просто укажите, и ИИ поймет, какое слово, абзац, часть изображения или блок кода актуален.
Используйте силу «Это» и «То»: Используйте естественные сокращения, такие как «Исправь это», «Перемести это туда» или «Что это значит?» — ИИ сочетает жест, контекст и речь, чтобы вывести намерение.
Превращайте пиксели в интерактивные сущности: Фотография заметки от руки становится интерактивным списком задач; остановленный кадр в видео о путешествиях — ссылкой на бронирование показанного ресторана.

Интеграция в продукты

DeepMind внедряет эти возможности в двух направлениях:

Chrome (интеграция с Gemini): Укажите на часть веб-страницы и спросите о ней Gemini. Пример: выберите несколько товаров и попросите сравнить их, или укажите, где вы хотите визуализировать новый диван.
Googlebook (Magic Pointer): Грядущая функция для ноутбука Googlebook, которая помещает Gemini «у вас под рукой» для интуитивного взаимодействия.

Экспериментальные демо также доступны в Google AI Studio для редактирования изображений или поиска мест на карте с помощью указания и голоса. Команда также тестирует будущие концепции через платформу Disco от Google Labs.

Для кого это: Разработчики, создающие интерфейсы AI-агентов, UX-исследователи и все, кто работает над паттернами взаимодействия человека и ИИ.

📖 Read the full source: HN AI Agents

Google DeepMind AI Pointer: Переосмысление мыши для взаимодействия с Gemini

Четыре принципа взаимодействия

Интеграция в продукты

👀 Смотрите также

Пентагон внедрит искусственный интеллект Palantir в качестве основной системы вооруженных сил США

Анализ 413 тысяч запусков ИИ-агентов показал, что определяет их успех.

DeepSeek-V4 Pro и Flash: 1,6 трлн параметров, контекст в 1 млн токенов, гибридное внимание

Windows 11, обновление 2026 года: Перемещение панели задач, сокращение Copilot, улучшения в проводнике.