IA Puntero de Google DeepMind: Controla Gemini con Gestos

Google DeepMind ha presentado el puntero con IA, un prototipo que amplía el cursor tradicional del mouse con conciencia de contexto impulsada por Gemini. La idea central: en lugar de arrastrar contenido a la ventana de una herramienta de IA, los usuarios pueden señalar cualquier cosa en la pantalla y dar un comando en lenguaje natural (por ejemplo, señalar una imagen de un edificio y decir "Muéstrame las indicaciones"). La IA comprende tanto el contexto visual como el semántico, tratando los píxeles como entidades procesables (lugares, fechas, objetos).

Cuatro principios de interacción

Mantener el flujo: La IA funciona en todas las aplicaciones, no en una ventana separada. Ejemplos: señalar un PDF y pedir un resumen con viñetas para pegar en un correo; pasar el cursor sobre una tabla y solicitar un gráfico circular; resaltar una receta y decir "duplica todos los ingredientes".
Mostrar y decir: El puntero captura el contexto visual y semántico, por lo que no necesitas un aviso detallado. Solo señala, y la IA sabe qué palabra, párrafo, parte de la imagen o bloque de código es relevante.
Acepta el poder de 'Esto' y 'Eso': Usa abreviaturas naturales como "Arregla esto", "Mueve eso aquí" o "¿Qué significa esto?": la IA combina gesto, contexto y habla para inferir la intención.
Convierte píxeles en entidades procesables: Una foto de una nota garabateada se convierte en una lista de tareas interactiva; un fotograma pausado en un video de viajes se convierte en un enlace de reserva para el restaurante mostrado.

Integración en productos

DeepMind está implementando estas capacidades en dos lugares:

Chrome (integración con Gemini): Señala parte de una página web y pregúntale a Gemini al respecto. Ejemplo: selecciona varios productos y pide compararlos, o señala dónde quieres visualizar un nuevo sofá.
Googlebook (Magic Pointer): Una función próxima para la laptop Googlebook que pone a Gemini "al alcance de tus dedos" para interacciones intuitivas.

También hay demos experimentales disponibles en Google AI Studio para editar imágenes o encontrar lugares en un mapa señalando y hablando. El equipo también está probando conceptos futuros a través de la plataforma Disco de Google Labs.

Para quién es: Desarrolladores que crean interfaces de agentes de IA, investigadores de UX y cualquier persona que trabaje en patrones de interacción humano-IA.

📖 Lee la fuente completa: HN AI Agents

El Puntero de IA de Google DeepMind: Reimaginando el Ratón para las Interacciones con Gemini

Cuatro principios de interacción

Integración en productos

👀 Ver también

Coinbase x402 vs Google A2A: Dos Órdenes de Pago Opuestos para Pagos entre Agentes

Orden Judicial de Georgia Contiene Citas Legales Alucinadas por IA

Despliegue Sin Esfuerzo: Se Lanza Nueva Configuración de AWS con Un Clic para Open Claw

Fallo de memoria en Claude Opus 4.6: El agente olvida todo excepto el cambio de nombre de archivo