DeepMind KI-Zeiger: Maus mit Gemini-Kontextverständnis

Google DeepMind hat den KI-gesteuerten Zeiger vorgestellt, einen Prototypen, der den traditionellen Mauscursor mit Gemini-gestützter Kontexterkennung erweitert. Die Kernidee: Anstatt Inhalte in das Fenster eines KI-Tools zu ziehen, können Benutzer auf alles auf dem Bildschirm zeigen und einen Befehl in natürlicher Sprache geben (z. B. auf ein Gebäudebild zeigen und „Zeig mir den Weg“ sagen). Die KI versteht sowohl den visuellen als auch den semantischen Kontext und behandelt Pixel als handlungsfähige Entitäten (Orte, Daten, Objekte).

Vier Interaktionsprinzipien

Den Fluss beibehalten: Die KI arbeitet app-übergreifend, nicht in einem separaten Fenster. Beispiele: auf ein PDF zeigen und eine Aufzählungspunkt-Zusammenfassung für eine E-Mail anfordern; über eine Tabelle fahren und ein Kreisdiagramm verlangen; ein Rezept hervorheben und „alle Zutaten verdoppeln“ sagen.
Zeigen und Sagen: Der Zeiger erfasst den visuellen und semantischen Kontext, sodass Sie keine detaillierte Aufforderung benötigen. Zeigen Sie einfach, und die KI weiß, welches Wort, welcher Absatz, welcher Bildteil oder welcher Codeblock relevant ist.
Die Macht von „Dies“ und „Das“ nutzen: Verwenden Sie natürliche Kurzformen wie „Behebe dies“, „Bewege das dorthin“ oder „Was bedeutet das?“ – die KI kombiniert Geste, Kontext und Sprache, um die Absicht zu ermitteln.
Pixel in handlungsfähige Entitäten verwandeln: Ein Foto einer handschriftlichen Notiz wird zu einer interaktiven Aufgabenliste; ein pausierter Frame in einem Reisevideo wird zu einem Buchungslink für das gezeigte Restaurant.

Integration in Produkte

DeepMind führt diese Fähigkeiten an zwei Orten ein:

Chrome (Gemini-Integration): Zeigen Sie auf einen Teil einer Webseite und fragen Sie Gemini danach. Beispiel: Wählen Sie einige Produkte aus und bitten Sie um einen Vergleich, oder zeigen Sie auf die Stelle, an der Sie ein neues Sofa visualisieren möchten.
Googlebook (Magic Pointer): Eine bevorstehende Funktion für das Googlebook-Laptop, die Gemini „direkt zur Hand“ für intuitive Interaktionen bringt.

Experimentelle Demos sind auch in Google AI Studio verfügbar, um Bilder zu bearbeiten oder Orte auf einer Karte durch Zeigen und Sprechen zu finden. Das Team testet außerdem zukünftige Konzepte über die Disco-Plattform von Google Labs.

Für wen es gedacht ist: Entwickler, die KI-Agenten-Schnittstellen bauen, UX-Forscher und alle, die an Mensch-KI-Interaktionsmustern arbeiten.

📖 Read the full source: HN AI Agents

Googles DeepMind KI-Zeiger: Die Maus für Gemini-Interaktionen neu gedacht

Vier Interaktionsprinzipien

Integration in Produkte

👀 Siehe auch

Anthropic veröffentlicht Claude Code Remote Control für die mobile Entwicklung

EU-Abonnenten melden nicht offengelegte Nutzungslimits von Claude Pro – Möglicher Verstoß gegen Verbraucherschutzgesetze

Claude Pro-Benutzer dokumentieren chronische Schnittstellen- und Workflow-Probleme

OpenAI entwickelt laut Reuters-Bericht eine GitHub-Alternative