Googles DeepMind KI-Zeiger: Die Maus für Gemini-Interaktionen neu gedacht
Google DeepMind hat den KI-gesteuerten Zeiger vorgestellt, einen Prototypen, der den traditionellen Mauscursor mit Gemini-gestützter Kontexterkennung erweitert. Die Kernidee: Anstatt Inhalte in das Fenster eines KI-Tools zu ziehen, können Benutzer auf alles auf dem Bildschirm zeigen und einen Befehl in natürlicher Sprache geben (z. B. auf ein Gebäudebild zeigen und „Zeig mir den Weg“ sagen). Die KI versteht sowohl den visuellen als auch den semantischen Kontext und behandelt Pixel als handlungsfähige Entitäten (Orte, Daten, Objekte).
Vier Interaktionsprinzipien
- Den Fluss beibehalten: Die KI arbeitet app-übergreifend, nicht in einem separaten Fenster. Beispiele: auf ein PDF zeigen und eine Aufzählungspunkt-Zusammenfassung für eine E-Mail anfordern; über eine Tabelle fahren und ein Kreisdiagramm verlangen; ein Rezept hervorheben und „alle Zutaten verdoppeln“ sagen.
- Zeigen und Sagen: Der Zeiger erfasst den visuellen und semantischen Kontext, sodass Sie keine detaillierte Aufforderung benötigen. Zeigen Sie einfach, und die KI weiß, welches Wort, welcher Absatz, welcher Bildteil oder welcher Codeblock relevant ist.
- Die Macht von „Dies“ und „Das“ nutzen: Verwenden Sie natürliche Kurzformen wie „Behebe dies“, „Bewege das dorthin“ oder „Was bedeutet das?“ – die KI kombiniert Geste, Kontext und Sprache, um die Absicht zu ermitteln.
- Pixel in handlungsfähige Entitäten verwandeln: Ein Foto einer handschriftlichen Notiz wird zu einer interaktiven Aufgabenliste; ein pausierter Frame in einem Reisevideo wird zu einem Buchungslink für das gezeigte Restaurant.
Integration in Produkte
DeepMind führt diese Fähigkeiten an zwei Orten ein:
- Chrome (Gemini-Integration): Zeigen Sie auf einen Teil einer Webseite und fragen Sie Gemini danach. Beispiel: Wählen Sie einige Produkte aus und bitten Sie um einen Vergleich, oder zeigen Sie auf die Stelle, an der Sie ein neues Sofa visualisieren möchten.
- Googlebook (Magic Pointer): Eine bevorstehende Funktion für das Googlebook-Laptop, die Gemini „direkt zur Hand“ für intuitive Interaktionen bringt.
Experimentelle Demos sind auch in Google AI Studio verfügbar, um Bilder zu bearbeiten oder Orte auf einer Karte durch Zeigen und Sprechen zu finden. Das Team testet außerdem zukünftige Konzepte über die Disco-Plattform von Google Labs.
Für wen es gedacht ist: Entwickler, die KI-Agenten-Schnittstellen bauen, UX-Forscher und alle, die an Mensch-KI-Interaktionsmustern arbeiten.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Anthropic veröffentlicht Claude Code Remote Control für die mobile Entwicklung
Anthropic hat Remote Control eingeführt, eine Funktion, die es Claude Code-Benutzern ermöglicht, ihre lokalen Entwicklungssitzungen von Mobilgeräten aus zu steuern. Zunächst für Claude Max-Abonnenten verfügbar, erfordert sie Version 2.1.52 und verwendet einen QR-Code zur Synchronisierung der Sitzungen.

EU-Abonnenten melden nicht offengelegte Nutzungslimits von Claude Pro – Möglicher Verstoß gegen Verbraucherschutzgesetze
Ein Reddit-Beitrag beschreibt, wie das Marketing von Claude Pro zwar „keine Grenzen“ verspricht, EU-Nutzer aber mit Zusatzkosten konfrontiert werden und nicht offengelegte Sitzungslimits bestehen, was möglicherweise gegen EU-Verbraucherrichtlinien verstößt.

Claude Pro-Benutzer dokumentieren chronische Schnittstellen- und Workflow-Probleme
Ein langjähriger Claude Pro-Abonnent beschreibt fünf anhaltende Probleme: Dateizerstörung bei Korrekturen, fehlende Versionsverwaltung, Gedächtnisverlust nach Kontextkomprimierung, inkonsistente Entscheidungsfindung und ignorierte Benutzereinstellungen. Der Nutzer berichtet, dass diese Probleme trotz expliziter Anweisungen im Einstellungsbereich von Claude auftreten.

OpenAI entwickelt laut Reuters-Bericht eine GitHub-Alternative
Reuters berichtet, dass OpenAI eine Alternative zu Microsofts GitHub entwickelt, wobei die Geschichte auf Hacker News 35 Punkte und 12 Kommentare erhielt.