구글 딥마인드 AI 포인터: 제미니 상호작용 마우스 재구상

Google DeepMind가 AI 지원 포인터를 공개했습니다. 이 프로토타입은 기존 마우스 커서에 Gemini 기반의 맥락 인식 기능을 더한 것입니다. 핵심 아이디어: 콘텐츠를 AI 도구 창으로 드래그하는 대신, 사용자는 화면의 무엇이든 가리키며 자연어 명령을 내릴 수 있습니다(예: 건물 이미지를 가리키며 "길찾기 보여줘"라고 말하기). AI는 시각적, 의미적 맥락을 모두 이해하여 픽셀을 실행 가능한 개체(장소, 날짜, 사물)로 취급합니다.

네 가지 상호작용 원칙

흐름 유지: AI는 별도 창이 아닌 모든 앱에서 작동합니다. 예: PDF를 가리키며 불릿 포인트 요약을 이메일에 붙여넣기 요청; 표 위에 마우스를 올리고 원형 차트 요청; 레시피를 강조하며 "모든 재료 두 배로" 요청.
보여주고 말하기: 포인터가 시각+의미 맥락을 포착하므로 상세한 프롬프트가 필요 없습니다. 그냥 가리키면 AI가 관련 단어, 문단, 이미지 부분, 코드 블록을 인식합니다.
'이것'과 '저것'의 힘 활용: "이거 수정해", "저거 여기로 옮겨", "이게 무슨 뜻이야?" 같은 자연스러운 속기를 사용하세요. AI가 제스처, 맥락, 음성을 결합해 의도를 추론합니다.
픽셀을 실행 가능한 개체로 전환: 낙서 메모 사진이 대화형 할 일 목록으로; 여행 비디오의 일시 정지 프레임이 표시된 레스토랑의 예약 링크로 변합니다.

제품 통합

DeepMind는 이 기능을 두 곳에 도입하고 있습니다:

Chrome (Gemini 통합): 웹페이지 부분을 가리키고 Gemini에 질문합니다. 예: 여러 제품을 선택하고 비교 요청, 새 소파를 시각화할 위치를 가리키기.
Googlebook (Magic Pointer): Googlebook 노트북에 곧 제공될 기능으로, Gemini를 "손끝에" 배치하여 직관적인 상호작용을 지원합니다.

Google AI Studio에서는 이미지 편집이나 지도에서 장소 찾기를 위한 실험적 데모도 사용 가능합니다. 또한 Google Labs의 Disco 플랫폼을 통해 미래 개념을 테스트 중입니다.

대상: AI 에이전트 인터페이스를 구축하는 개발자, UX 연구자, 인간-AI 상호작용 패턴을 연구하는 모든 분.

📖 전체 소스 읽기: HN AI Agents