마이크로소프트, 훈련 인사이트와 함께 Phi-4-reasoning-vision-15B 멀티모달 모델 공개

모델 개요 및 이용 가능성
Phi-4-reasoning-vision-15B는 Microsoft Foundry, HuggingFace, GitHub를 통해 이용 가능한 150억 개 파라미터의 오픈 웨이트 멀티모달 추론 모델입니다. 추론 능력, 효율성, 훈련 데이터 요구사항을 균형 있게 조화시킨 컴팩트한 모델로 설계되었습니다.
능력 및 성능
이 모델은 이미지 캡션 작성, 이미지에 관한 질문하기, 문서 및 영수증 읽기, 숙제 도움, 이미지 시퀀스 변화 추론을 포함한 다양한 비전-언어 작업을 처리합니다. 특히 수학 및 과학 추론과 컴퓨터 및 모바일 화면 요소 이해 및 그라운딩에서 탁월한 성능을 보입니다.
성능 벤치마크는 10배 이상의 컴퓨팅 시간과 토큰이 필요한 더 느린 모델들과 비교해 경쟁력 있는 결과를 보여주며, 수학 및 과학 추론에서 유사하게 빠른 모델들보다 더 나은 정확도를 보입니다. 사용된 벤치마크에는 ChartQA_TEST, MathVista_MINI, MMMU_VAL, ScreenSpot_v2가 포함됩니다.
훈련 접근법 및 효율성
이 모델은 Phi-4(4000억 개 고유 토큰)를 기반으로 한 Phi-4-reasoning(160억 개 토큰으로 훈련됨)을 활용하여, 단 2000억 개의 멀티모달 데이터 토큰으로 훈련되었습니다. 이는 Qwen 2.5 VL, Qwen 3 VL, Kimi-VL, Gemma3와 같은 다른 멀티모달 모델 훈련에 사용된 1조 개 이상의 토큰과 비교됩니다.
마이크로소프트는 신중한 아키텍처 선택, 엄격한 데이터 큐레이션, 추론 및 비추론 데이터 혼합 사용을 이 모델 훈련의 핵심 교훈으로 강조합니다. 이 접근법은 정확도와 컴퓨팅 비용 간 트레이드오프의 파레토 프론티어를 확장하는 것을 목표로 합니다.
목표 사용 사례
이 모델은 더 작고 빠른 비전-언어 모델이 필요한 자원 제약 또는 상호작용 환경을 위해 고안되었습니다. 구조화된 추론 능력을 유지하면서도 적당한 하드웨어에서 실행할 수 있을 만큼 가볍습니다.
📖 전체 출처 읽기: HN AI Agents
👀 See Also

'클라우지' 분석: AI 구독 모델에서 나타나는 사용자 불안 패턴
사용자 분석에서 '클로지' 또는 '클로드 증후군'이 확인되었습니다. 이는 프리미엄 AI 구독자들이 경험하는 만성적인 사용 불안, 회피 행동, 강박적인 리소스 모니터링과 같은 행동 패턴입니다. 출처는 예상 회피, 사용 과잉 경계, 유료 서비스의 역설적 저활용과 같은 구체적인 증상을 상세히 설명합니다.

Anthropic, 모델 버전 고정 기능을 제거해 클라이언트 애플리케이션에 차질
Anthropic은 claude-sonnet-4-5-20250929 모델을 지원 중단하고 사용자들을 claude-sonnet-4-6으로 강제 이전시키고 있습니다. 이 모델은 항상 최신 버전을 참조하며 특정 버전을 고정할 수 있는 방법이 없습니다. 이는 모델 버전이 변경될 때 클라이언트 애플리케이션이 예측 불가능하게 중단될 수 있음을 의미합니다.

할리우드 작가들, AI 훈련으로 전환: 데이터 주석 작업의 1인칭 증언
할리우드 쇼러너가 2023년 파업 이후 시간당 52달러에 AI 훈련 작업으로 전환해 Mercor, Outlier 같은 회사를 위해 대화, 이미지, 비디오에 주석을 다는 과정을 설명합니다.

Claude.ai에서 오류 증가 및 로그인 문제 발생 중
Claude.ai가 플랫폼에 영향을 미치는 오류 증가를 보고하고 있으며, 특히 Claude Code의 로그인 문제가 포함됩니다. 이 사건은 2026년 3월 11일 17:19:35 UTC에 공식적으로 게시되었습니다.