Phi-4-reasoning-vision-15B 공개: 오픈 웨이트 멀티모달 추론 모델

모델 개요 및 이용 가능성

Phi-4-reasoning-vision-15B는 Microsoft Foundry, HuggingFace, GitHub를 통해 이용 가능한 150억 개 파라미터의 오픈 웨이트 멀티모달 추론 모델입니다. 추론 능력, 효율성, 훈련 데이터 요구사항을 균형 있게 조화시킨 컴팩트한 모델로 설계되었습니다.

능력 및 성능

이 모델은 이미지 캡션 작성, 이미지에 관한 질문하기, 문서 및 영수증 읽기, 숙제 도움, 이미지 시퀀스 변화 추론을 포함한 다양한 비전-언어 작업을 처리합니다. 특히 수학 및 과학 추론과 컴퓨터 및 모바일 화면 요소 이해 및 그라운딩에서 탁월한 성능을 보입니다.

성능 벤치마크는 10배 이상의 컴퓨팅 시간과 토큰이 필요한 더 느린 모델들과 비교해 경쟁력 있는 결과를 보여주며, 수학 및 과학 추론에서 유사하게 빠른 모델들보다 더 나은 정확도를 보입니다. 사용된 벤치마크에는 ChartQA_TEST, MathVista_MINI, MMMU_VAL, ScreenSpot_v2가 포함됩니다.

훈련 접근법 및 효율성

이 모델은 Phi-4(4000억 개 고유 토큰)를 기반으로 한 Phi-4-reasoning(160억 개 토큰으로 훈련됨)을 활용하여, 단 2000억 개의 멀티모달 데이터 토큰으로 훈련되었습니다. 이는 Qwen 2.5 VL, Qwen 3 VL, Kimi-VL, Gemma3와 같은 다른 멀티모달 모델 훈련에 사용된 1조 개 이상의 토큰과 비교됩니다.

마이크로소프트는 신중한 아키텍처 선택, 엄격한 데이터 큐레이션, 추론 및 비추론 데이터 혼합 사용을 이 모델 훈련의 핵심 교훈으로 강조합니다. 이 접근법은 정확도와 컴퓨팅 비용 간 트레이드오프의 파레토 프론티어를 확장하는 것을 목표로 합니다.