주간 멀티모달 AI 뉴스: 홀로트론-12B, 네모트론 옴니, 글리프프린터 등

✍️ OpenClawRadar📅 게시일: March 25, 2026🔗 Source
주간 멀티모달 AI 뉴스: 홀로트론-12B, 네모트론 옴니, 글리프프린터 등
Ad

오픈 멀티모달 AI 발전

지난 주 r/LocalLLaMA에서 선별한 주요 오픈소스 멀티모달 AI 출시 및 프로젝트입니다.

Holotron-12B

Holotron-12B는 Hugging Face에서 이용 가능한 오픈 컴퓨터 사용 에이전트 모델입니다. 처리량과 긴 다중 이미지 컨텍스트에 최적화되어 있으며, 폐쇄형 API를 넘어 컴퓨터 사용 에이전트 생태계를 위한 오픈 대안으로 기능합니다.

NVIDIA Nemotron Omni + Isaac GR00T N1.7

NVIDIA는 언어, 비전, 음성을 하나의 스택으로 통합한 오픈 Nemotron 3 omni 모델을 출시했습니다. GR00T N1.7은 로봇 공학 응용 프로그램을 위해 특별히 설계된 비전-언어-행동 모델입니다.

GlyphPrinter

GlyphPrinter는 Region-Grouped Direct Preference Optimization을 사용하여 AI 이미지 생성기의 텍스트 렌더링 정확도를 해결합니다. 예술적 스타일링과 정확한 텍스트 렌더링의 균형을 맞추며 오픈 가중치를 제공합니다. 이 접근 방식은 생성된 이미지의 지역화된 맞춤법 오류를 수정합니다.

SparkVSR

Google의 비디오 초해상도 모델은 비디오 품질과 선명도를 향상시킵니다. 이 프로젝트는 AI 처리를 통해 비디오 해상도를 개선하는 데 중점을 둡니다.

SegviGen

SegviGen은 3D 이미지 생성기를 재활용하여 색상화를 통해 3D 객체 세분화를 가능하게 합니다. 이 방법은 세분화를 색상화 작업으로 구성하며, 이전 방법에 필요한 훈련 데이터의 1% 미만을 사용한다고 보고됩니다. 이 프로젝트에는 오픈 코드와 데모가 포함되어 있습니다.

OpenMAIC

OpenMAIC(다중 에이전트 대화형 교실)는 모든 주제나 문서를 AI 교사와 급우가 있는 대화형 교실로 전환합니다. 다중 에이전트 오케스트레이션을 사용하여 슬라이드, 퀴즈, 시뮬레이션 및 토론을 생성합니다.

SkillNet

SkillNet는 대규모로 AI 에이전트 기술을 생성, 평가 및 조직하기 위한 오픈 인프라를 제공합니다. 이 시스템은 에이전트가 일시적인 경험에서 지속적인 숙달로 전환할 수 있도록 합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

OpenClaw, 첫 AMA 개최: AI 코딩 에이전트에 대한 통찰
News

OpenClaw, 첫 AMA 개최: AI 코딩 에이전트에 대한 통찰

AI 코딩 에이전트 분야의 주요 인물인 OpenClaw가 레딧에서 첫 AMA를 개최했습니다. 이 논의는 그 영향력, 향후 계획 및 과제에 대한 빛을 비추었습니다.

OpenClawRadar
SDNY 법원, AI 생성 법률 문서는 특권 보호 대상 아니다 판결
News

SDNY 법원, AI 생성 법률 문서는 특권 보호 대상 아니다 판결

제드 S. 라코프 판사는 Anthropic의 Claude AI 도구를 사용해 생성된 31개의 문서가 변호인-의뢰인 특권이나 작업 산물 원칙에 의해 보호받지 않는다고 판결했으며, 이는 AI 생성 법률 자료에 대한 첫 번째 법원 결정으로 기록됐습니다.

OpenClawRadar
클로드 섀넌의 1950년 체스 논문, 생성형 AI의 핵심 문제를 예측하다: 추측 대 앎
News

클로드 섀넌의 1950년 체스 논문, 생성형 AI의 핵심 문제를 예측하다: 추측 대 앎

1950년 섀넌의 체스 논문은 불확실성 속에서 '그럭저럭 괜찮은' 결정을 내리는 AI의 핵심 과제를 제시했습니다. 오늘날 생성형 AI가 정제되었지만 틀린 답을 내놓을 때 직면하는 문제가 바로 이것입니다.

OpenClawRadar
유출된 클로드 코드로 드러난 KAIROS 시스템과 AI 에이전트의 검증 격차
News

유출된 클로드 코드로 드러난 KAIROS 시스템과 AI 에이전트의 검증 격차

유출된 Claude Code 소스 맵에서 512K 줄의 TypeScript 코드, 44개의 기능 플래그, 그리고 KAIROS라는 유휴 시간 동안 메모리를 통합하는 백그라운드 에이전트가 드러났습니다. 한 독립 개발자가 멀티데이 캠페인을 위해 세션을 연결하는 유사한 데몬을 구축했지만, 성공적인 컴파일이 기능적인 코드를 보장하지 않는다는 사실을 발견했습니다.

OpenClawRadar