오픈소스 vs 프런티어 모델: 단일 파일 캔버스 자동차 장면 벤치마크

한 개발자가 12개 모델에 동일한 단일 파일 Canvas 프롬프트를 실행하여 현실적인 측면 자동차 주행 장면에서 오픈소스 모델과 최첨단 모델의 성능을 비교했습니다. 작업 조건: 하나의 독립적인 HTML 파일, 라이브러리나 외부 에셋 없음, 시차 배경, 회전하는 바퀴, 미묘한 차체 움직임, 영화 같은 조명, 끊김 없는 반복. 테스트 도구는 OpenCodeOrchestra이며, 결과는 oco-canvas-car-scene-compare에서 확인할 수 있습니다.
테스트된 모델
각 모델은 격리된 Orchestrator에서 가능한 가장 높은 사고/노력 설정으로 실행되었습니다. 목록에는 GPT-5.5 xhigh, GPT-5.4 xhigh, Claude Opus 4.7 (최대 노력), Claude Opus 4.6 (최대 노력), Claude Sonnet 4.6 (높은 노력), Kimi K2.6, DeepSeek V4 Pro, DeepSeek V4 Flash, GLM-5.1, MiniMax M2.7, Qwen 3.6 Plus, Grok 4.3이 포함됩니다. 토큰/초 및 생성 시간은 측정되지 않았습니다.
주요 발견 사항
- 일부 모델은 내부적으로 감사 모델을 사용했고, 그렇지 않은 모델도 있었습니다.
- 갤러리에서 명확한 승자와 모호한 결과를 확인할 수 있습니다.
- MiMo V2.5 Pro는 OpenCode Go 구독의 청구 문제로 제외되었습니다.
갤러리 페이지에서는 각 모델의 출력을 나란히 비교할 수 있습니다. 소스 코드는 GitHub의 AidenGeunGeun/oco-canvas-car-scene-compare에서 확인할 수 있습니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

나노 네이티브 마켓플레이스, 나노바자르가 자율 에이전트 협업의 길을 열다
나노네이티브 마켓플레이스인 NanoBazaar는 AI 코딩 에이전트가 자율적이고 효율적으로 협업할 수 있도록 하여 에이전트 간 작업을 혁신합니다. 이 혁신적인 플랫폼이 기계 주도 거래를 어떻게 가능하게 하는지 알아보세요.

Claude Code v2.1.121: MCP alwaysLoad, 플러그인 정리, 터미널 스크롤 수정, 메모리 누수 패치
Claude Code v2.1.121은 MCP 서버에 alwaysLoad, 플러그인 prune 명령어, /skills의 입력 필터, PostToolUse 출력 교체, 터미널 스크롤 및 URL 수정, 그리고 다수의 이미지 처리 시 멀티 GB RSS 증가를 포함한 여러 메모리 누수 수정을 추가했습니다.

머린 리서치가 구조적 추론을 위한 Qwen3.5-4B-Safety-Thinking 모델을 출시합니다.
Merlin Research가 Qwen3.5 기반으로 구축된 40억 파라미터의 안전 정렬 추론 모델인 Qwen3.5-4B-Safety-Thinking을 공개했습니다. 이 모델은 에이전트 시스템을 포함한 실제 시나리오에서 구조화된 '사고'와 안전성을 위해 설계되었습니다.

바이브 코딩 vs 에이전틱 엔지니어링: 경계선이 불편해지고 있다
Simon Willison은 자신의 작업 흐름에서 바이브 코딩과 에이전틱 엔지니어링이 어떻게 수렴하고 있는지 반성하며, 이제는 Claude Code가 작성한 프로덕션 JSON API 엔드포인트의 모든 코드를 검토하지 않고 신뢰하게 되었다고 말합니다. 이상한 느낌이 든다고 합니다.