Qwen3 27B vs Gemma 4 26B: AI 도구 호출 성능 비교

주말 동안 All About AI가 100% 로컬 Fireship 스타일 비디오 자동화 파이프라인에 대한 상세 워크스루를 게시했습니다. 주요 발견: 두 테스트 모델 간 도구 호출 신뢰성이 크게 갈렸습니다.

도구 호출: Qwen3 27B 대 Gemma 4 26B

Gemma 4 26B는 반복적으로 도구 호출 루프에 빠져 불필요한 추론에 토큰을 낭비했습니다. Qwen3(특히 Qwen 3.6 27B?)는 동일한 오케스트레이션을 깔끔하게 처리했으며 낭비된 생각 토큰이 없었습니다. 벤치마크 수치와 실제 에이전트 워크플로 성능 사이의 격차는 상당합니다. 도구 호출 루프는 시간과 GPU 메모리를 모두 소모합니다.

도구 호출 스택(OpenClaw, Aider 또는 사용자 정의 루프)을 실행 중이라면 모델 선택이 합성 벤치마크가 암시하는 것보다 더 중요합니다. 작성자는 특정 스택에서 Qwen3 도구 호출 대 DeepSeek V4의 실패율 수치를 명시적으로 요청합니다.

이미지 생성: Said Image Turbo

이미지의 경우 파이프라인은 Hugging Face의 Said Image Turbo를 사용했습니다. 오픈 가중치, API 비용 없음. 밈 스타일 카드에는 잘 작동하지만 인물 사진에는 Flux나 Seedream을 호출하는 것이 좋습니다.

오케스트레이션: 174K 컨텍스트의 OpenCode

전체 파이프라인은 OpenCode로 오케스트레이션되었습니다. 컨텍스트 창이 174K 토큰에 도달했으며 할 일 목록이 한 번에 완료되지는 않았습니다. 운영자가 중간에 자리를 비우고 돌아왔을 때 부분적인 결과만 있었습니다. 이는 자율 AI 도구의 현재 상태를 솔직하게 보여줍니다.