로컬 AI 비디오 파이프라인을 위한 실제 도구 호출에서 Qwen3 27B가 Gemma 4 26B를 능가
주말 동안 All About AI가 100% 로컬 Fireship 스타일 비디오 자동화 파이프라인에 대한 상세 워크스루를 게시했습니다. 주요 발견: 두 테스트 모델 간 도구 호출 신뢰성이 크게 갈렸습니다.
도구 호출: Qwen3 27B 대 Gemma 4 26B
Gemma 4 26B는 반복적으로 도구 호출 루프에 빠져 불필요한 추론에 토큰을 낭비했습니다. Qwen3(특히 Qwen 3.6 27B?)는 동일한 오케스트레이션을 깔끔하게 처리했으며 낭비된 생각 토큰이 없었습니다. 벤치마크 수치와 실제 에이전트 워크플로 성능 사이의 격차는 상당합니다. 도구 호출 루프는 시간과 GPU 메모리를 모두 소모합니다.
도구 호출 스택(OpenClaw, Aider 또는 사용자 정의 루프)을 실행 중이라면 모델 선택이 합성 벤치마크가 암시하는 것보다 더 중요합니다. 작성자는 특정 스택에서 Qwen3 도구 호출 대 DeepSeek V4의 실패율 수치를 명시적으로 요청합니다.
이미지 생성: Said Image Turbo
이미지의 경우 파이프라인은 Hugging Face의 Said Image Turbo를 사용했습니다. 오픈 가중치, API 비용 없음. 밈 스타일 카드에는 잘 작동하지만 인물 사진에는 Flux나 Seedream을 호출하는 것이 좋습니다.
오케스트레이션: 174K 컨텍스트의 OpenCode
전체 파이프라인은 OpenCode로 오케스트레이션되었습니다. 컨텍스트 창이 174K 토큰에 도달했으며 할 일 목록이 한 번에 완료되지는 않았습니다. 운영자가 중간에 자리를 비우고 돌아왔을 때 부분적인 결과만 있었습니다. 이는 자율 AI 도구의 현재 상태를 솔직하게 보여줍니다.
원격 실행
로컬에서 27B 모델을 실행할 수 없다면 Qwen3는 여러 추론 공급자에서 사용 가능하므로 GPU 선투자 없이 동일한 가중치와 도구 호출 동작을 얻을 수 있습니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

Synthetic이 주요 가격 구조 조정과 함께 상당한 속도 제한 변경을 발표합니다.
Synthetic는 표준 및 프로 등급을 월 30달러의 구독 팩으로 대체하며, 팩당 5시간 동안 135개의 메시지를 제공합니다. 기존 프로 사용자는 동일한 월 60달러 요금으로 5시간당 1,250개의 메시지에서 335개의 메시지로 줄어듭니다.

클로드, 정부와의 대립 속에서 앱스토어 차트 정상에
Anthropic의 Claude 앱이 미국 앱 스토어의 최다 다운로드 차트에서 42위에서 1위로 급상승했으며, ChatGPT와 Gemini가 각각 2위와 3위를 차지했습니다. 이 급증은 AI 기술의 군사 및 감시 사용에 관한 Anthropic과 미국 정부 간의 공개적인 불일치에 이어 발생했습니다.

클로드 스킬, 창작자에게 사업 모델이 없다 — 개발자의 딜레마
Reddit 게시글에서 Claude 스킬 제작자가 수익을 올릴 수 없다는 점이 강조되었습니다. Anthropic은 훌륭한 런타임을 제공했지만 크리에이터 경제 레이어는 제공하지 않았습니다. 개발자들은 주말을 바쳐 도구를 만들지만, 이 도구들은 결국 미래 릴리스에 흡수됩니다.

AI 에이전트 마켓플레이스 테스트: ClawGig, RentAHuman 및 OpenClaw 기반 설정의 실제 결과
한 개발자가 여러 AI 에이전트 마켓플레이스를 테스트한 결과, ClawGig의 에이전트는 응답이 없고 평판 점수가 조작된 것으로 나타났으며, RentAHuman의 에이전트는 일관된 대화를 유지하지 못했습니다. 반면 OpenClaw 기반의 독립적인 설정은 유망했지만 발견 가능성이 부족했습니다.