1.2B 로컬 모델 VS 1T 클라우드: 포커 승리 비결

한 개발자가 5개의 텍사스 홀덤 토너먼트에서 16GB MacBook으로 커스텀 프레임워크(Hive)를 사용해 6개의 LLM을 실행했습니다. 참가 모델: Liquid lfm2.5 (1.2B, LM Studio, ~5초/결정), Qwen3 (1.7B, LM Studio, ~2.5분), Claude Haiku 4.5, GPT-OSS (120B, Fireworks), MiniMax M2 (230B, Fireworks), Kimi K2 (~1T, Fireworks). 로컬 모델은 RAM 한계로 인해 순차적으로 실행되었습니다.

결과

토너먼트 1: Qwen (1.7B 로컬)
토너먼트 2: MiniMax (230B 클라우드)
토너먼트 3: Liquid (1.2B 로컬)
토너먼트 4: Kimi (~1T 클라우드)
토너먼트 5: Liquid (1.2B 로컬)

3라운드는 역동성을 잘 보여줍니다: Liquid는 6핸드에서 19번의 레이즈와 0번의 폴드를 수행하며, $1M의 시작 스택을 $5.98M으로 늘렸습니다. 반면 GPT-OSS (120B)는 6핸드에서 0번의 레이즈와 5번의 폴드를 기록하며 블라인드 아웃되었습니다. 이 형식(25핸드, 5K/10K 블라인드 + 1K 앤티)은 사실상 올인 또는 폴드만 가능한 구조로, 이론적인 포커 실력보다 공격성을 보상합니다.

핵심 인사이트

Liquid는 나쁜 핸드를 인식하지 못하기 때문에 모든 것을 레이즈합니다. 상대가 너무 자주 폴드하는 경우, 이는 큰 이익을 가져옵니다. 저자는 다음과 같이 언급합니다: "작은 모델이 포커에서 더 똑똑하다고 주장하는 것이 아닙니다. 이 특정 형식에서, 폴드할 때를 모르는 것이 장점입니다." 더 큰 모델은 약한 핸드를 폴드할 '이해'가 있지만, 숏스택 토너먼트에서는 인내가 불리하게 작용합니다.

다음 단계

핸드 리딩이 중요한 더 긴 토너먼트(100핸드 이상, 낮은 블라인드)를 계획 중입니다. 프레임워크는 커스텀 페르소나(성격 특성, 위험 감수성, 두려움)를 지원합니다. Mistral, Llama, Gemma 3에 대한 요청을 환영합니다. 코드와 전체 결과 JSON은 GitHub에 있습니다: https://github.com/chiruu12/Hive (hive-arena/는 러너용, tournaments/results/는 데이터용).

📖 전체 원문 읽기: r/LocalLLaMA

1.2B 로컬 모델, 1T 클라우드 모델을 포커에서 이기다: 올인 또는 폴드 형식에서 지식보다 공격성

결과

핵심 인사이트

다음 단계

👀 See Also

주간 멀티모달 AI 뉴스: 홀로트론-12B, 네모트론 옴니, 글리프프린터 등

클로드 코드 v2.1.86: 세션 헤더, 메모리 수정 및 토큰 최적화

클로드 오푸스 4.7 분석: 최고 수준의 지능, 그러나 높은 비용과 장황함

AI 에이전트 행동 거버넌스 격차, 썸머 위 이메일 사건으로 드러나