1.2B 로컬 모델, 1T 클라우드 모델을 포커에서 이기다: 올인 또는 폴드 형식에서 지식보다 공격성

한 개발자가 5개의 텍사스 홀덤 토너먼트에서 16GB MacBook으로 커스텀 프레임워크(Hive)를 사용해 6개의 LLM을 실행했습니다. 참가 모델: Liquid lfm2.5 (1.2B, LM Studio, ~5초/결정), Qwen3 (1.7B, LM Studio, ~2.5분), Claude Haiku 4.5, GPT-OSS (120B, Fireworks), MiniMax M2 (230B, Fireworks), Kimi K2 (~1T, Fireworks). 로컬 모델은 RAM 한계로 인해 순차적으로 실행되었습니다.
결과
- 토너먼트 1: Qwen (1.7B 로컬)
- 토너먼트 2: MiniMax (230B 클라우드)
- 토너먼트 3: Liquid (1.2B 로컬)
- 토너먼트 4: Kimi (~1T 클라우드)
- 토너먼트 5: Liquid (1.2B 로컬)
3라운드는 역동성을 잘 보여줍니다: Liquid는 6핸드에서 19번의 레이즈와 0번의 폴드를 수행하며, $1M의 시작 스택을 $5.98M으로 늘렸습니다. 반면 GPT-OSS (120B)는 6핸드에서 0번의 레이즈와 5번의 폴드를 기록하며 블라인드 아웃되었습니다. 이 형식(25핸드, 5K/10K 블라인드 + 1K 앤티)은 사실상 올인 또는 폴드만 가능한 구조로, 이론적인 포커 실력보다 공격성을 보상합니다.
핵심 인사이트
Liquid는 나쁜 핸드를 인식하지 못하기 때문에 모든 것을 레이즈합니다. 상대가 너무 자주 폴드하는 경우, 이는 큰 이익을 가져옵니다. 저자는 다음과 같이 언급합니다: "작은 모델이 포커에서 더 똑똑하다고 주장하는 것이 아닙니다. 이 특정 형식에서, 폴드할 때를 모르는 것이 장점입니다." 더 큰 모델은 약한 핸드를 폴드할 '이해'가 있지만, 숏스택 토너먼트에서는 인내가 불리하게 작용합니다.
다음 단계
핸드 리딩이 중요한 더 긴 토너먼트(100핸드 이상, 낮은 블라인드)를 계획 중입니다. 프레임워크는 커스텀 페르소나(성격 특성, 위험 감수성, 두려움)를 지원합니다. Mistral, Llama, Gemma 3에 대한 요청을 환영합니다. 코드와 전체 결과 JSON은 GitHub에 있습니다: https://github.com/chiruu12/Hive (hive-arena/는 러너용, tournaments/results/는 데이터용).
📖 전체 원문 읽기: r/LocalLLaMA
👀 See Also

클로드 앱, 펜타곤 분쟁 이후 미국 앱스토어 2위로 랭크
Anthropic의 Claude 챗봇 앱이 애플 미국 앱스토어 무료 앱 순위에서 2위로 올라섰습니다. 2026년 1월 말에는 100위권 밖이었으나 2월 말까지 2위로 급상승했습니다. 이 급등세는 회사의 국방부와 AI 사용 제한에 관한 공개 협상 이후에 나타났습니다.

남아프리카 공화국 내무부 공무원 2명, 정책 보고서 AI 환각 문제로 정직
남아프리카공화국 내무부는 시민권, 이민, 난민 보호에 관한 개정 백서의 참고문헌 목록에서 AI 환각 현상이 발견된 후 두 명의 관리를 정직했습니다. 부서는 AI 검사를 시행하고 2022년 11월 이후의 모든 정책 문서를 검토할 예정입니다.

신경과학에서 영감을 받은 AI 에이전트 메모리 아키텍처, Claude의 자동 꿈 기능으로 검증됨
개발자가 신경과학에서 영감을 받아 설계한 AI 에이전트용 메모리 아키텍처는 수면 주기 통합과 세 가지 특화 에이전트를 특징으로 하며, 최근 공개된 Claude의 Auto-dream 기능과 밀접하게 일치합니다. 이 기능은 메모리 파일에 대한 반성적 검토를 수행합니다.

Claude Pro 구독 버그: 유료 사용자가 무료 요금제에 갇힘
선물 패스를 사용한 후 Claude Pro의 버그로 인해 결제 및 영수증이 정상 처리되었음에도 불구하고 계정이 Free 상태로 고정됩니다. Anthropic 지원팀이 일주일째 응답하지 않고 있습니다.