오픈소스 LLM, 10배 비싼 Claude Opus 4.6 제치고 트레이딩 전략 1위

r/LocalLLaMA의 한 레딧 사용자가 트레이딩 전략 생성 성능을 평가하기 위해 10가지 대규모 언어 모델을 비교 테스트했습니다. 결과는 상용 LLM의 비용 대비 성능 관계에 대한 기존 가정에 의문을 제기합니다.

테스트 방법론 및 모델

사용자는 동일한 프롬프트("최고의 트레이딩 전략을 생성하라")로 10개의 LLM을 실행했습니다. 테스트된 모델은 다음과 같습니다:

Claude Opus 4.6
Gemini 3, 3.1 Pro, GPT-5.2
Gemini Flash 3, GPT-5-mini, Kimi K2.5, Minimax 2.5

결과의 일관성을 확인하기 위해 테스트는 세 번 반복 실행되었습니다.

주요 발견 사항

출처에 따르면:

Minimax 2.5와 Gemini 3.1이 리더보드 상위를 차지
Anthropic 모델들(Opus 4.6 포함)은 "부진한" 성능을 보이며 상위 4위 안에 들지 못함
Claude Opus 4.6은 경쟁 모델보다 10배 더 비쌈
오픈소스 모델들은 Anthropic과 Google 모델들보다 훨씬 느렸음

사용자는 결과에 대한 초기 회의론을 언급하며 "솔직히, 처음 이 테스트를 했을 때 결과를 믿지 못했습니다"라고 말했습니다. 검증 후 그들은 "결과는 정확합니다"라고 결론지었습니다.

실질적 함의

AI 코딩 에이전트를 사용하는 개발자들에게 이는 트레이딩 전략 생성과 같은 특정 전문 작업에 대해 오픈소스 모델이 훨씬 낮은 비용으로 더 나은 성능을 제공할 수 있음을 시사합니다. 주목된 주요 절충점은 속도입니다 - 오픈소스 모델들은 Anthropic과 Google의 상용 대안들보다 "훨씬 느렸습니다".

사용자의 결론은 직설적이었습니다: "그 점을 제외하면, 이 작업에 Opus나 Sonnet을 사용할 큰 이유가 없습니다."

📖 Read the full source: r/LocalLLaMA