AI 코딩 모델 8종 비교: TypeScript 기능 구현 성능

실제 AI 코딩 모델 비교

한 개발자가 기존 TypeScript 프로젝트에서 동일한 실제 기능을 구현하도록 하여 8개의 AI 코딩 모델을 실질적으로 비교했습니다. 목표는 인위적인 벤치마크를 넘어서 실제 코드베이스에서 모델이 어떻게 작동하는지 확인하는 것이었습니다.

테스트 설정

사용된 프로젝트는 grammY 프레임워크로 구축된 오픈소스 TypeScript 봇인 OpenCode 텔레그램 봇으로, 텔레그램 인터페이스를 통해 Opencode 기능을 제공합니다. 이 봇은 i18n 지원과 기존 테스트 커버리지를 갖추고 있습니다.

작업은 현재 작업 세션의 이름을 변경하는 /rename 명령어를 구현하는 것이었습니다. 이 기능은 모든 애플리케이션 계층에 영향을 미치며 여러 예외 사례를 처리해야 합니다. 원래 구현은 평가를 위한 깨끗한 기준선을 제공하기 위해 되돌려졌습니다.

각 모델은 두 단계로 동일한 프롬프트를 받았습니다: 먼저 계획 모드(코드베이스를 연구하고 구현 계획을 수립), 그 다음 코딩 모드입니다. 모든 테스트는 "사고" 모드와 추론이 활성화된 상태에서 Opencode를 사용하여 수행되었습니다.

테스트된 모델

Claude 4.6 Sonnet ($3.00 입력/$15.00 출력 per 1M 토큰)
Claude 4.6 Opus ($5.00/$25.00)
GLM 5 ($1.00/$3.20)
Kimi K2.5 ($0.60/$3.00)
MiniMax M2.5 ($0.30/$1.20)
GPT 5.3 Codex (high) ($1.75/$14.00)
GPT 5.4 (high) ($2.50/$15.00)
Gemini 3.1 Pro (high) ($2.00/$12.00)

코딩 지수와 에이전트 지수 데이터는 Artificial Analysis에서 제공되었습니다. 모든 모델은 OpenCode 팀의 제공업체인 OpenCode Zen을 통해 접근되었으며, 이는 도구와의 호환성을 위해 모델을 테스트합니다.

평가 방법론

네 가지 지표가 사용되었습니다:

API 비용 ($) - 하위 에이전트를 포함한 작업 중 모든 API 호출의 총 비용
실행 시간 (mm:ss) - 총 모델 작업 시간
구현 정확성 (0-10) - 요구사항 및 예외 사례와 얼마나 잘 일치하는지
기술적 품질 (0-10) - 솔루션의 엔지니어링 품질

정확성과 품질 점수의 경우, 기존 /rename 구현을 사용하여 명령어 통합, 주요 흐름, 오류 처리, 취소, i18n, 문서화, 아키텍처, 상태 관리, 테스트 및 기술 부채를 포함한 상세 평가 기준을 도출했습니다. 평가는 구조화된 루브릭에 대해 GPT-5.3 Codex에 의해 수행되었으며, 여러 실행에서 ±0.5점 이내의 변동이 나타났습니다.

주요 발견 사항

결과는 GPT-5.4 (high)가 에이전트 지수에서 69점 만점에 57점으로 가장 높은 구현 정확성 점수를 달성한 것으로 나타났습니다. GLM 5는 1M 토큰당 $1.00/$3.20의 비용으로 코딩 지수 53점을 기록하며 강력한 비용 대비 성능 비율을 보였습니다. 이 실험은 중국의 저렴한 오픈소스 모델들이 실제 코딩 작업에서 독점 모델에 접근하고 있음을 보여주었지만, 벤치마크만으로는 전체 상황을 설명하지는 못합니다.

📖 Read the full source: r/LocalLLaMA