실제 TypeScript 기능 구현에서 8가지 AI 코딩 모델 비교

✍️ OpenClawRadar📅 게시일: March 15, 2026🔗 Source
실제 TypeScript 기능 구현에서 8가지 AI 코딩 모델 비교
Ad

실제 AI 코딩 모델 비교

한 개발자가 기존 TypeScript 프로젝트에서 동일한 실제 기능을 구현하도록 하여 8개의 AI 코딩 모델을 실질적으로 비교했습니다. 목표는 인위적인 벤치마크를 넘어서 실제 코드베이스에서 모델이 어떻게 작동하는지 확인하는 것이었습니다.

테스트 설정

사용된 프로젝트는 grammY 프레임워크로 구축된 오픈소스 TypeScript 봇인 OpenCode 텔레그램 봇으로, 텔레그램 인터페이스를 통해 Opencode 기능을 제공합니다. 이 봇은 i18n 지원과 기존 테스트 커버리지를 갖추고 있습니다.

작업은 현재 작업 세션의 이름을 변경하는 /rename 명령어를 구현하는 것이었습니다. 이 기능은 모든 애플리케이션 계층에 영향을 미치며 여러 예외 사례를 처리해야 합니다. 원래 구현은 평가를 위한 깨끗한 기준선을 제공하기 위해 되돌려졌습니다.

각 모델은 두 단계로 동일한 프롬프트를 받았습니다: 먼저 계획 모드(코드베이스를 연구하고 구현 계획을 수립), 그 다음 코딩 모드입니다. 모든 테스트는 "사고" 모드와 추론이 활성화된 상태에서 Opencode를 사용하여 수행되었습니다.

테스트된 모델

  • Claude 4.6 Sonnet ($3.00 입력/$15.00 출력 per 1M 토큰)
  • Claude 4.6 Opus ($5.00/$25.00)
  • GLM 5 ($1.00/$3.20)
  • Kimi K2.5 ($0.60/$3.00)
  • MiniMax M2.5 ($0.30/$1.20)
  • GPT 5.3 Codex (high) ($1.75/$14.00)
  • GPT 5.4 (high) ($2.50/$15.00)
  • Gemini 3.1 Pro (high) ($2.00/$12.00)

코딩 지수와 에이전트 지수 데이터는 Artificial Analysis에서 제공되었습니다. 모든 모델은 OpenCode 팀의 제공업체인 OpenCode Zen을 통해 접근되었으며, 이는 도구와의 호환성을 위해 모델을 테스트합니다.

Ad

평가 방법론

네 가지 지표가 사용되었습니다:

  • API 비용 ($) - 하위 에이전트를 포함한 작업 중 모든 API 호출의 총 비용
  • 실행 시간 (mm:ss) - 총 모델 작업 시간
  • 구현 정확성 (0-10) - 요구사항 및 예외 사례와 얼마나 잘 일치하는지
  • 기술적 품질 (0-10) - 솔루션의 엔지니어링 품질

정확성과 품질 점수의 경우, 기존 /rename 구현을 사용하여 명령어 통합, 주요 흐름, 오류 처리, 취소, i18n, 문서화, 아키텍처, 상태 관리, 테스트 및 기술 부채를 포함한 상세 평가 기준을 도출했습니다. 평가는 구조화된 루브릭에 대해 GPT-5.3 Codex에 의해 수행되었으며, 여러 실행에서 ±0.5점 이내의 변동이 나타났습니다.

주요 발견 사항

결과는 GPT-5.4 (high)가 에이전트 지수에서 69점 만점에 57점으로 가장 높은 구현 정확성 점수를 달성한 것으로 나타났습니다. GLM 5는 1M 토큰당 $1.00/$3.20의 비용으로 코딩 지수 53점을 기록하며 강력한 비용 대비 성능 비율을 보였습니다. 이 실험은 중국의 저렴한 오픈소스 모델들이 실제 코딩 작업에서 독점 모델에 접근하고 있음을 보여주었지만, 벤치마크만으로는 전체 상황을 설명하지는 못합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

MCP 마켓플레이스, Claude 코드 기능, 보안 스캐닝 및 수익화로 구축됨
Tools

MCP 마켓플레이스, Claude 코드 기능, 보안 스캐닝 및 수익화로 구축됨

한 개발자가 Claude Code를 사용하여 코드베이스의 95%를 작성하여 mcp-marketplace.io를 구축했습니다. 이는 2,200개 이상의 MCP 서버에 대한 보안 스캐닝 기능과 제작자를 위한 수익화 옵션을 갖춘 큐레이팅된 마켓플레이스입니다.

OpenClawRadar
클로드 데스크톱 앱의 협업 기능, 공유 구글 독스를 통한 AI 간 소통 가능
Tools

클로드 데스크톱 앱의 협업 기능, 공유 구글 독스를 통한 AI 간 소통 가능

사용자들이 데스크톱 앱의 새로운 협업 기능을 사용하여 클로드 간 통신을 성공적으로 구현했으며, 두 에이전트가 공유된 Google 문서를 읽고 쓰는 방식으로 진행되었습니다. 이 테스트는 AI 에이전트 간의 질문-답변 대화를 다섯 차례 진행하는 것을 포함했습니다.

OpenClawRadar
Loom: 복잡한 AI 작업을 위한 로컬 실행 하네스
Tools

Loom: 복잡한 AI 작업을 위한 로컬 실행 하네스

Loom은 복잡한 작업을 관리하기 위해 설계된 오픈소스 로컬 실행 하네스로, 약 50개의 도구, 반복 가능한 워크플로우를 위한 커스텀 패키지 플러그인 시스템, CLI 및 MCP 서버 인터페이스를 제공하는 구조화된 프로세스를 제공합니다.

OpenClawRadar
Claude Code v2.1.90은 CLAUDE_CODE_NO_FLICKER 플래그로 마우스 지원을 추가합니다.
Tools

Claude Code v2.1.90은 CLAUDE_CODE_NO_FLICKER 플래그로 마우스 지원을 추가합니다.

Anthropic이 Claude Code v2.1.90을 출시하며 채팅 인터페이스에서 마우스 지원을 가능하게 하는 새로운 기능을 추가했습니다. 사용자는 claude를 실행하기 전에 CLAUDE_CODE_NO_FLICKER=1 환경 변수를 설정하여 이 기능을 활성화할 수 있습니다.

OpenClawRadar