Codestrap 창립자들, AI 코딩 지표 비판하며 품질 문제 경고

AI 자문 서비스 Codestrap의 창립자 도리안 스마일리와 코너 딕스는 기업 조직들이 참조 아키텍처나 사용 사례에 대한 확립된 플레이북이 없어 AI를 효과적으로 도입하는 데 어려움을 겪고 있다고 주장합니다. 그들은 많은 회사들이 실제 영향력을 측정할 적절한 피드백 루프가 부족한 채 AI 전략을 갖춘 척하고 있다고 말합니다.
문제적인 지표와 결함 있는 결과
스마일리는 현재 AI 코딩 평가가 잘못된 지표에 초점을 맞추고 있다고 말합니다: "코드 라인 수, [풀 리퀘스트] 건수, 이들은 부채입니다. 이는 엔지니어링 우수성의 척도가 아닙니다." 그는 배포 빈도, 프로덕션까지의 리드 타임, 변경 실패율, 평균 복구 시간, 인시던트 심각도를 적절한 엔지니어링 지표로 꼽습니다.
잘못된 측정의 결과를 설명하기 위해 스마일리는 최근 AI를 사용해 SQLite를 Rust로 재작성한 시도를 인용합니다: "모든 단위 테스트를 통과했고, 코드 구조는 올바르게 보입니다. 하지만 실제 SQLite보다 3.7배 더 많은 코드 라인 수를 가지면서 성능은 2,000배나 떨어집니다. 데이터베이스에서 2,000배나 나쁜 성능은 실행 불가능한 제품입니다."
기본적인 LLM의 한계
딕스는 현재 LLM 기술의 근본적인 문제점을 지적합니다: "그들에게 새로운 사실을 가르치기 어렵습니다. 사실을 안정적으로 검색하기 어렵습니다. 신경망을 통한 순전파는 비결정론적입니다. 특히 다음 토큰 예측의 효율성을 높이기 위해 내적 독백을 활용하는 추론 모델을 사용할 때는 매번 다른 답변을 얻을 수밖에 없습니다."
스마일리는 덧붙입니다: "그리고 귀납적 추론 능력이 없습니다. 모델은 자신의 작업을 확인할 수 없습니다. 자신이 제공한 답변이 맞는지 알지 못합니다. 이는 LLM 기술에서 아직 아무도 해결하지 못한 근본적인 문제들입니다."
제안된 새로운 측정 접근법
창립자들은 AI 지원 엔지니어링을 위해 특화된 새로운 지표를 개발해야 한다고 주장합니다. 스마일리는 한 가지 잠재적 지표로 "승인된 풀 리퀘스트(공식적으로 수용된 소프트웨어 변경)에 도달하기까지 소모된 토큰 수 측정"을 제안합니다. 그는 조직들이 실험하고 피드백 루프에서 반복해야 한다고 강조하며, "AI는 코딩 맥락에서도 여전히 잘 작동하지 않는다"고 말합니다.
딕스는 최근 아마존과 AWS 중단 사태를 잠재적 미래 문제의 지표로 언급하지만, 아마존은 이 사건들이 AI와 무관하다고 밝혔습니다.
📖 Read the full source: HN AI Agents
👀 See Also

최고의 AI 모델, 비영어 언어에서 성능 격차 보여
최근 분석에 따르면 주요 AI 모델들은 영어 이외의 언어에서는 성능이 더 낮게 나타나며, 해당 기사는 해커 뉴스에서 16점과 3개의 댓글을 받았습니다.

Qwen3-30B-A3B 대 Qwen3.5-35B-A3B 성능 비교 (RTX 5090 기준)
RTX 5090에서 Qwen3-30B-A3B와 Qwen3.5-35B-A3B의 직접 비교 벤치마크 결과, 30B 모델이 생성 속도에서 35% 더 빠른 반면, 3.5 모델은 긴 컨텍스트를 더 잘 처리하며 토큰 스케일링이 평탄한 반면 30B 모델은 21% 성능 저하를 보였습니다.

클로드-코드 v2.1.32: 자동화 및 코딩 정밀도 향상
Claude-Code의 최신 버전 v2.1.32가 AI 코딩과 자동화 분야에서 중대한 개선을 가져왔습니다. 이 업그레이드의 주요 기능과 커뮤니티에 미치는 영향에 대해 알아보세요. 지금 GitHub에서 확인할 수 있습니다.

AGI로 가는 첫걸음: ClawDBot으로 격차 해소하기
ClawDBot이 AI 코딩 에이전트를 향상시킴으로써 AGI를 향해 나아가는 방법을 탐구하며, AI 진화의 중요한 단계를 보여줍니다.