AI 코딩 지표 비판: 품질 vs 수량, 2000배 성능 차이

AI 자문 서비스 Codestrap의 창립자 도리안 스마일리와 코너 딕스는 기업 조직들이 참조 아키텍처나 사용 사례에 대한 확립된 플레이북이 없어 AI를 효과적으로 도입하는 데 어려움을 겪고 있다고 주장합니다. 그들은 많은 회사들이 실제 영향력을 측정할 적절한 피드백 루프가 부족한 채 AI 전략을 갖춘 척하고 있다고 말합니다.

문제적인 지표와 결함 있는 결과

스마일리는 현재 AI 코딩 평가가 잘못된 지표에 초점을 맞추고 있다고 말합니다: "코드 라인 수, [풀 리퀘스트] 건수, 이들은 부채입니다. 이는 엔지니어링 우수성의 척도가 아닙니다." 그는 배포 빈도, 프로덕션까지의 리드 타임, 변경 실패율, 평균 복구 시간, 인시던트 심각도를 적절한 엔지니어링 지표로 꼽습니다.

잘못된 측정의 결과를 설명하기 위해 스마일리는 최근 AI를 사용해 SQLite를 Rust로 재작성한 시도를 인용합니다: "모든 단위 테스트를 통과했고, 코드 구조는 올바르게 보입니다. 하지만 실제 SQLite보다 3.7배 더 많은 코드 라인 수를 가지면서 성능은 2,000배나 떨어집니다. 데이터베이스에서 2,000배나 나쁜 성능은 실행 불가능한 제품입니다."

기본적인 LLM의 한계

딕스는 현재 LLM 기술의 근본적인 문제점을 지적합니다: "그들에게 새로운 사실을 가르치기 어렵습니다. 사실을 안정적으로 검색하기 어렵습니다. 신경망을 통한 순전파는 비결정론적입니다. 특히 다음 토큰 예측의 효율성을 높이기 위해 내적 독백을 활용하는 추론 모델을 사용할 때는 매번 다른 답변을 얻을 수밖에 없습니다."

스마일리는 덧붙입니다: "그리고 귀납적 추론 능력이 없습니다. 모델은 자신의 작업을 확인할 수 없습니다. 자신이 제공한 답변이 맞는지 알지 못합니다. 이는 LLM 기술에서 아직 아무도 해결하지 못한 근본적인 문제들입니다."

제안된 새로운 측정 접근법

창립자들은 AI 지원 엔지니어링을 위해 특화된 새로운 지표를 개발해야 한다고 주장합니다. 스마일리는 한 가지 잠재적 지표로 "승인된 풀 리퀘스트(공식적으로 수용된 소프트웨어 변경)에 도달하기까지 소모된 토큰 수 측정"을 제안합니다. 그는 조직들이 실험하고 피드백 루프에서 반복해야 한다고 강조하며, "AI는 코딩 맥락에서도 여전히 잘 작동하지 않는다"고 말합니다.

딕스는 최근 아마존과 AWS 중단 사태를 잠재적 미래 문제의 지표로 언급하지만, 아마존은 이 사건들이 AI와 무관하다고 밝혔습니다.

📖 Read the full source: HN AI Agents