LLM 워크플로우 컴파일러 아키텍처: 벤치마크 성능 비교 (GPT-4.1, Claude Sonnet 4.6 능가)

LLM 워크플로우를 위한 결정론적 컴파일

한 개발자가 구조화된 LLM 워크플로우를 위한 결정론적 컴파일 아키텍처를 실험하고 있습니다. 모델이 모든 것을 자동회귀적으로 계획하고 실행하도록 두는 대신, 이 시스템은 타입화된 노드 레지스트리, 파라미터 계약, 정적 검증을 사용하여 워크플로우 그래프를 사전에 컴파일합니다.

이 접근법의 목표는 일반적으로 더 깊은 다단계 체인에서 나타나는 오류 누적을 방지하는 것입니다. 이는 순수 자동회귀적 실행에서 더 구조화되고 사전 컴파일된 워크플로우 시스템으로의 전환을 의미합니다.

벤치마크 결과

개발자는 3-12개 이상의 노드로 구성된 다양한 워크플로우 깊이에 대해 벤치마크를 실행하고 GPT-4.1과 Claude Sonnet 4.6을 사용한 기준 프롬프팅과 비교했습니다:

3-5 노드 워크플로우: 컴파일러: 1.00, GPT-4.1 기준: 0.76, Claude Sonnet 4.6: 0.60
5-8 노드: 컴파일러: 1.00, GPT-4.1: 0.72, Claude: 0.46
8-10 노드: 컴파일러: 0.88, GPT-4.1: 0.68, Claude: 0.54
10개 이상 노드: 컴파일러: 0.96, GPT-4.1: 0.76, Claude: 0.72

컴파일러 아키텍처는 8개 노드까지 완벽한 성능을 유지했으며, 8-10개 노드에서는 약간의 성능 저하만 보인 후 10개 이상 노드에서는 거의 완벽한 성능으로 회복되었습니다. 반면 GPT-4.1과 Claude는 모두 워크플로우 깊이가 증가함에 따라 지속적인 성능 저하를 보였습니다.

프로젝트 현황

논문은 곧 arXiv에 게시될 예정이지만, 이 접근법에 관심이 있거나 평가를 비판하고 싶은 사람들을 위해 프로젝트 페이지가 조기에 공개되었습니다. 프로젝트 페이지는 다음에서 확인할 수 있습니다: https://prnvh.github.io/compiler.html

이 접근법은 특히 복잡한 다단계 AI 워크플로우를 구축하는 개발자들에게 유용할 수 있으며, 기존 자동회귀적 접근법에서의 오류 누적이 문제가 되는 경우에 적합합니다. 결정론적 컴파일 모델은 더 예측 가능한 동작을 제공하고 복잡한 체인에서 잠재적으로 더 나은 오류 처리를 가능하게 합니다.

📖 Read the full source: r/LocalLLaMA

다중 단계 LLM 워크플로우를 위한 결정론적 컴파일러 아키텍처, 벤치마크에서 강력한 성과 보여

LLM 워크플로우를 위한 결정론적 컴파일

벤치마크 결과

프로젝트 현황

👀 See Also

클로드 코드의 플랜-회의적 서브 에이전트가 생성된 계획의 보안 허점을 식별합니다

Quiver: Claude 코드 스킬 관리 및 동기화를 위한 GUI

비고: Claude 코드 워크플로우용 마크다운 주석 도구

OpenClaw용 Spectyra 플러그인: 전체 요청 흐름 분석을 통한 실시간 AI 비용 최적화