AI Functions로 런타임 코드 생성: 자동 검증 및 재시도

AI Functions는 Strands Agents SDK를 기반으로 구축된 Strands Labs의 새로운 프로젝트로, 지속적인 자동화 검증과 함께 런타임 AI 코드 생성을 가능하게 합니다. 단순히 인간이 통합할 텍스트를 생성하는 대신, 호출 시점에 애플리케이션 내에서 실행되는 코드를 생성하여 DataFrame, Pydantic 모델 또는 데이터베이스 연결과 같은 네이티브 Python 객체를 반환합니다.

AI Functions 작동 방식

핵심 추상화는 @ai_function 데코레이터입니다. 구현 코드 대신 문서 문자열에 자연어 명세를 포함한 Python 함수를 작성합니다. 함수가 호출되면 데코레이터가 호출을 가로채고, 문서 문자열에서 프롬프트를 구성하여(인수를 대체), LLM으로 전송하고, 생성된 코드를 Python 프로세스에서 실행한 후, 결과를 네이티브 객체로 반환합니다.

다음은 소스의 기본 예제입니다:

from ai_functions import ai_function

@ai_function
def translate_text(text: str, lang: str) -> str:
    """
    아래 텍스트를 다음 언어로 번역하세요: {lang}.
    {text}
    """
result = translate_text("The quarterly results exceeded expectations.", lang="French")

핵심 차별화 요소: 자동화 검증

중요한 기능은 사후 조건입니다. 이는 올바른 출력이 어떻게 보여야 하는지를 정의하는 일반 Python 어설션입니다. 이러한 조건은 배포 전뿐만 아니라 모든 함수 호출 시 실행됩니다. 검증이 실패하면 시스템은 오류를 피드백으로 사용하여 자동으로 재시도합니다. 인간은 생성된 코드를 검사하지 않으며, 사후 조건이 매번 검증을 처리합니다.

Software 3.1 개념

이 글은 이를 "Software 3.1"로 제시합니다. 이는 Andrej Karpathy의 프레임워크에서 진화한 것으로, Software 3.0은 "인간이 프롬프트를 제공하고, LLM이 생성하며, 인간이 검증한다"는 개념입니다. AI Functions는 "인간이 명세를 제공하고, LLM이 생성 및 실행하며, 기계가 검증한다 – 런타임에"를 나타냅니다. 실행 모델은 근본적으로 다릅니다: LLM은 인간이 통합할 텍스트를 생성하는 것이 아니라, 애플리케이션에서 직접 실행되는 코드를 생성합니다.

이는 세 가지 측면을 동시에 변화시킵니다: AI가 소프트웨어에서 차지하는 위치(개발 시간뿐만 아니라 런타임), 생성하는 것(직렬화된 텍스트 대신 메서드를 호출할 수 있는 라이브 객체), 그리고 신뢰하는 방식(일회성 인간 검토 대신 지속적인 자동화 검증).

📖 전체 소스 읽기: HN AI Agents