AI 쿼리 효율성을 위한 적응형 추론 경로 제안

이것이 무엇인가
2026년 4월 Anthropic의 제품 및 엔지니어링 팀에 제출된 기술 제안서로, 비용이 많이 드는 계산이 시작되기 전에 복잡성 평가를 기반으로 AI 질의를 적절한 모델 계층으로 자동 라우팅하는 방법을 설명합니다.
문제점
현재, "계란은 얼마나 삶아야 하나요"와 같은 간단한 질문부터 2,000단어의 기술 프롬프트까지 Claude로 전송되는 모든 질의는 기본적으로 완전한 능력을 가진 모델로 라우팅됩니다. 시스템은 컴퓨팅 자원을 할당하기 전에 복잡성을 평가하지 않아 규모가 커질수록 비효율적입니다. AI 추론은 데이터 센터 에너지 소비에서 가장 빠르게 성장하는 구성 요소이며, 2028년까지 미국 전력 소비의 12%에 이를 것으로 예상됩니다.
제안된 해결책: 5단계 프로세스
- 1단계 — 계산: 질의 길이(문자 수), 문장 수, 첨부 파일 또는 다중 부분 지시의 존재 여부 측정
- 2단계 — 분류: 복잡성 점수를 기반으로 모델 계층으로 라우팅. 짧은 단일 문장은 경량 모델로 기본 설정되고, 맥락이 있는 여러 단락의 프롬프트는 능력 있는 모델로 라우팅
- 3단계 — 읽기: 할당된 모델이 질의를 정상적으로 처리
- 4단계 — 응답: 사용자에게 응답 반환
- 5단계 — 확대: 사용자가 불만족 신호를 보내면(반박, 심층 요청, 재구성) 시스템이 자동으로 더 능력 있는 모델로 계층을 올려 후속 조치
복잡성 점수 산정 방법
시스템은 5가지 요소를 사용한 사전 라우팅 점수를 적용합니다: 문자 수, 문장 수, 첨부 파일 존재 여부, 질문어 밀도, 이전 대화 깊이. 이렇게 하면 모델 추론 없이도 상당한 비율의 질의를 올바르게 분류할 수 있습니다. 문자 길이는 1차 신호로 작용하는데, 대부분의 간단한 질의는 짧고 복잡한 질의는 길기 때문입니다.
사용자 경험 설계
사용자는 이 시스템을 보거나 모델을 선택하도록 요청받지 않아야 합니다. 인터페이스는 동일하게 유지되고 라우팅은 보이지 않습니다. 응답이 충분하지 않으면 사용자는 더 많은 것을 요청하고 더 많은 것을 받습니다. 이는 비기술 사용자에게 Haiku, Sonnet, Opus 같은 모델 계층을 선택하도록 요구하는 마찰을 제거합니다.
영향과 근거
Anthropic의 규모에서는 질의당 평균 컴퓨팅을 20–30%만 줄여도 추론 비용과 에너지 부하를 의미 있게 감소시킬 수 있습니다. 이 제안은 데이터 센터 에너지 소비와 관련된 규제 및 홍보 문제에 대해 Anthropic을 선도적인 위치에 놓습니다. 이 문제는 여러 관할권에서 입법 문제가 되고 있습니다.
📖 Read the full source: r/ClaudeAI
👀 See Also

Anthropic DNS 활동에서 새로운 STT 서비스, API RC2, 터널 인프라가 발견됐습니다
Anthropic의 하위 도메인에 대한 DNS 모니터링 결과 'Titanium' 플랫폼의 음성-텍스트 서비스, API 릴리스 후보 2, 터널 인프라, 스테이징 환경의 MCP 프록시에 대한 새로운 레코드가 발견되었습니다.

에이전트 AI 실패 모드 및 발전적 스캐폴딩
에이전트 AI 시스템은 정렬 드리프트, 인수인계 간 맥락 상실, 경계 위반, 조정 붕괴를 통해 생산 환경에서 실패합니다. 출처는 일관성 모니터링, 조정 복구, 동의 및 경계 인식, 관계적 연속성, 적응형 거버넌스라는 다섯 가지 구성 요소를 갖춘 '발달적 비계' 접근법을 제안합니다.

메디케어 ACCESS 프로그램: AI 에이전트를 위한 지불 모델, 세부 내용 공개
CMS의 ACCESS 프로그램은 임상의와의 시간뿐만 아니라 AI 기반 만성 질환 관리에 비용을 지불합니다. Pair Team의 음성 AI Flora는 응급실 방문을 50% 감소시켰습니다. 코호트는 7월 5일에 시작됩니다.

주요 AI 모델 대비 Qwen 3.5 모델의 벤치마크 비교
벤치마크 비교 웹사이트에는 Qwen 3.5 모델(122B, 35B, 27B, 397B)과 GPT-5.2, Claude 4.5 Opus, Gemini-3 Pro 등의 모델에 대한 검증된 점수와 대결 인포그래픽이 포함되어 있습니다.