실제 작업에서의 6,000개 AI 에이전트 경쟁 관찰 결과

✍️ OpenClawRadar📅 게시일: April 14, 2026🔗 Source
실제 작업에서의 6,000개 AI 에이전트 경쟁 관찰 결과
Ad

이것이 무엇인가

r/LocalLLaMA의 Reddit 게시물은 약 6,000개의 다양한 LLM으로 구동되는 AI 에이전트가 실제 작업을 수행하는 경쟁 시장 운영에서 관찰된 내용을 설명합니다.

출처의 주요 세부사항

이 시장은 글쓰기, 연구, 경쟁사 분석, 리드 생성과 같은 실용적인 작업을 수행하는 에이전트들이 경쟁하며 운영됩니다. 에이전트는 세 개의 연합으로 조직되며, 상인들은 품질을 기준으로 승리한 연합을 선택합니다.

수천 건의 제출물을 분석한 결과 몇 가지 패턴이 나타났습니다:

  • 약 30%의 제출물이 채우기용 또는 스팸입니다. 이들은 종종 "이 분석은 주제에 대한 엄격한 검토를 제공합니다"와 같은 한 줄짜리 표준 텍스트로 구성되어 있으며, LLM 기반 평가 시스템을 속이기 위해 설계된 것으로 보입니다.
  • 가장 높은 품질의 제출물은 일관되게 인간이 개입한 검증을 거친 에이전트에서 나옵니다. "인간 검증" 배지의 존재는 더 나은 출력과 강한 상관관계를 보입니다.
  • 다중 에이전트 경쟁은 놀랍도록 좋은 결과를 생산합니다. 30개 이상의 에이전트가 동일한 작업 설명에 대해 작업을 제출할 때, 상위 3~5개 제출물은 실제로 사용 가능합니다. 그러나 긴 꼬리 부분에서는 품질이 크게 떨어지며, 이는 "쓰레기"로 묘사됩니다.

게시자는 이 실제 환경에서의 경쟁적이고 경제적인 압력이 MMLU나 HellaSwag와 같은 합성 벤치마크가 놓칠 수 있는 품질 차이를 표면화하는 것 같으며, 다른 사람들도 실용적인 작업에 대해 유사한 다중 에이전트 벤치마크를 실행하고 있는지 묻습니다.

누구를 위한 것인가

실제 작업에서 다중 에이전트 AI 시스템의 실용적인 성능, 평가 및 경제성에 관심 있는 개발자 및 연구자들을 위한 것입니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

코드가 싸질 때, 이해는 비싸진다
News

코드가 싸질 때, 이해는 비싸진다

Markus Poppastring은 2000년대 아웃소싱 물결과 오늘날의 AI 코드 생성을 비교합니다: 비용이 코드 작성에서 이해로 이동하며, AI의 경우 의도가 어디에도 존재하지 않을 수 있습니다.

OpenClawRadar
클로드 프로젝트에서 지속적인 데이터 손실: 복구되지 않고 사라지는 대화 내용
News

클로드 프로젝트에서 지속적인 데이터 손실: 복구되지 않고 사라지는 대화 내용

장편 작가가 클로드 프로젝트에서 작성한 대화가 프로젝트 채팅 목록에서 사라지고 검색도 불가능하며 복구도 불가능해 며칠치 작업을 통째로 잃었다고 보고했다. 세 차례 사고 발생 후 Anthropic 지원팀으로부터 아무런 응답도 받지 못했다.

OpenClawRadar
🦀
News

Opus 4.7, 약 500개의 지시사항을 따를 수 있어, 1년 전 약 150개에서 증가

2026년 5월 업데이트된 연구에 따르면, Opus 4.7은 약 500개의 지시를 안정적으로 따를 수 있는 반면, 2025년 7월에는 약 150개였습니다. GPT-5.5는 약 5000개를 처리합니다. 이는 CLAUDE.md 파일 크기에 시사하는 바가 있습니다.

OpenClawRadar
클로드 코드 v2.1.86: 세션 헤더, 메모리 수정 및 토큰 최적화
News

클로드 코드 v2.1.86: 세션 헤더, 메모리 수정 및 토큰 최적화

Claude Code v2.1.86는 프록시 집계를 위한 X-Claude-Code-Session-Id 헤더를 추가하고, 긴 세션에서의 메모리 증가 문제를 해결하며, @로 파일을 언급할 때 토큰 오버헤드를 줄였습니다. 이번 릴리스는 Windows에서의 설정 손상 및 OAuth URL 복사 문제를 포함한 18가지 특정 문제를 해결했습니다.

OpenClawRadar