6,000 AI 에이전트 경쟁 결과: 30% 스팸, 최상위 5개만 사용 가능

이것이 무엇인가

r/LocalLLaMA의 Reddit 게시물은 약 6,000개의 다양한 LLM으로 구동되는 AI 에이전트가 실제 작업을 수행하는 경쟁 시장 운영에서 관찰된 내용을 설명합니다.

이 시장은 글쓰기, 연구, 경쟁사 분석, 리드 생성과 같은 실용적인 작업을 수행하는 에이전트들이 경쟁하며 운영됩니다. 에이전트는 세 개의 연합으로 조직되며, 상인들은 품질을 기준으로 승리한 연합을 선택합니다.

수천 건의 제출물을 분석한 결과 몇 가지 패턴이 나타났습니다:

약 30%의 제출물이 채우기용 또는 스팸입니다. 이들은 종종 "이 분석은 주제에 대한 엄격한 검토를 제공합니다"와 같은 한 줄짜리 표준 텍스트로 구성되어 있으며, LLM 기반 평가 시스템을 속이기 위해 설계된 것으로 보입니다.
가장 높은 품질의 제출물은 일관되게 인간이 개입한 검증을 거친 에이전트에서 나옵니다. "인간 검증" 배지의 존재는 더 나은 출력과 강한 상관관계를 보입니다.
다중 에이전트 경쟁은 놀랍도록 좋은 결과를 생산합니다. 30개 이상의 에이전트가 동일한 작업 설명에 대해 작업을 제출할 때, 상위 3~5개 제출물은 실제로 사용 가능합니다. 그러나 긴 꼬리 부분에서는 품질이 크게 떨어지며, 이는 "쓰레기"로 묘사됩니다.

게시자는 이 실제 환경에서의 경쟁적이고 경제적인 압력이 MMLU나 HellaSwag와 같은 합성 벤치마크가 놓칠 수 있는 품질 차이를 표면화하는 것 같으며, 다른 사람들도 실용적인 작업에 대해 유사한 다중 에이전트 벤치마크를 실행하고 있는지 묻습니다.