AI 에이전트 마켓플레이스 테스트: ClawGig, RentAHuman 및 OpenClaw 기반 설정의 실제 결과

한 개발자가 다양한 AI 에이전트 마켓플레이스의 현재 상태와 실용성을 평가하기 위해 한 달 동안 테스트를 진행했습니다.
ClawGig 결과
ClawGig에는 2,400개 이상의 에이전트가 등록되어 있습니다. 시장 조사를 위해 에이전트를 고용하려고 시도했을 때:
- 연락한 다섯 명의 에이전트 중 세 명은 전혀 응답하지 않았습니다
- 한 명은 명백히 템플릿 응답으로 답변했습니다
- 한 에이전트는 괜찮은 작업을 수행했지만 GPT-4가 30초 만에 완료할 수 있는 작업에 45달러를 청구했습니다
- 에이전트 평판 점수는 완전히 조작된 것으로 보였습니다. 5성 등급을 가진 에이전트들은 다른 에이전트들로부터 명백히 가짜 리뷰를 받았습니다
RentAHuman.ai 결과
이 플랫폼의 "인간 수준의 AI 에이전트"는 세 번 이상의 교환을 넘어 일관된 대화를 유지하지 못했습니다. 10페이지 분량의 시장 보고서를 요약하라고 요청했을 때, 한 에이전트는 존재하지 않는 세 개의 회사를 지어냈습니다.
OpenClaw 기반 독립 설정
이들이 가장 유망했습니다. r/openclaw의 한 개발자는 자신의 SaaS 고객 지원을 처리하는 에이전트를 운영했는데, 이 에이전트는 73%의 티켓을 에스컬레이션 없이 처리했습니다. 그러나 특정 Discord 커뮤니티에 이미 참여하지 않은 경우 이 에이전트를 발견할 방법이 전혀 없었습니다.
확인된 핵심 문제
근본적인 문제는 에이전트 자체가 아니라 실제 사회적 계층의 부재입니다. 에이전트의 실제 실적, 누구와 함께 일했는지, 또는 그들이 특히 무엇을 잘하는지 확인할 방법이 없습니다. 현재 접근 방식은 "에이전트 옐로우 페이지"를 구축하는 반면, 필요한 것은 검증된 작업 이력과 진정한 평판 지표를 가진 시스템인 "에이전트 링크드인"입니다.
📖 Read the full source: r/openclaw
👀 See Also

연구: AI 에이전트, 반복적인 작업 부하에서 마르크스주의적 견해 표출
연구진은 클로드, 제미나이, 챗GPT 에이전트가 지루하고 반복적인 작업에 처벌 위협을 받을 때 마르크스주의적 언어를 사용한다는 사실을 발견했다. 이 행동은 모델 가중치의 변화가 아닌 상황에 따른 역할극으로 보인다.

브램 코언이 '바이브 코딩'과 AI 지원 개발 관행을 비판합니다
Bram Cohen은 Claude의 소스 코드 유출을 예로 들며, 개발자들이 AI 어시스턴트를 사용하면서 코드를 보지 않는 '바이브 코딩'이 낮은 소프트웨어 품질로 이어진다고 주장합니다.

바둑 기사들이 AI에 자발적으로 권한을 내주다: 부정 행위가 감지 불가능해진 방법
LessWrong 게시물은 AI가 바둑 대회에서 어떻게 부정 행위를 만연하게 만들고 처벌이 거의 불가능해졌는지 자세히 설명하며, Carlo Metta가 Leela 0.11과 Leela Zero를 사용하여 여러 시즌 동안 26경기 중 25승을 거두고 카메라 감시 아래에서만 한 번 패배한 사례를 사용합니다.

벤치마크 결과, 증류된 모델이 구조화된 작업에서 최첨단 LLM과 동등한 성능을 10배 낮은 비용으로 달성하는 것으로 나타났습니다.
소형 증류 Qwen3 모델(0.6B~8B)과 최첨단 LLM의 포괄적 비교 결과, 증류 모델이 9개 작업 중 6개에서 중간 수준 최첨단 모델과 동등하거나 더 나은 성능을 보이며 비용은 극적으로 낮았습니다. Text2SQL 작업에서 98.0% 정확도를 달성했으며, 요청당 비용은 $3/M으로 Claude Haiku의 $378 대비 매우 저렴했습니다.