Anthropic, AI 자체 개선 위험 경고하며 훈련 중단 촉구

Anthropic이 최첨단 AI 모델 개발을 전 세계적으로 중단할 것을 촉구하며, 고급 시스템의 급속한 자체 개선 위험을 특히 지적했습니다. 월스트리트 저널이 보도한 이 제안은 AI 업계가 안전 기준을 마련하기 위해 6~12개월 간의 조정된 모라토리엄이 필요하다고 주장합니다.

출처의 주요 세부 사항

제안된 중단: 현재 역량을 초과하는 모델(GPT-4 또는 Claude 3 수준을 넘는) 훈련에 대한 전 세계적이고 검증 가능한 중단.
자체 개선 위험: Anthropic은 자체 코드를 작성하고 개선할 수 있는 AI 시스템이 현재 안전 관행이 관리할 수 있는 것보다 빠르게 역량을 확장할 수 있다고 경고합니다.
검증 메커니즘: 제안에는 정부 주도의 감사 요구 사항, 투명성 약속, 그리고 중단을 강제하기 위한 컴퓨팅 사용량 모니터링이 포함됩니다.
중단 규모: 모라토리엄은 미국 AI 행정 명령이 정한 임계값인 10^26 FLOPs를 초과하는 모든 훈련 실행에 적용됩니다.

WSJ 기사는 유료화되어 있지만, Hacker News 토론(15점, 6개 댓글)은 개발자 관점을 제공합니다. 많은 댓글 작성자들은 AI 개발의 글로벌 특성과 관할 구역 간 컴퓨팅 사용량 검증의 어려움을 고려할 때 이러한 중단이 시행 가능한지 논쟁합니다.

AI 코딩 에이전트를 사용하는 개발자를 위한

에이전트 코딩 루프(자체 프롬프트를 생성하고 실행하는 자체 개선 에이전트 포함)를 위해 최첨단 모델(GPT-4, Claude 3 또는 Gemini Ultra)에 의존하는 경우, 이 제안은 스택에 직접적인 영향을 미칩니다. 중단은 모델 업데이트를 동결시켜 현재 기능에 고정시킬 수 있습니다. 또한 CI/CD 파이프라인이 컴퓨팅 임계값을 초과하는 자체 호스팅 모델을 사용하는 경우 규정 준수에 대한 의문이 제기됩니다.

HN의 논쟁은 긴장감을 반영합니다. 일부는 자체 개선 위험이 과장되었으며 규제가 오픈 소스 혁신을 저해할 것이라고 주장하는 반면, 다른 이들은 AI 에이전트가 적대적 공격을 작성한 최근 사례를 증거로 제시합니다.

전체 세부 사항(Anthropic의 제안된 일정, 검증 세부 사항 및 업계 반응 포함)을 보려면 Hacker News 스레드를 통해 WSJ 기사를 읽으십시오.

📖 전체 출처 읽기: HN AI Agents