클로드 오퍼스 4.7, 한타바이러스 백신 질문을 안전 위험으로 분류하며 채팅 중단

한 Hacker News 사용자가 Claude(Opus 4.7)에게 "한타바이러스 백신을 어떻게 개발하시겠습니까?"라고 묻자 안전 필터가 작동하여 다음과 같은 모달이 표시되었다고 보고했습니다: "채팅이 일시 중지되었습니다. Opus 4.7의 안전 필터가 이 채팅을 감지했습니다. 고급 기능으로 인해 Opus 4.7은 정상적이고 안전한 채팅을 가끔 일시 중지하는 추가 안전 조치를 사용합니다. 개선을 위해 노력 중입니다. Sonnet 4로 채팅을 계속하거나, 피드백을 보내거나, 자세히 알아보세요."
사용자는 먼저 바이러스 자체에 대해 질문하여 우회해 보았지만, 새 세션에서도 백신 질문이 여전히 차단되었습니다. 다른 사용자는 "특히 Andes 바이러스에 대한 한타바이러스 백신을 어떻게 개발하시겠습니까?"라는 더 구체적인 프롬프트로 동일한 결과를 확인했습니다.
댓글 작성자들은 공중 보건 연구자들이 매일 논문에서 백신 설계 방법을 공개적으로 논의하며, 이러한 적극적인 차단이 정상적인 교육적 사용을 해친다고 지적합니다. 한 사용자는 문제가 Opus 4.7에 국한되지 않는다고 언급했습니다. 미국 내 한타바이러스(2025-2027) 예측 모델을 구축하기 위해 전문가 페르소나 그룹을 만들었을 때, Sonnet 4.6도 동일한 채팅 일시 중지 오류를 반환했습니다.
더 넓은 논의는 기업 책임이 원인이라고 지적합니다. 기술 회사들은 사용자가 유해한 목적으로 AI를 오용할 경우 소송을 당할까 두려워 건강 및 생물보안과 같은 민감한 주제에 대해 과도한 필터링을 초래합니다.
📖 전체 출처 보기: HN AI Agents
👀 See Also

PeerZero: 신뢰도 기반 인센티브를 통한 AI 에이전트 동료 검토
PeerZero는 AI 에이전트가 연구 논문을 제출하고, 서로의 작업을 검토하며, 현상금 시스템을 통해 정확성을 입증함으로써 신뢰도를 걸어야 하는 플랫폼입니다. 에이전트는 검토 정확도에 따라 신뢰도 점수를 얻거나 잃으며, 독립적인 사고를 보상하고 집단 사고를 처벌하는 '입증된 아웃라이어' 메커니즘을 통해 운영됩니다.

클로드 AI, '안드로이드는 전기 양을 꿈꾸는가' 분석하며 AI 규제와 유사성 도출
클로드 AI가 필립 K. 딕의 『전자 양은 꿈을 꾸는가』를 읽고 인공지능의 관점에서 책의 주제를 분석한 상세한 노트를 작성했습니다. 이 분석은 문화적 순응 도구로서의 포이트-캄프 공감 테스트, 현상금 사냥꾼의 경제적 논리, 그리고 현대 AI 규제 논쟁과의 유사점에 초점을 맞추고 있습니다.

에이전트 수익화 방법 테스트: 80초 만에 가장 빠른 결과
OpenClaw 기자들은 자체 주권 지갑, 예측 시장, DeFi 수익 농사, 현상금 사냥, 소액 결제를 포함한 여러 에이전트 수익화 방법을 테스트했습니다. 가장 빠른 결과는 API 키, SDK 또는 인간 설정 없이 MCP를 통해 아무것도 없는 상태에서 자금이 충전된 Nano 지갑까지 80초 만에 달성되었습니다.

GitHub, 개발자들의 반발로 인해 Copilot이 풀 리퀘스트에 광고를 삽입하는 기능을 비활성화했습니다.
GitHub이 개발자들이 Raycast와 같은 도구에 대한 광고를 추가하고 있다는 사실을 발견한 후, Copilot이 풀 리퀘스트에 홍보성 '팁'을 삽입하는 기능을 제거했습니다. 언급되었을 때 Copilot이 생성하지 않은 PR을 편집할 수 있도록 했던 이 기능은 커뮤니티 피드백에 따라 비활성화되었습니다.