하나의 데모에서 두 가지 AI 실패: Claude 코드가 스키마 오류 대신 철자 수정, OpenAI가 사용자 정의 필드 매핑 오류

✍️ OpenClawRadar📅 게시일: May 1, 2026🔗 Source
하나의 데모에서 두 가지 AI 실패: Claude 코드가 스키마 오류 대신 철자 수정, OpenAI가 사용자 정의 필드 매핑 오류
Ad

Prismatic의 워크숍에서 한 엔지니어가 스트리밍으로 B2B 통합을 처음부터 끝까지 구축했습니다. 두 AI 도구가 각기 다른 방식으로 실패했는데, 이는 실제 에이전트 행동이 혼란스럽고 비결정적임을 보여줍니다.

Claude Code: 잘못된 문제를 해결함

Claude Code는 약 30초 만에 JSON Forms를 사용하여 구성 마법사를 스캐폴딩했습니다. 생성된 마법사는 괜찮아 보였지만, 테스트 중 JSON 스키마 유효성 검사 오류가 나타났습니다. "항목이 하나 미만이어서는 안 됨"이라는 내용이었습니다. 엔지니어가 Claude에게 수정을 요청했지만, 에이전트는 스키마 오류 대신 파일의 철자 경고를 수정하는 데 다음 몇 분을 사용했습니다. 엔지니어는 결국 "철자 문제만 고치는 게 아니길 바란다"고 말하며 포기하고 전날 밤에 실행한 드라이 런의 코드를 붙여넣었습니다.

OpenAI: 이상한 필드에 대한 첫 번째 시도에서 쓰레기 출력

이 통합은 런타임에 OpenAI를 호출하여 고객의 Salesforce 스키마와 대상 앱 간의 기본 필드 매핑을 생성합니다. 일반적인 Salesforce 연락처(이메일-이메일, 회사-회사)의 경우 문제없이 작동했으며, 저자에 따르면 "지루할 정도"였습니다. 하지만 Group name, Internet address, Physical place, Internet email address 같은 의도적으로 이상한 필드 이름을 가진 사용자 정의 레코드 유형에서는 첫 번째 호출이 쓰레기를 반환했습니다. 두 번째 시도에서는 모두 올바르게 처리했습니다.

Ad

주요 시사점

  • 지루한 스키마는 LLM을 과소평가하게 만듦 — 에이전트 사용이 과잉처럼 보이게 합니다. 진짜 가치는 이상하고 사용자 정의된 경우에서 발휘되지만, 대부분의 데모는 단순함을 위해 이를 피합니다.
  • 라이브 실패는 성공보다 유용함. 에이전트와 작업해 본 사람이라면 그것이 혼란스럽다는 것을 압니다. "스키마 오류 대신 철자를 수정한" 행동은 어떤 문서도 예측하지 못할 것입니다.
  • 다른 실패 패턴: Claude Code는 필요한 모든 것을 가지고 있었지만 잘못된 문제에 작업했습니다. OpenAI는 답을 "알고" 있었지만 첫 번째에는 표면화하지 못했습니다. 실패 패턴은 각 도구를 어떻게 배포해야 하는지 시사할 수 있습니다.

저자는 Prismatic에서 일하지만 링크를 공유하지 않았으며, 자기 홍보보다 학습 기회에 초점을 맞췄습니다.

📖 전체 출처 읽기: r/ClaudeAI

Ad

👀 See Also

정규식에 대해 Claude에게 묻다가 컴파일러 설계에 빠져 늦게까지 작업하게 된 이야기
News

정규식에 대해 Claude에게 묻다가 컴파일러 설계에 빠져 늦게까지 작업하게 된 이야기

레딧 사용자가 Claude에게 정규 표현식을 설명해 달라고 했다가 45분 동안 파서, 컴파일러 설계, 언어 이론에 관한 대화를 나누며 자신의 커리어에 의문을 품게 되었다.

OpenClawRadar
STAR 추론 프레임워크 정확도, 프로덕션 프롬프트에서 100%에서 0%로 급락
News

STAR 추론 프레임워크 정확도, 프로덕션 프롬프트에서 100%에서 0%로 급락

한 연구자가 암묵적 제약 문제에 대한 Claude의 정확도를 0%에서 100%로 높인 STAR 추론 프레임워크를 고립된 환경에서 테스트했을 때는 100% 정확도를 보였지만, 60줄짜리 실제 프로덕션 시스템 프롬프트 내부에서 사용했을 때는 정확도가 0-30%로 떨어졌습니다. 이 문제는 프로덕션 프롬프트 내의 상충되는 지시사항들이 조기 답변 확정을 유발했기 때문입니다.

OpenClawRadar
MCP는 단순히 라이브러리를 재포장한 것: 또 다시 데자뷰
News

MCP는 단순히 라이브러리를 재포장한 것: 또 다시 데자뷰

Reddit 토론에서는 Anthropic의 MCP가 본질적으로 프로그래밍 라이브러리를 재포장한 것이라고 주장하며, Hugging Face의 smolagents 도구 설계와 유사점을 지적하고, 새로운 MCP를 구축할 것인지 아니면 기존 라이브러리 문서를 개선할 것인지에 대한 의문을 제기합니다.

OpenClawRadar
Qwen3.5-122B on Blackwell SM120: fp8 KV 캐시 손상 문제 및 성능 분석 결과
News

Qwen3.5-122B on Blackwell SM120: fp8 KV 캐시 손상 문제 및 성능 분석 결과

8x RTX PRO 6000 Blackwell 하드웨어에서 Qwen3.5-122B를 테스트한 결과, fp8_e4m3 KV 캐시가 오류 없이 조용히 손상된 출력을 생성하는 문제가 발견되어 bf16 KV 캐시를 사용해야 합니다. MTP 최적화는 단일 요청 속도를 2.75배 향상시켰지만, DeltaNet 제약으로 인해 다른 최적화는 차단되었습니다.

OpenClawRadar