Cowork vs. Claude Chat: 문서 추출 정확도 비교

상장 주식 연간 보고서 분석 도구를 개발 중인 한 개발자가 복잡한 금융 PDF에서 데이터를 추출하는 데 있어 Claude.ai 채팅과 Cowork을 통제된 비교 실험을 진행했습니다. 이 테스트는 동일한 프롬프트와 금융 테이블, 각주, 상호 참조 공시가 포함된 140페이지 이상의 동일한 PDF 파일을 사용했습니다.
테스트 결과
테스트 1 - Claude.ai 채팅: PDF를 업로드하고 프롬프트를 붙여넣었습니다. 출력 결과는 모든 항목이 원본과 검증된 기관급 수준이었습니다. 모델은 추출 중 자신의 실수를 발견하고 수정하는 자체 수정 행동을 보였습니다. 확인된 150개 이상의 데이터 포인트에서 오류가 발견되지 않았습니다.
테스트 2 - Cowork (기존 프로젝트 폴더가 있는 워크플로우): 5개의 사실 오류를 생성했으며, 30% 적은 콘텐츠를 추출하고 대부분의 심층 분석 자료를 놓쳤습니다. 주요 수치는 정확했지만, 세부 구성 요소에 대한 정보는 손실되었습니다.
테스트 3 - Cowork (깨끗한 폴더, PDF와 프롬프트만): 여전히 다음과 같은 오류를 생성했습니다:
- 조정 항목 조작
- 역산된 단위 수
- 실제 재무제표 각주와 20-90% 차이가 나는 다중 범주
- 전년도 열 오염 (당해 연도 수치는 정확했지만, FY2024 비교 수치는 수익 및 FCF 테이블 전반에 걸쳐 오류가 있었음)
패턴 분석
개발자는 Cowork이 일관되게 정확한 당해 연도 합계를 생성하지만 신뢰할 수 없는 세부 항목 분류를 생성한다는 점을 관찰했습니다. 이 모델은 문서에서 읽어내기보다는 알려진 희석 총액에 맞추기 위해 조정 플러그를 조작하고 역산하는 방식으로 공백을 메우는 것으로 보였습니다. 반대로 Claude 채팅은 세부 사항을 정확히 추출하거나 찾을 수 없는 내용을 표시했습니다.
결론적으로 Cowork의 에이전트 작업 분해(청킹, 하위 에이전트, 병렬 처리)는 길고 상호 참조된 금융 문서에 필요한 지속적인 주의력을 유지할 수 없는 것으로 보입니다. 채팅은 PDF를 단일 심층 패스로 처리하는 반면, Cowork은 이를 분할하여 정확도를 잃습니다.
이 정확도 차이는 모든 숫자를 독립적으로 검증하지 않으면 조작이 보이지 않는 전문적 사용 사례에서 중요합니다. 개발자는 다른 사용자들도 Cowork이 그럴듯하지만 조작된 세부 사항을 생성하는 유사한 패턴을 관찰했는지, Claude 채팅이 깔끔하게 처리하는지에 대한 커뮤니티 피드백을 구하고 있습니다.
📖 전체 출처 읽기: r/ClaudeAI
👀 See Also

Mnemos: 코딩 에이전트를 위한 오픈소스 로컬-퍼스트 메모리 레이어
Mnemos는 스코프 블리드, 오래된 사실, 무제한 전사본 증가와 같은 일반적인 메모리 시스템 실패를 해결하는 솔로 코딩 에이전트 워크플로우를 위한 로컬-퍼스트 메모리 레이어입니다. 공개 베타에는 SQLite 스타터 프로필, Claude Code/Desktop용 MCP 지원, SurprisalGate 및 MutableRAG와 같은 구성 요소를 포함한 생체 모방 파이프라인이 포함되어 있습니다.

yburn: 불필요한 AI 에이전트 크론 작업 감사 및 교체 도구
yburn은 AI 에이전트 크론 작업을 감사하고 LLM이 필요 없는 작업을 독립형 Python 스크립트로 대체하는 Python 도구입니다. 제작자는 98개의 크론 작업 중 58%가 시스템 상태 점검 및 Git 백업과 같은 순수 기계적 작업이었음을 발견했습니다.

클로드 컴팩트 가드 플러그인은 새로운 PostCompact 후크를 사용하여 컨텍스트를 보존합니다
한 개발자가 Claude의 /compact 명령어가 중요한 컨텍스트를 파괴하기 전에 자동으로 저장한 후, 완료 시점에 모든 내용을 재주입하는 claude-compact-guard 플러그인을 공개했습니다. 이 플러그인은 4일 전에 공개된 Anthropic의 새로운 PostCompact 훅을 활용합니다.

WordPress.com MCP 통합으로 Claude에 쓰기 기능이 추가되었습니다
WordPress.com의 MCP 통합 기능이 이제 쓰기 작업을 지원하여 Claude가 WordPress.com 사이트에서 직접 게시물 초안 작성, 페이지 구축, 댓글 관리, 이미지 대체 텍스트 수정, 콘텐츠 카테고리 재구성 등을 수행할 수 있게 되었습니다. 콘텐츠를 생성하기 전에 Claude는 사이트의 테마를 읽어 색상, 글꼴, 블록 패턴과 같은 디자인 요소를 이해합니다.