로컬 AI 동반자 에이전트 구축에서 얻은 실용적인 교훈

설정 및 아키텍처
한 개발자가 M4 Mac mini에서 자체 호스팅 AI 에이전트를 몇 달간 운영해왔습니다. 이 설정은 빠른 로컬 추론을 위해 Ollama에서 qwen2.5:14b를 사용하는 Rust 런타임을 활용합니다. 시스템은 작업에 더 많은 역량이 필요할 때 클라우드 모델로 확장되는 모델 사다리를 구현합니다. 메모리는 SQLite와 세션 간 의미적 회상을 위한 nomic-embed-text를 사용한 로컬 임베딩으로 처리됩니다. 에이전트는 launchd를 통해 24/7 실행되며, 트레이딩 봇 모니터링, 이메일 확인, 웹사이트 배포, 태스크 러너를 통해 Claude Code에 무거운 구현 작업을 위임하는 등 다양한 작업을 수행합니다.
주요 교훈
메모리 아키텍처가 전부입니다: 개발자는 BM25 키워드 검색과 벡터 유사성을 가중치를 두고 병합한 하이브리드 회상이 돌파구였다는 사실을 발견했습니다. 좋은 메모리 회상을 갖춘 14B 모델은 모든 대화를 처음부터 시작하는 70B 모델보다 성능이 뛰어납니다.
시스템 프롬프트 부담은 현실입니다: 초기 신원 파일은 약 10K 토큰으로 시작했지만, 에이전트가 필요할 때 조회할 수 있는 모든 내용을 제거하여 약 2,800 토큰으로 줄였습니다. 규칙은 다음과 같습니다: 에이전트가 가끔 필요한 것이 있다면 메모리에 넣고, 모든 메시지마다 필요한 것이 있다면 시스템 프롬프트에 넣으세요.
로컬 임베딩이 경제성을 바꿨습니다: 대화 모델과 함께 Ollama에서 nomic-embed-text를 사용하면 모든 메모리 저장 및 회상 작업이 무료가 되어, 이전에 OpenAI 임베딩 요청으로 누적되던 비용을 제거합니다.
기본 모델보다 모델 사다리가 더 중요합니다: 에이전트는 기본적으로 대화를 위해 로컬 qwen을 사용하지만(무료, 빠름), 작업 요구 사항에 따라 Minimax, Kimi, Haiku, Sonnet 또는 Opus로 확장할 수 있습니다. 핵심 통찰: 추론 작업에는 /model sonnet을, 채팅에는 /model qwen과 같은 명령으로 수동으로 모델을 전환하도록 하고, 자동 감지하려고 시도하지 마세요.
도구 반복 제한에는 여유가 필요합니다: 메시지당 최대 10개의 도구 호출로 시작하는 것은 불충분한 것으로 판명되었습니다. 간단한 작업은 3-5개의 도구 호출을 소모하는 반면, 복잡한 작업은 15-20개가 필요합니다. 현재 설정은 안전망으로 시간당 200개 작업 속도 제한과 함께 25개의 도구 호출을 사용합니다.
가장 어려운 버그는 세션 간 메모리였습니다: 저장 도구를 통해 명시적으로 저장된 메모리에는 초기에 session_id가 없었고, 회상 쿼리는 현재 session_id로 필터링되었습니다. 이로 인해 의도적으로 기억된 사실이 향후 세션에서 보이지 않게 되었습니다. 해결책은 SQL 쿼리에 OR session_id IS NULL을 추가하는 것이었습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

OpenClaw 사용자가 43개 에이전트 제작 시스템 아키텍처 공유
1,000명 이상의 고객을 보유한 브랜딩 컨설팅 회사가 43개의 에이전트로 구성된 OpenClaw 시스템을 몇 달 동안 운영해 왔으며, 이 시스템은 명령, 인텔리전스, 콘텐츠, 기술, 영업 기능을 담당하는 전문 에이전트들로 구성된 계층적 아키텍처를 특징으로 합니다.

프로덕션 환경에서 여러 OpenClaw 게이트웨이 운영 시 얻은 교훈
한 개발자가 3개 이상의 OpenClaw 게이트웨이를 24/7 운영하며 겪은 구체적인 실패 사례를 공유합니다. 업그레이드 경로 문제로 인한 MODULE_NOT_FOUND 오류, 잘못 구성된 자격 증명으로 인한 무음 기능 손실 등을 포함합니다. 이 글은 기능 감사, 구성 검증 게이트, 재현 가능한 환경을 포함한 해결책을 상세히 설명합니다.

개발자가 Claude Code 에이전트를 사용하여 단일 세션에서 42종의 보드 게임에 걸친 635개 이슈를 해결했습니다.
한 명의 개발자가 Claude Code 에이전트를 사용하여 42개의 멀티플레이어 보드 게임에서 635개의 UI/UX 문제를 한 번의 세션에서 수정했으며, 빌드 오류 없이 325개의 커밋을 수행했습니다. 워크플로우는 네 개의 에이전트를 동시에 실행하여 각각 다른 게임의 단일 문제를 처리함으로써 파일 충돌을 방지하는 방식으로 진행되었습니다.

비개발자가 Claude를 코딩 파트너로 SaaS 앱을 구축하다
소프트웨어 개발 경험이 없는 데이터 운영 이사가 Claude를 사용하여 The Pit Preacher라는 완전한 SaaS 애플리케이션을 구축하고 출시했습니다. 이 AI 기반 바베큐 어시스턴트는 Next.js 14, Supabase 인증, Stripe 결제, Vercel 배포를 활용했습니다.