Torrix: Postgres 또는 Redis 없이 자체 호스팅하는 LLM 관측 가능성

Torrix는 Postgres, Redis 또는 복잡한 인프라 없이 에이전트가 프로덕션에서 무엇을 하는지 확인하려는 팀을 위해 설계된 자체 호스팅 LLM 관측 도구입니다. SQLite를 기반으로 하는 단일 Docker 컨테이너로 실행됩니다. 전체 설치는 다음과 같습니다:
curl -o docker-compose.yml https://raw.githubusercontent.com/torrix-ai/install/main/docker-compose.community.yml
docker compose up외부 종속성이 없습니다. 모든 데이터는 로컬 SQLite 파일에 저장됩니다. 시작 후 http://localhost:8088을 열고 계정을 생성하세요.
주요 기능
- LLM 호출 로깅: HTTP 프록시 또는 Python/Node.js SDK를 통해 토큰, 비용, 지연 시간, 전체 프롬프트 및 응답 추적, 추론 토큰 캡처
- 공급자 지원: OpenAI, Anthropic, Gemini, Groq, Mistral, Azure OpenAI 및 모든 OpenAI API 호환 엔드포인트
- 비용 예측 및 하드 예산 한도
- PII 마스킹
- 모델 라우팅 규칙
- 골든 실행 및 AI 평가자를 통한 평가
- 버전 기록이 있는 프롬프트 라이브러리
- 환경별 필터링을 위한 실행 태그
- AI 어시스턴트가 로그를 쿼리할 수 있는 MCP 서버
- 이미 OpenTelemetry를 사용하는 앱을 위한 OTLP/HTTP 수집
SDK 사용 예제 (Python)
pip install torrix
import torrix
from openai import OpenAI
torrix.init(api_key="<your-torrix-api-key>", base_url="http://localhost:8088")
client = torrix.wrap(OpenAI(api_key="<your-openai-key>"))
response = client.chat.completions.create(
model="gpt-4o-mini",
messages=[{"role": "user", "content": "Hello!"}],
torrix_name="my-run",
)
print(response.choices[0].message.content)
Node.js SDK는 npm install로도 사용할 수 있습니다.
라이선싱 및 확장
커뮤니티 에디션은 사용자 1명, 보존 기간 7일로 무료입니다. Pro는 팀, RBAC, 30일 보존, API 키 관리, 전체 텍스트 검색 및 감사 로그를 추가합니다. SQLite는 높은 쓰기 처리량에 적합하지 않으며, 이 도구는 일일 수백에서 수천 건의 LLM 호출을 기록하는 팀을 대상으로 합니다(수백만 건이 아닌).
📖 전체 소스 읽기: HN LLM Tools
👀 See Also

인지과학 기법으로 LLM 창의성 강화: Claude 코드용 /reframe 슬래시 명령어
레딧 사용자가 Claude Code용 /reframe 슬래시 명령어를 개발했는데, 이 명령어는 거리-참여 진동이라는 인지과학 기법을 구현하여 세 가지 오픈 웨이트 LLM에서 테스트한 결과 창의적 문제 해결 능력을 40% 향상시켰습니다.

Zerostack 1.0.0: 순수 Rust로 구현된 유닉스 스타일 코딩 에이전트
Zerostack은 순수 Rust로 작성된 코딩 에이전트로, 유닉스 철학(작고 조합 가능한 도구들이 stdin/stdout으로 파이프 연결됨)을 모델로 했습니다.

도슨트: 클로드 코드로 구축된 논문 분석 AI 어시스턴트
한 개발자가 Claude Code를 사용하여 업로드된 논문을 읽고, 발표하며, 질문에 답하고, 이해도를 평가하는 AI 어시스턴트 Docent를 만들었습니다. 이 프로젝트는 MIT 라이선스 하에 GitHub에서 이용 가능하며, Vercel에 데모가 있습니다.

Atlas 추론 엔진 오픈소스화: 순수 Rust + CUDA, DGX Spark에서 초당 100+ 토큰
Atlas가 이제 오픈소스가 되었습니다 — 단일 DGX Spark에서 Qwen3.5-35B (NVFP4)에 대해 최대 130 tok/s를 달성하는 Rust + CUDA 추론 엔진으로, Python 런타임이 없고 콜드 스타트가 2분 미만입니다.