Ollama 소스코드: 재사용 가능한 Go 컴포넌트 5종 분석

Ollama 코드베이스의 독립형 구성요소

한 개발자가 최근 Ollama의 소스 코드를 분석하여 다른 Go 프로젝트에서 독립적으로 사용할 수 있는 부분들을 식별했습니다. 이 조사 결과, 다른 곳에서는 동등한 독립형 Go 라이브러리가 제공되지 않는 여러 구성요소가 발견되었습니다.

토큰 샘플링 구현

Ollama의 sample/ 패키지에는 온도, top-k, top-p, min-p, 그리고 탐욕적 샘플링을 순수 Go로 구현한 코드가 포함되어 있습니다. 이 개발자는 독립형 Go 대안을 찾지 못했습니다. 기존 솔루션들은 CGo를 통해 llama.cpp를 래핑하거나 매개변수를 원격 API로 전송합니다. 파이프라인 순서(topK 먼저, 그다음 온도, softmax, topP, minP)는 중요한 역할을 하며, 이를 변경하면 다른 출력이 생성됩니다.

GGUF 파일 처리

원격 파싱과 VRAM 추정 같은 기능을 제공하는 독립적인 GGUF 리더(gpustack/gguf-parser-go)가 있지만, 이는 읽기 전용입니다. Ollama의 fs/ggml 패키지에는 Go 생태계의 다른 곳에서는 동등한 것이 없는 WriteGGUF() 함수가 포함되어 있습니다. 더 낮은 수준의 리더(fs/gguf)는 특히 깔끔하며 Ollama 코드베이스의 나머지 부분에서 가져오는 임포트가 전혀 없습니다. 5개의 파일만 복사하면 독립적으로 컴파일됩니다. 그러나 GGUF 파싱 코드에는 보안 문제가 있습니다: 악성 GGUF 파일로 인해 13개 이상의 DoS 관련 CVE가 발생했으며, 소스 코드에는 공격자가 제어하는 크기 필드로 인해 무제한 메모리 할당을 초래할 수 있는 입력 검증 결함이 있습니다.

모델 변환 기능

convert/ 패키지는 25개 이상의 모델 아키텍처에 대해 SafeTensors와 PyTorch를 GGUF로 변환합니다. 유일한 동등물은 Python의 convert_hf_to_gguf.py입니다. 이 구성요소를 추출하는 것은 내부 패키지에 대한 의존성 때문에 더 복잡하지만, 리더와 토크나이저 부분은 놀랍게도 독립적입니다.

채팅 템플릿 시스템

Ollama에는 20개 이상의 내장 채팅 템플릿이 포함되어 있으며, GGUF 파일의 Jinja2 템플릿 문자열을 Go 동등물과 매칭하기 위해 Levenshtein 거리를 사용한 퍼지 매칭 접근 방식을 사용합니다. 기존 Go 라이브러리 중 모델별 채팅 템플릿 렌더링을 제공하는 것은 없지만, 각 새로운 모델 형식에는 수동으로 포팅된 템플릿이 필요합니다.

OpenAI 호환성 레이어

약 600줄의 순수 변환 함수들이 HTTP 로직 없이 OpenAI 형식을 Ollama 형식으로 변환합니다. 이 깔끔한 구현에도 불구하고, LocalAI와 one-api 같은 프로젝트들은 이 구성요소를 추출하기보다 처음부터 자체 버전을 구축했습니다.

보안 고려사항

이 분석은 우려되는 보안 측면들을 지적했습니다: 2024년 이후 22개 이상의 CVE, SentinelOne가 발견한 175,000개 이상의 노출된 인스턴스, 그리고 내장된 API 인증 기능 부재. GGUF 파싱 취약점은 해당 코드를 추출하는 모든 경우에 영향을 미치지만, 샘플러와 OpenAI 변환기는 깔끔합니다.

Go 생태계의 공백

이 개발자는 Go 생태계가 상위(API 클라이언트, HTTP 서버)와 하위(CGo 바인딩을 통한 GGML 및 CUDA)에는 좋은 도구들을 가지고 있지만, 샘플링, 템플릿, 형식 변환, GGUF 쓰기를 위한 중간 계층이 현재 Ollama 내부에만 존재한다는 점을 관찰했습니다.

📖 전체 소스 읽기: r/LocalLLaMA