로컬에서 실행되는 Gemma 4 26B A4B용 싱글 페이지 챗봇 인터페이스

한 개발자가 Gemma 4 26B A4B를 로컬에서 실행하며 작동하도록 설계된 단일 페이지 HTML 챗봇 인터페이스를 만들었습니다. 이 구현은 LM Studio의 API에 연결하고 단일 HTML 파일 내에서 완전한 챗봇 인터페이스를 제공합니다.
기술적 구현
이 시스템은 32K 컨텍스트 윈도우로 Gemma 4 26B A4B를 로컬에서 실행하며, 초당 50-65 토큰을 처리합니다. 모델은 두 개의 GPU(7900 XT와 3060 Ti) 사이에 샤딩되어 분배됩니다.
인터페이스 기능
- 실시간 응답을 위한 완전한 스트리밍 지원
- 서식이 지정된 출력을 위한 마크다운 렌더링
- 사용 가능한 모델 간 전환을 위한 모델 선택기
- 모델 동작 미세 조정을 위한 6개의 매개변수 슬라이더
- 히스토리 분기 기능이 있는 메시지 편집
- 응답 재생성을 위한 재생성 기능
- 스트리밍 중 생성을 중단할 수 있는 중단 버튼
- 사용자 지정 지침을 위한 시스템 프롬프트 지원
개발 세부사항
개발자는 Gemma가 해결하지 못한 두 개의 DOM 버그를 수정하는 데 Claude가 사용되었다고 언급했습니다. 다른 모든 개발 작업은 Gemma 4를 사용하여 완료되었습니다. 이 프로젝트는 검토 및 사용을 위해 GitHub에서 이용할 수 있습니다.
이러한 유형의 단일 페이지 인터페이스는 복잡한 웹 애플리케이션의 오버헤드 없이 가볍고 사용자 정의 가능한 채팅 인터페이스를 원하는 로컬 LLM을 사용하는 개발자에게 특히 유용합니다. LM Studio의 API와의 통합은 Gemma뿐만 아니라 다양한 로컬 모델과 호환되도록 합니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

소스 제어 PR 리뷰를 위한 AI 검사 구현
Continue는 마크다운 파일을 소스 제어된 체크로 사용하여 GitHub 상태 체크를 통해 확인 가능하게 함으로써 AI 체크를 풀 리퀘스트 워크플로우에 직접 통합합니다.

프롬프트포레스트: 불확실성을 활용한 로컬 퍼스트 프롬프트 인젝션 탐지
PromptForest는 프롬프트 인젝션과 탈옥을 감지하고, 평균 요청 지연 시간을 증가시키지 않으면서 확실성을 평가하여 분류하는 경량의 로컬-퍼스트 라이브러리입니다.

세션 사이펀: 오픈소스 도구로 AI 코딩 에이전트 대화를 통합합니다
세션 사이펀은 무료 오픈 소스 도구로, 다양한 제공업체와 기기에서 여러 AI 코딩 에이전트의 대화 기록을 통합하고 인덱싱합니다. 개발자는 다양한 플랫폼 간 대화를 추적하는 문제를 해결하기 위해 Claude를 사용하여 이 도구를 만들었습니다.

MCP 슬림: MCP 도구를 위한 로컬 임베딩 검색으로 컨텍스트 비대화 감소
MCP Slim은 전체 MCP 도구 카탈로그를 세 가지 메타 도구(검색, 설명, 호출)로 대체하는 프록시로, 시맨틱 검색을 위해 로컬 MiniLM 임베딩을 사용합니다. 이는 96%의 컨텍스트 윈도우 감소를 달성하며 API 키 없이 오프라인에서 작동합니다.