Semble: 98%のトークン削減を実現するClaude Code用ローカルMCPサーバー

Sembleは、Claude Codeがローカルコードベースを効率的に検索できるようにするMCPサーバーで、完全なファイルではなく関連するコードチャンクのみを返します。静的埋め込み、BM25、コード最適化されたリランキングスタックのハイブリッドを使用し、すべてCPU上でローカルに実行されます。APIキー、GPU、重い依存関係は不要です。
インストール
uvxでインストール:
claude mcp add semble -s user -- uvx --from "semble[mcp]" semble
インストール後、Claude Codeはローカルまたはリモートの任意のリポジトリを直接検索できます。
主な詳細
- トークン削減: 標準的なgrep+readアプローチと比較して約98%少ないトークンを使用。
- パフォーマンス: 任意のリポジトリを約250msでインデックス化し、クエリに約1.5msで応答(すべてCPU上)。
- 品質: NDCG@10スコア0.854を達成。テスト済みの最良のトランスフォーマーハイブリッドの99%の品質を、約200倍高速に実現。
- ベンチマーク比較対象: grepai、probe、colgrep、その他の既存手法。
- オープンソース: MinishLab組織のGitHubで入手可能。
対象ユーザー
大規模なコードベースでClaude Codeを使用する開発者で、外部API呼び出しなしで高品質なコード検索結果を得ながら、トークン消費とレイテンシを削減したい方。
📖 Read the full source: r/ClaudeAI
👀 See Also

Qwen2-0.5Bをllama.cppでローカルタスク自動化向けにファインチューニング
開発者は、LoRAを用いて約1000件のカスタム例でQwen2-0.5Bをファインチューニングし、llama.cpp経由でCPU上でローカル実行可能な300MBのGGUFモデルを作成しました。このモデルは自然言語タスクを受け取り、タスクタイプを検出し、CLIコマンドとホットキーを含む実行計画を生成します。

エア:Rustで書かれたPython用SIMDコンパイラ
開発者は、約12k行のRustでSIMDカーネル用コンパイラ「Eä」を構築しました。これは.eaファイルから共有ライブラリとPythonラッパーを生成し、ctypesやビルドシステムなしでNumPyよりも6.6倍の高速化を実現しています。

マルチエージェント開発のためのコーディネーターサーバーによる上書き防止
開発者がNode.jsコーディネーターサーバーを構築し、同じコードベースで作業するAIエージェント間の行範囲ロック、行シフト追跡、リアルタイムメッセージングを管理しています。HTTPベースのロックと競合検出を使用することで、エージェントが互いの作業を上書きするのを防ぎます。

AMDのレモネード:GPUとNPU向けオープンソースローカルLLMサーバー
Lemonadeは、GPUとNPU上でテキスト、画像、音声モデルを実行するオープンソースのローカルAIサーバーです。OpenAI API互換で、複数のモデルを同時にサポートし、2MBのネイティブC++バックエンドを備えています。