0.5B LLMをMiyooでオンデバイス実行する方法

概要

SpruceChatは、llama.cppを使用してQwen2.5-0.5B言語モデルを完全にオンデバイスで複数の携帯型ゲーム機上で動作させるプロジェクトです。初期設定後はクラウド接続やWiFiを必要としません。

主な詳細

モデルは初回起動後にRAMに常駐し、生成時にはトークンが一つずつストリーミングされます。Miyoo A30、Miyoo Flip、Trimui Brick、Trimui Smart Proで動作します。

Miyoo A30（Cortex-A7クアッドコアプロセッサ搭載）でのパフォーマンス：

モデルロード：初回起動時約60秒
生成速度：約1-2トークン/秒
プロンプト評価：約3トークン/秒

開発者は「高速ではないが、ストリーミングされるため思考過程を観察できる」と述べており、64ビットデバイスの方が速いと指摘しています。

このAIは「トウヒの木のような性格：忍耐強く、急がず、全てのものに静かに驚嘆する」と表現されています。

デバイスがWiFiに接続されている場合、ブラウザからllama-serverにアクセスして、スマートフォンやノートパソコンの実キーボードでチャットすることも可能です。

リポジトリはhttps://github.com/RED-BASE/SpruceChatにあります。このプロジェクトはClaudeの助けを借りて構築され、デバイスサポート拡大に取り組む共同作業者も既に参加しています。初回リリースではarmhfとaarch64バイナリの両方が提供され、モデルも同梱されています。

📖 Read the full source: r/LocalLLaMA

SpruceChatは、llama.cppを介してMiyooハンドヘルド端末上で0.5B LLMをオンデバイスで動作させます。

概要

主な詳細

👀 See Also

htmLLM-124M v2 リリース：特化型HTML/Bootstrapオートコンプリートモデル

「簡潔さ」がClaude Code圧縮ベンチマークで原始人プラグインを破る

tmux-claude: Tmuxペイン間でのClaudeコードインスタンスの監視

OpenClaw開発者、900回のユーザートライアル後にキラー用途を模索中