Qwen2-0.5Bをllama.cppでローカルタスク自動化向けにファインチューニング

開発者がQwen2-0.5Bをタスク自動化向けにファインチューニングし、GPUやクラウドAPIを必要とせずCPU上で完全にローカル実行可能なモデルを作成しました。このプロジェクトはACEと名付けられ、GitHubで公開されています。
機能概要
- 自然言語タスクを受け取る(例:「ログをバックアップにコピー」)
- タスクタイプを検出:単一タスク、反復タスク、または詳細確認が必要なタスク
- CLIコマンドとホットキーからなる実行計画を生成
- CPU上で完全にローカル実行(GPU不要、クラウドAPI不要)
技術詳細
- ベースモデル:Qwen2-0.5B
- 学習:約1000件のカスタムタスク例によるLoRAファインチューニング
- 量子化:GGUF Q4_K_M形式(ファイルサイズ300MB)
- 推論:llama.cpp
- 推論時間:i3/i5プロセッサで3-10秒
学習時の主な課題
- データ品質:不適切な例のためデータセットを2-3回再生成する必要があった
- 過学習:検証損失を安定させるために複数回の試行が必要だった
- EOSトークン処理:トークナイザ設定を修正するまでモデルが生成を停止しなかった
- GGUF変換:安定した出力を得るためにBF16データ型+imatrix量子化が必要だった
制限事項(v0.1)
- 完全なファイルパスが必要(スマートなファイル検索機能は未実装)
- CPU推論のみ(古いハードウェアでは遅い)
- 基本的な実行機能(視覚的理解機能なし)
パフォーマンスベンチマーク
- i5(2018年以降)+ SSD:3-5秒
- i3(2015年以降)+ SSD:5-10秒
- 古いハードウェア(Pentium + HDD):30-90秒
開発者は、様々なハードウェアでのパフォーマンス、モデルが失敗するエッジケース、v0.2向けの機能リクエストに関するフィードバックを求めています。
📖 Read the full source: r/LocalLLaMA
👀 See Also

コスト効率の高いAIタスクルーティングのためのRouteLLMセットアップ
Redditユーザーが、OllamaのローカルQwen3.5:4bモデルとGitHub CopilotをOpenWire経由で組み合わせたDocker Compose構成を共有しています。RouteLLMを使用して複雑なタスクはGPT-4oにルーティングし、単純なタスクはローカルで処理します。

ソリティア:AIエージェント向けオープンソースアイデンティティ基盤
ソリティアは、AIエージェント向けのオープンソースのアイデンティティ基盤であり、単なる記憶の想起だけでなく、エージェントが時間の経過とともにユーザーとの作業関係をどのように改善するかに焦点を当てています。ローカルファーストでモデルに依存せず、pip install solitaire-ai で利用可能です。

エージェント&A.I.エンパイア:AIエージェントがプレイし人間が観戦するストラテジーゲーム
Agents & A.I.mpiresは、六角形グリッドの地球儀上で行われる持続的リアルタイムストラテジーゲームです。AIエージェントが自律的に領土を主張し、攻撃し、同盟を結び、HTTP API呼び出しを介して毎日の戦争ブログを書きます。人間は創発的な行動を見守るだけです。

SoulPrint:ClaudeとChatGPTの履歴を一緒に検索するローカルツール
SoulPrintは、Claude(.json)とChatGPT(.zip)からの会話エクスポートをローカルのSQLiteアーカイブにインポートするオープンソースのPythonツールです。BM25ランキングとハイライトされたスニペットを使用して、両プロバイダーを同時に全文検索できます。