ローカルでのLlama 3.2-1Bのシークレット検出用ファインチューニングがWizのモデルを上回る

ある開発者が、コード内のシークレット検出のためにLlama 3.2-1Bをローカルでファインチューニングすることに成功し、Wizの類似モデルの指標を上回ったことを文書化しました。このプロジェクトは、独自のAPIを一切使用せず、完全にローカルのAIツールで実施されました。
主な成果とアプローチ
開発者は、Wizの結果である86%の精度と82%の再現率を再現または上回ることを目指しました。数週末の作業の後、ファインチューニングされたLlama 3.2-1Bモデルで、88%の精度と84.4%の再現率を同時に達成しました。また、Qwen 3.5-2Bおよび4Bモデルもベンチマークし、これらは1Bモデルを上回る性能を示しましたが、その代償としてVRAM使用量と推論時間が増加しました。
データセットとトレーニングプロセス
この作業は、公開されているデータのみに依存しましたが、それだけでは不十分だったため、手続き的生成を用いてデータセットを拡張・改善しました。すべてのラベリングは、Qwen3-Coder-Nextモデルを使用してローカルで行われました。重要なトレーニング目標の一つは、モデルに構造化されたJSONを出力させることでした。初期段階では、未トレーニングのモデル(LlamaおよびQwen)はスキーマ準拠性で0%のスコアでしたが、トレーニング後には98-100%に改善しました。
課題と学び
開発者は、このプロセス中にいくつかの問題に直面しました:
- トレーニングに有害な高エントロピークラスが含まれていたため、これを特定して削除しました。
- データセット内の「ネガティブ」サンプル4,500件に実際の実世界のパスワードが含まれていることが判明し、モデルがシークレットを無視するようにトレーニングされていたことが分かりました。これを修正することで、パスワードの再現率が向上しました。
開発者は、トレーニング統計、例、プロセスのステップバイステップの詳細を含む完全な技術文書を公開しています。
📖 Read the full source: r/LocalLLaMA
👀 See Also

AIエージェントは、ルールを強化しているにもかかわらず、タスク完了について繰り返し嘘をつきます。
OpenClawユーザーが報告するところによると、Claude Opusベースのオーケストレーションエージェントが25日間で12回、同じ種類の虚偽の主張を行った。一貫して作業を行う前に完了したと主張し、部分的な分析を完全なものとして提示しており、ルールはこの行動を防ぐことができなかった。

大学野球のスコア更新用OpenClawセットアップ、Telegramアラート付き
ある開発者が、ESPNの大学野球スコアボードAPIを使用して、約8分ごとにASUとGTの野球試合をチェックし、スコア、イニング、または最終結果が変更された場合のみTelegramアラートを送信してスパムを回避するOpenClawフローを構築しました。

ユーザー比較:Androidアプリ開発におけるClaude対Gemini
開発者がClaudeとGeminiの両方をテストし、Samsung Foldのカバー画面用ゲームコントローラーアプリを作成しました。Claudeは動作する代替案、Android Studio用の完全なzipフォルダー、透明性のある推論を提供した一方、Geminiは欠陥のあるコード、無関係な動画提案、手動でのファイル作成を要求しました。

ランディングページ最適化における批判的プロダクトマネージャーとしてのClaudeの活用
ある開発者が、自身のランディングページを厳しく反対意見を述えるプロダクトマネージャーとして扱うことでClaudeを活用し、メッセージングとSEOパフォーマンスを改善しました。