ローカル vs クラウドモデル:Qwen-3.6-27B、Gemma-4-31B、Claude Haiku、Codex-Spark のハードコード生成比較

あるRedditユーザーが、ローカルで実行したQwen-3.6-27B(GGUF q4_k_m)とAPIでの同等モデル(OpenRouter経由のQwen-3.6-27B、OpenRouter経由のGemma-4-31B、Claude Haiku 4.5、GPT-Codex-Spark)を比較しました。テストでは、設計書からのオートリサーチループの実装という、成功率ではなく失敗の鮮明さを評価するために意図的に難しいタスクが使用されました。
ハードウェア構成
- CPU: Ryzen 7 7800X3D
- RAM: 64 GB DDR5-6400
- GPU: RTX 5080(16 GB VRAM)
- ローカルモデル: Qwen-3.6-27B q4_k_m(GGUF)—量子化により16 GB VRAMに適合
結果
- Gemma-4-31B(API): 完全に失敗。モックされたモジュールでスケルトンを作成したが、テストや設定ファイル(
__init__.py、requirements.txt、pyproject.toml)はなし。コスト: $0.112、803kコンテキストトークン消費、21k生成。 - Codex-Spark(API): 美しいフォルダ構造とコードを生成したが、インポートは幻覚。単体テストなし。$100/月のSpark制限の1%を使用。
- Claude Haiku 4.5(API): 詳細な実装だが、正しさに失敗。(詳細はソースで省略)
- Qwen-3.6-27B(ローカルq4_k_m): 明示的なスコアはないが、量子化推論はフル精度API版と比べて品質が低下するとユーザーは指摘。
コンテキスト
ユーザーは、典型的なローカルモデル評価では、ローカルモデルも最先端モデルも成功する簡単なタスク(例:HTMLでスネークゲーム)が使われ、そのためローカルモデルが実際よりも優れているように見えると主張。このテストでは設計書付きの実際のプロジェクトを使用し、完全に書かれた(ただし壊れた)コードを生成したのはCodex-Sparkだけだった。ポイントは、ローカルモデルは大幅な修正なしでは複雑なコード生成にはまだ対応していないということ。
📖 Read the full source: r/LocalLLaMA
👀 See Also

君 $19/月 アップデート:構造化モデルによるOpenClawの強化
Kimiは、OpenClaw内のモデル構造化の強化に焦点を当てた最新アップデートを月額19ドルで導入しました。このアップデートは、効率的な運用と自動化機能の向上を約束します。

微調整されたQwen3 Smallモデルは、特定のタスクにおいてフロンティアLLMを凌駕し、低コストで優れた性能を発揮します
蒸留されたQwen3モデル(0.6Bから8Bパラメータ)は、関数呼び出しやText2SQLを含む9つのタスクのうち6つで、GPT-5、Gemini、Claudeなどの最先端APIモデルに匹敵するか上回る性能を示し、同等の性能に対して100万リクエストあたりのコストはわずか3ドル(比較対象は378ドル)でした。

Claude Opus 4.7におけるエラー増加の状況:アップデートと今後の見通し
Claude Opus 4.7は、2026年5月19日15:21UTC現在、エラー率が上昇しています。進捗状況と解決策については、status.claude.comをご確認ください。

Claude Code v2.1.77 リリース: トークン制限、サンドボックス制御、バグ修正
Claude Code v2.1.77は、Claude Opus 4.6のデフォルト最大出力トークン制限を64kトークンに増やし、allowReadサンドボックスファイルシステム設定を追加しました。このリリースには、メモリ管理からターミナルUIの動作まで、30以上の問題修正が含まれています。