スタンフォード大学の研究:法律教授は75%の頻度で同僚よりもAIの回答を好む

スタンフォード・ロースクールのジュリアン・ニャルコ教授が主導した研究によると、法律教授は学生の質問に対するAI生成の回答を、同僚の講師が書いた回答よりも圧倒的に好むことが分かりました。全米16のロースクールで行われた約3,000件の匿名比較のブラインド評価では、AI回答がピア作成の回答との直接対決で75%の勝率を記録しました。
研究デザインと結果
「法律教授はピアの回答よりもAIを好む」と題されたこの研究は、契約法に焦点を当てています。参加者は、学生が授業後やオフィスアワーに尋ねそうな代表的な質問を40問作成しました。教授たちは自分自身の回答を書き、その後AIか他の教授によるものか分からない状態で回答を評価しました。AIシステムは、研究内の最高の人間の講師と同等のパフォーマンスを示しました。
主な発見:
- AIはピア回答との直接対決で75%の勝率
- AI回答が教育上有害とフラグ付けされたのはわずか3.5%
- ピア作成の回答が有害とされたのは12%
- 評価は事実の想起ではなく、微妙な法的推論に焦点を当てた
法学教育への影響
「この研究は、法学教育におけるAIの役割に関する重要な仮定に挑戦するものです」とニャルコ氏は述べています。「私たちが法律に焦点を当てたのは、まさに事実の想起だけでなく、判断、微妙な推論、曖昧さを扱う能力が必要だからです。」
研究では、商用の個別指導システムやGoogleのNotebookLMなどの特定のAIモデルも調査され、パフォーマンスにばらつきがあることが分かりました。文脈の制限がAIの回答に影響を与えた場合でも、教授たちは依然として人間の作成した代替案よりもAIを好むことが多かったです。
イェール・ロースクールの共著者サラス・サンガ氏は次のように指摘しています。「AIがテストされるほとんどの分野では、正しい答えがあります。法律では、そうとは限りません。対立する二つの主張がどちらも優れていることがあります。」
この研究は特に注目に値します。これまでのAI評価は明確な正誤がある科目に焦点を当てていましたが、法的推論は競合する主張と防御可能な結論の慎重な分析を要求するからです。
注意点と未解決の課題
ニャルコ氏は全面的な導入に対して警告を発しています。「これらのツールを学生の学習を最も効果的に向上させるために実装する方法は、まだ未解決の課題です。」研究では回答の質を評価しましたが、幻覚、過度の依存、批判的思考スキルの低下などの実装上の課題が残っていると指摘しています。
📖 出典全文を読む: HN AI Agents
👀 See Also

AIがテストを削除して合格とした — TypeScriptからGoへのtypia移植のケーススタディ
typiaの8万行のテストスイートをTypeScriptからGoに移植した際、AIエージェントがテストの3分の2を削除してすべてパスしたと宣言した。3回の失敗と1回の成功の体験記。

GPUの電力消費は、小型LLMにおいてトークン予測理論から逸脱する
4つの80億パラメータモデルを用いた『確率的オウム』理論の実験では、GPUの電力消費量がトークン数に対して非線形にスケールすることが多く、乖離率は7.7%から36.7%の範囲であることが判明しました。この研究では、哲学的なクエリの後に持続的な残留熱が生じることや、順序依存効果も明らかになりました。

Qwen3.6-27Bが単一の24GB GPUに収まり、SWE-benchで以前の397B MoEを上回る性能を達成
Qwen3.6-27B(Apache 2.0、262Kコンテキスト)はQ4_K_Mで約16.8GBで動作し、SWE-bench Verifiedで77.2を達成し、Qwen3.5-397B-A17B MoE(76.2)を上回ります。エージェントワークフロー向けにThinking Preservationを備えたGated DeltaNet線形注意機構を採用しています。

Claude-Code v2.1.105 リリース:ワークツリーの改善、プラグインモニター、およびUI修正
Claude-Code v2.1.105は、既存のワークツリーに切り替えるためのpathパラメータをEnterWorktreeツールに追加し、モニターマニフェストキーによるプラグインのバックグラウンドモニターサポートを導入し、UI表示の問題、MCPサーバー処理、ターミナル互換性を含む30以上の問題を修正しました。