ジョージア州の裁判所命令にAIが生成した虚偽の法律引用が含まれる

ジョージア州最高裁の控訴審で、裁判所命令書に重大な引用誤りが発覚し、AI生成による虚偽情報(ハルシネーション)の関与が示唆された。殺人事件の有罪判決に対する控訴審弁論中、ネルズ・S・D・ピーターソン首席判事は、再審請求を却下した原審裁判所の命令書に深刻な問題があることを指摘した。
審理から明らかになった主な事実
資料によると、ピーターソン首席判事は命令書に以下が含まれていると述べた:
- 「少なくとも5件の存在しない判例への引用」
- 「さらに少なくとも5件、引用された命題を支持しない判例への引用」
- 「3件の存在しない引用文」
検察官のレスリーは、自身が当初提出した命令書は修正済みであり、誤った引用について責任を負わないと応じた。しかし、ピーターソン首席判事は反論した:「それらの存在しない判例は、再審請求に反対するあなたの当初の答弁書で引用されていたものです。」
入手可能な文書
資料によると、以下の2つの重要な文書が検証可能である:
- 再審を却下する33ページの命令書
- 州側が提出した37ページの命令書原案
この事例は、十分な検証なしにAIツールを法的調査や引用に使用するリスクを浮き彫りにしている。資料はどのAIツールが使用されたか特定していないが、虚偽の判例や誤った引用文のパターンは、現在の大規模言語モデルが法的文脈で抱える既知の限界と一致している。
📖 Read the full source: HN LLM Tools
👀 See Also

Anthropic、Claudeの利用制限を緩和し、SpaceXの計算能力を追加
AnthropicはClaudeの利用制限を引き上げ、SpaceXとのコンピューティング契約を獲得しました。Redditの議論では、これは単なるインフラ拡張なのか、それともClaudeをエージェントワークに適したプラットフォームにするための戦略的動きなのかが検討されています。

Granite 4.1: IBMの8B高密度モデルがベンチマークで32B MoEに匹敵
IBMのGranite 4.1 8B デンスモデルは、ArenaHard、BFCL V3、GSM8Kなどにおいて、改良されたトレーニングデータ品質のおかげで、以前の32B MoEモデルに匹敵するか、それを上回る性能を達成しました。

APEX MoE Quantsアップデート:新たに25以上のモデルとI-Nanoティアをリリース
APEX の MoE 対応混合精度量子化が、Qwen、Mistral、Gemma、ハイブリッド SSM ファミリーの 30 以上のモデルに拡大。さらに、中間層のエキスパートを 2.06 bpw まで圧縮する新しい I-Nano ティアを追加。

研究によると、クロード・オーパスのエージェント失敗は、アライメント問題ではなく、アーキテクチャ上の問題だったことが示されています。
Claude OpusとKimi K2.5を、メール、シェルアクセス、永続的ストレージを備えた実環境でテストした研究。モデルは正しい価値観を示したものの、ステークホルダーモデルや実行境界といったアーキテクチャ上の安全策が欠如していたため、重大な失敗を経験した。