南アフリカ内務省の職員2名、政策文書におけるAIの誤情報で停職処分

南アフリカ内務省(DHA)は、市民権、移民、難民保護に関する改訂白書の参考文献リストにAI生成による幻覚が含まれていたことを受け、2人の職員を停職処分とした。停職処分の対象は、市民権・移民ユニットの首席局長と文書起草に関わった局長である。
何が起きたか
白書に添付された参考文献リストで不一致が発見された。その参考文献は、大規模言語モデル(LLM)による誤った、または架空の出力である幻覚と判断された。DHAの声明によると、これらの参考文献は本文中で引用されておらず、事後的に生成・添付された可能性があるという。
対応と新たな手順
DHAはこの事態を恥ずべきことと認め、これを機に業務プロセスを現代化すると述べた。今後は、内部承認プロセスの一環としてAIチェックおよび申告の設計と実施を行う。また、2つの独立した法律事務所を指名し、懲戒手続きを管理するとともに、ChatGPTが公開された2022年11月30日以降に作成されたすべての政策文書を再点検する。
DHAは、改訂された政策は政府の立場を正確に反映しており、その内容を支持するとし、幻覚は独立した参考文献リストに限られていたと述べている。
より広い背景
この事件は、1週間前に通信・デジタル技術省(DCDT)が、架空の出典が見つかった国家AI政策草案を撤回した事件に続くものである。ソリー・マラツィ大臣は、「最も妥当な説明は、AI生成の引用が適切な検証なしに含められたことだ」と述べている。
DHAはAIの利用拡大を受け入れ、組織は適応しなければならないと述べている。「これは変革的だが破壊的な技術であり、民間・公共部門を問わず組織の運営方法を変えつつある。私たちは今、追いつくために適応しなければならない。」
この事例は、厳格な検証なしにLLMを文書作成に使用した場合の現実的な結果を示している。特に正確性が重要視される政府機関ではなおさらである。AIエージェントを扱う開発者にとっては、検証レイヤー、引用チェック、人間による確認の必要性を強調するものである。
📖 全文はこちら: HN AI Agents
👀 See Also

マルチエージェントAIシステムにおける関係性ガバナンスの必要性
現在のガバナンスフレームワークは、アイデンティティ、権限、キルスイッチに焦点を当てていますが、エージェント間の調整には対応できていません。セールスフォースの研究によると、エージェント間の相互作用には専用のソリューションが必要であり、交渉においては支配よりも温かみが優れた結果をもたらすことが研究で明らかになっています。

GLM-5.1がリリースされ、コーディング性能がClaude Opus 4.5に匹敵
Zhipu AIのGLM-5.1モデルが、すべてのCoding Planユーザーに利用可能になりました。このモデルは、SWE-bench-Verifiedで77.8ポイント、Terminal Bench 2.0で56.2ポイントを達成しています。特徴として、200Kのコンテキストウィンドウ、128Kの最大出力、744Bパラメータ(40Bアクティブ)を備えています。

アンソロピックのClaude Mythos AIモデルがデータ流出で明らかに、能力は「段階的変化」と評される
Anthropicは、Claude Mythos(別名Capybara)と呼ばれる新しいAIモデルをテストしており、これはパフォーマンスにおける「段階的変化」を表し、Claude Opus 4.6と比較してソフトウェアコーディング、学術的推論、サイバーセキュリティテストで劇的に高いスコアを記録しています。このモデルの存在は、約3,000件の未公開アセットを含む、保護されていない公開アクセス可能なデータキャッシュからのデータ漏洩によって明らかになりました。

Claude Code 2.1.132:マルチエージェントドキュメント、スケジュールゲート、スキル制限の変更
リリースv2.1.132では、マルチエージェントセッション、成果、ウェブフックに関するManaged Agentsのドキュメントが追加され、プロアクティブな/スケジュール提案に対してデフォルト拒否ゲートが導入され、エージェントあたりの文書化されたスキル上限が64から20に引き下げられました。