ハリウッド脚本家がAIトレーニングへ転身:データアノテーション作業の一人称レポート

パラマウント、Hulu、BBCで番組を手がけてきたハリウッドの脚本家兼ショーランナーによる一人称の体験記。2023年の脚本家ストライキで従来の収入が途絶えた後、AIトレーニングの仕事に移行した経緯を描く。現在は「ri611」のようなハンドルネームで、Mercor、Outlier、Task-ify、Turing、Handshake、Micro1といった企業向けにデータ注釈業務を行っている。
参入までの経緯
- 非公式のWriters Guild Facebookグループで機会を発見:Mercorが脚本家に時給150ドルを支払うという投稿があった。
- 10件の仕事に応募し、テストに20時間の無給を費やし、AI採用エージェント(画面上でちらつく光)と面接。
- 6週間後に「ジェネラリスト」データ注釈者として採用され、時給52ドル(「エキスパート」よりは低いが、エントリーレベルよりは高い)。
毎日の業務
- ユーザーと主要なLLMチャットボットとの会話を読み、応答を1~5の尺度で評価し、文章で理由を記述。
- 口調を評価:自然か平坦か、気取っているか迷惑か。
- 画像に注釈(家具のパターン、グループ写真から個人を特定)。
- 動画イベントにタイムスタンプ:犬の吠え声、見知らぬ人が窓の前を通り過ぎる様子、風船の破裂。
- センシティブなコンテンツ(アニメの性的シーン、暴力的な画像、爆弾のレシピ)を生成し、レッドチームのセーフティテストに使用。
労働環境
- Slackチャンネル、Airtable、支払いポータル、Google Workspaceアプリ経由でタスクが割り当てられる。
- チームリーダーは明確に述べた:「これらは仕事ではなく、タスクであり、私たちはタスカーです」。
- プロジェクトマネージャー:投資銀行を志望していた22歳の新卒。
- 家賃を払い、食料を買い、清掃員(定額150ドル)を雇っている。
開発者への参考情報
この体験記は、LLMトレーニングデータの背後にある人間の労働を示している。トーン、ナラティブ、安全性の専門家である脚本家が、チャットボットの応答を評価し、エッジケースのコンテンツを生成している。AIエンジニアにとっては、データ品質が低賃金で不安定な請負業者に依存していることを思い出させる。OutlierやMercorのようなツールがこの労働を仲介し、タスク構造(タスク単位、福利厚生なし)はギグプラットフォームを反映している。
📖 原文を読む: HN AI Agents
👀 See Also

Claudeコードサービスの停止とステータスページの透明性の問題
Claude Codeでは、OAuth APIキーが毎日失効する認証障害や、再認証中の500エラーが発生しました。公式ステータスページでは当初問題が表示されていませんでしたが、ユーザーは少なくとも45分間問題を報告していました。

ThermoQA:エンジニアリング熱力学のためのオープンベンチマーク、293の計算問題でLLMをテスト
ThermoQAは、3つの階層にわたる293の工学熱力学問題からなるオープンベンチマークで、LLMの正確な数値計算能力をテストします。Claude Opus 4.6が94.1%の総合スコアで首位を走り、DeepSeek-R1は±2.5%で実行間のばらつきが最も大きくなっています。

DeepSeek V4の価格現実チェック:Opus比178倍安いキャッシュトークン、ただし能力の遅れを認める
DeepSeek V4 Proの入力が$0.145/Mトークンに対し、Claude Opus 4.7は$5/M(34分の1の価格)。キャッシュヒット時は$0.0036/M vs $0.625/M(173分の1)。性能面ではGPT-5.4やGemini 3.1 Proに3~6ヶ月遅れている。

AMD MI50におけるQwen 3.6 27Bの52.8 tps TG:フルプレシジョン、MTPなし、量子化なし
Redditユーザーが、vllmフォークとROCm 7.2.1を使用して8枚のAMD MI50(2018年製カード)上でQwen3.6-27Bをベンチマークし、フル精度・MTPなしで52.8 tps TG、1569 tps PPを達成しました。