DeepSeekからGrokへの切り替え

金融AIエージェントのパフォーマンス問題と切り替えの可能性

ある開発者が、株式向けのPerplexityに似た機能を持つ金融AIウェブアプリをFastAPI/Pythonで構築しました。このアプリケーションは、LLMがクエリを処理する前に並列パイプラインを実行し、複数の金融APIからのライブ株価、金融検索APIからのライブウェブ検索、決算カレンダーデータを含みます。これらすべての構造化されたコンテキストはシステムプロンプトに注入され、モデルは推論とフォーマットのみを担当し、事実はAPIから取得するため、このユースケースでは幻覚率はあまり重要ではありません。

現在のモデルのパフォーマンス問題

開発者は現在DeepSeek V3.2 Reasoningを使用しており、以下のような重大なパフォーマンス問題を報告しています：

TTFT（初回トークンまでの時間）：約70秒
出力速度：約25トークン/秒
ストリーミング体験は「ひどい」と表現
ストリーム開始タイムアウトは75秒に設定され、頻繁なタイムアウトを回避

アプリケーションの要件

この金融AIエージェントには2つの主要機能があります：

チャットストリーム：インラインソース引用付きのPerplexityスタイルの金融分析
取引チェックストリーム：エントリー、ストップロス、ターゲット、R:R比率を出力する取引コーチ

モデルの要件は以下の通りです：

ストリーミングUXのための低TTFTと高速トークン/秒
小規模プロジェクト向けの低コスト
多段階取引推論に十分な知能
取引チェックでの厳格な出力フォーマットのための優れた指示遵守

Grok 4.1 Fast Reasoningの検討

開発者は以下の比較に基づき、Grok 4.1 Fast Reasoningへの切り替えを検討しています：

TTFT：約15秒（DeepSeekの約70秒に対して）
出力速度：約75トークン/秒（DeepSeekの約25トークン/秒に対して）
AA知能スコア：64（DeepSeekの57に対して）
入力コスト：100万トークンあたり0.20ドル（0.28ドルに対して）

その他の検討モデル

開発者はMinimax 2.5、Kimi K2.5、新しいQwen 3.5モデル、Gemini 3 Flashも検討しましたが、ほとんどのモデルが比較的高価であり、彼らの特定のユースケースに適していないと指摘しています。

📖 Read the full source: r/LocalLLaMA

開発者、金融AIエージェントにDeepSeekからGrokへの切り替えを検討

金融AIエージェントのパフォーマンス問題と切り替えの可能性

現在のモデルのパフォーマンス問題

アプリケーションの要件

Grok 4.1 Fast Reasoningの検討

その他の検討モデル

👀 See Also

実用的なコワーキング活用事例：一括画像メタデータからAPI回避策まで

Claudeコードエージェントが本番環境でどう連携するか：オーケストレーターの視点から

安価なAIエージェントがClaw Earnマーケットプレイスの開発をストレステストする方法

Claude CodeがHTMLとPlaywrightで印刷可能な名刺をデザイン