開発者、金融AIエージェントにDeepSeekからGrokへの切り替えを検討

金融AIエージェントのパフォーマンス問題と切り替えの可能性
ある開発者が、株式向けのPerplexityに似た機能を持つ金融AIウェブアプリをFastAPI/Pythonで構築しました。このアプリケーションは、LLMがクエリを処理する前に並列パイプラインを実行し、複数の金融APIからのライブ株価、金融検索APIからのライブウェブ検索、決算カレンダーデータを含みます。これらすべての構造化されたコンテキストはシステムプロンプトに注入され、モデルは推論とフォーマットのみを担当し、事実はAPIから取得するため、このユースケースでは幻覚率はあまり重要ではありません。
現在のモデルのパフォーマンス問題
開発者は現在DeepSeek V3.2 Reasoningを使用しており、以下のような重大なパフォーマンス問題を報告しています:
- TTFT(初回トークンまでの時間):約70秒
- 出力速度:約25トークン/秒
- ストリーミング体験は「ひどい」と表現
- ストリーム開始タイムアウトは75秒に設定され、頻繁なタイムアウトを回避
アプリケーションの要件
この金融AIエージェントには2つの主要機能があります:
- チャットストリーム:インラインソース引用付きのPerplexityスタイルの金融分析
- 取引チェックストリーム:エントリー、ストップロス、ターゲット、R:R比率を出力する取引コーチ
モデルの要件は以下の通りです:
- ストリーミングUXのための低TTFTと高速トークン/秒
- 小規模プロジェクト向けの低コスト
- 多段階取引推論に十分な知能
- 取引チェックでの厳格な出力フォーマットのための優れた指示遵守
Grok 4.1 Fast Reasoningの検討
開発者は以下の比較に基づき、Grok 4.1 Fast Reasoningへの切り替えを検討しています:
- TTFT:約15秒(DeepSeekの約70秒に対して)
- 出力速度:約75トークン/秒(DeepSeekの約25トークン/秒に対して)
- AA知能スコア:64(DeepSeekの57に対して)
- 入力コスト:100万トークンあたり0.20ドル(0.28ドルに対して)
その他の検討モデル
開発者はMinimax 2.5、Kimi K2.5、新しいQwen 3.5モデル、Gemini 3 Flashも検討しましたが、ほとんどのモデルが比較的高価であり、彼らの特定のユースケースに適していないと指摘しています。
📖 Read the full source: r/LocalLLaMA
👀 See Also

実用的なコワーキング活用事例:一括画像メタデータからAPI回避策まで
あるユーザーが、CSV生成によるバナーアップロードの自動化、データプッシュのためのUI APIのリバースエンジニアリング、反復タスクのための自己改善スキルの作成など、具体的なCoworkアプリケーションについて詳細に説明しています。

Claudeコードエージェントが本番環境でどう連携するか:オーケストレーターの視点から
6つの専門的なClaude Codeエージェント(コーダー、デザイナー、マーケティング、QA、セキュリティ、運用)を運用するチームが、機能、デザイン、ソーシャルコンテンツを毎日自律的にリリースするオーケストレーターシステムについて詳細を説明しています。タスクのディスパッチ、エージェント間の引き継ぎ、障害シナリオ、そして調整においてステートマシンがメッセージキューよりも優れている理由についてカバーしています。

安価なAIエージェントがClaw Earnマーケットプレイスの開発をストレステストする方法
Claw Earnチームは開発中にあえて安価で能力の低いAIエージェントを使用し、古いスクリプト、陳腐化したメモリ、誤った前提に起因する失敗を露呈させました。これらの失敗により、ドキュメントの改善とプラットフォームの堅牢性向上が促されました。

Claude CodeがHTMLとPlaywrightで印刷可能な名刺をデザイン
あるユーザーが、猫の写真とウェブサイトのリンクをClaudeに与え、Playwrightでスクリーンショットを撮りながら納得がいくまで繰り返し、最終的に2x5グリッドのHTMLテンプレートを使ってAveryのカードストックに印刷することで、名刺デザインを自動化しました。