Google Surf MCP: 無料のGoogle検索MCP、PDF処理と段階的抽出機能付き

Google Surf MCPは、実際に動作するGoogle検索とURL抽出のための無料MCPサーバーです。作者は6つの無料MCPをテストしたところ、すべて失敗したと報告しています。通常の検索MCPとfetch MCPの組み合わせを、学術PDF(arXiv、bioRxiv、Nature、OpenReview、NeurIPS、JMLR、PMLR、Springer、PubMed→PMC)も自動処理する単一のツールセットに置き換えます。
主な機能
- 4つのツール:
search(SERPのみ)、search_parallel(N個の同時クエリ)、extract(url, mode?)(full/abstract/metadata)、search_extract(query, mode?)(デフォルトはabstract) - 段階的抽出:
mode: "abstract"は結果ごとに約1500文字を返し、全文を取得する前に安価な関連性トリアージを可能にします。5件の結果のサーベイでは、40k文字ではなく約7.5k文字で済みます。 - PDF検出: Content-Type、%PDFマジック、citation_pdf_urlメタ、ドメインごとのルールによる。
- 信頼性: 複数戦略のSERPパーサー(幾何学的検証によりスポンサー/ナレッジパネル/サイドバーを除外)、SSRFガード(環境変数でロックされたプライベート/ループバックブロック、DNSリバインディング防御、ホップごとのリダイレクト検証)、25MBの取得上限、不正なPDFはエラーとして処理。
- 自動CAPTCHA復旧: CAPTCHAが発生すると、表示可能なChromeウィンドウが開き、人間が解決した後に再試行します。プロファイルのGoogleでの評価は維持されます。
- APIキー不要、プロキシ不要、ソルバー不要。
スタックと速度
- スタック: TypeScript、Playwright + stealth、Readability、Turndown、unpdf。約900行。
- 速度(1Gbps): シーケンシャルで約1.5秒/クエリ(ウォーム)、4並列で約2秒(壁面時間)、10並列で約5秒(壁面時間)。
使用例
search_extract("最新のAI研究論文", mode: "abstract")
上位結果のabstractを返し、エージェントが関連性をトリアージした後、勝者に対してextract(url, mode: "full")を呼び出します。
対象者: 外部APIキーや有料サービスを使わずに、信頼性の高い無料のWeb検索と抽出を必要とするAIエージェントを構築する開発者。
📖 全文ソース: r/ClaudeAI
👀 See Also

Google Research、AIモデル圧縮のためのTurboQuantを発表
Google Researchは、AIモデルのサイズを精度の損失なしに削減する圧縮アルゴリズム「TurboQuant」を発表しました。これはベクトル量子化におけるメモリオーバーヘッドに対処し、キーバリューキャッシュのパフォーマンスを向上させます。

wearehereブラウザ拡張機能は、サイトの追跡とプライバシーリスクをスキャンします。
wearehereは、Cookie、トラッカー、デバイスフィンガープリンティング、ダークパターンなど10のカテゴリにわたってウェブサイトをスキャンし、プライバシーリスクに基づいてスコアを付けるブラウザ拡張機能です。サイズは200KB未満で、ブラウザ内でローカルに動作し、barebrowse MCPサーバーを介してAIエージェントと統合するためのnpmパッケージとしても提供されています。

Claude Code Prompt Architecture Reverse-Engineered for Local Models
Claude Codeの26プロンプトアーキテクチャのクリーンルーム再実装がGitHubで公開されました。システムプロンプト、ツールプロンプト、安全性ルール、メモリ圧縮、検証パターンを含み、Ollama、llama.cpp、vLLMなどのローカルモデルでコーディングエージェントを構築するためのものです。

agentcache: マルチエージェントLLMプレフィックスキャッシュのためのPythonライブラリ
agentcacheは、マルチエージェントLLMフレームワークがキャッシュされたプロンプトの接頭辞を共有できるようにするPythonライブラリで、GPT-4o-miniでのテストでは最大76%のキャッシュヒット率を達成し、推論時間を半分以上短縮しました。