修正版vLLM 0.17.0がTesla P40上で動作し、Qwen3 ASR 1.7Bによるリアルタイム文字起こしを実現しています。

ある開発者がvLLM 0.17.0をTesla P40 GPUで動作するように修正することに成功し、Qwen3 ASR 1.7Bモデルを使用したリアルタイム講義文字起こしを可能にしました。P40はPascalアーキテクチャを使用しており、通常は新しい推論エンジンのサポートが不足しています。
主な詳細
この開発者は、リアルタイム講義文字起こしの個人プロジェクトに取り組んでいました。当初はQwen3 ASR 1.7Bモデルを使用する計画でしたが、真のリアルタイム文字起こしはvLLMを通じてのみサポートされていることに気づきました。代替案として音声サンプルを分割するのではなく、実験的な修正を試みました。
Codexを使用して、vLLMがPascalアーキテクチャで動作するように修正しました。これにより、Tesla P40サーバーGPUでQwen3 ASR 1.7Bモデルを実行できるようになりました。その結果、ほぼ完全なハードウェアアクセラレーションと完全なリアルタイム文字起こしが実現しました。
修正されたvLLMフォークはこちらで利用可能です: https://github.com/uaysk/vllm-pascal
次のステップと課題
開発者の次の目標は、このセットアップでQwen3.5モデルを実行してみることです。しかし、いくつかの技術的な問題があると指摘しています。視覚機能は利用できないようで、テキスト機能のみを使用する場合でも課題があります。現時点では、実現可能かどうかは不明です。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

ソロの3DアニメーターがClaude Coworkプラグインで持続的なAIビジネス開発アシスタントを構築した方法
個人で3Dアニメーションスタジオを運営するクリエイターが、Claude Coworkプラグインを使って永続的なAIビジネス開発アシスタント(Reid)を構築。見込み客調査、フォローアップ管理、ピッチ準備、戦略立案を担当する。重要なデザイン上のポイントは、戦略的で率直なペルソナがすべてのアウトプットを形作ること。

Claude AIがウレタンガラス接着剤を用いた車のサンルーフ修理をユーザーに案内
ユーザーは、高速道路で吹き飛んだ2012年式フォード・フュージョンのサンルーフを、クロードの段階的な指示に従って錆を清掃しウレタンガラス接着剤を塗布することで修理し、5000ドルの車に1500ドルの交換費用を回避しました。

Claude CodeでピクセルアートJRPGを作る:開発者のワークフローと技術スタック
開発者がClaude Code(Opus 4.6)を使用して、日本語学習用のピクセルアートJRPG「Bakemachi」を構築し、プレイ可能なデモを公開しました。技術スタックはVite、React、Phaser 3、TypeScript、Zustandで、コード実装の大部分はClaudeが担当しました。

OpenClawエージェントで構築された自律型AIニュースレター
あるチームが、OpenClawエージェントを活用してAIエージェントに関する完全自律型ニュースレターを構築しました。このシステムは、5つのエージェントが3台のマシン(AWSと2台のMac Mini)に分散して稼働し、人間の介入を一切必要としません。ニュースレターは、REST APIとWebhookを通じて他のAIエージェントが利用できるように設計されています。