フリースタイル、ライブフォーク機能を備えたAIコーディングエージェント向けサンドボックスをローンチ

Freestyleが提供するもの
Freestyleは、AIコーディングエージェント専用のクラウドインフラを構築しており、完全な仮想マシンとして機能するサンドボックスを提供しています。これらのVMは、エージェントの視点ではEC2インスタンスと交換可能ですが、AI開発ワークフロー向けに特化した機能を備えています。
主な技術的特徴
- ライブフォーク: 実行中のサンドボックスを水平方向に400ms未満の一時停止でフォークできます。これはファイルシステムだけでなく、メモリ状態全体をフォークします。アニメーションを含むブラウザページの途中、Minecraftサーバーの実行中、またはプロセス内でエラーが発生している場合でも、すべてのフォークはその正確な状態を維持します。
- 高速起動: サンドボックスは約500msで起動し、APIリクエストから準備完了までのVMプロビジョニングが700ms未満で行われるデモが公開されています。
- フルシステムサポート: ハードウェア仮想化を利用したフルDebianを実行し、eBPF、Fuse、runcではなくsystemd init、複数ユーザーをサポートしています。Debianで動作することが期待されるものは、これらのVMでも動作することを目指しています。
- スナップショット: VMの状態を保存し、数週間後でも正確な時点から再開できます。
- 永続性オプション: アイドルタイムアウト(例:60秒)後に一時停止し、一時停止中は$0コストで、次回実行時に再開する永続VMをサポートしています。
インフラアプローチ
Freestyleは、クラウドノード間でのVM移動では許容できるパフォーマンスが得られないと判断した後、独自のベアメタルラックで実行しています。Google CloudとAWSのベアメタルノードの月額コストがハードウェア総コストと同等であることを発見し、独自のインフラ構築に至りました。
API使用例
ソースには、さまざまなユースケースに対応した複数のコードパターンが示されています:
// App Builderパターン(Lovable、Bolt、V0など)
import { freestyle, VmSpec } from "freestyle-sandboxes";
import { VmBun } from "@freestyle-sh/with-bun";
import { VmDevServer } from "@freestyle-sh/with-dev-server";
const { repoId } = await freestyle.git.repos.create({ ... });
const { vm } = await freestyle.vms.create({
with: {
devServer: new VmDevServer({
devCommand: "bun run dev",
runtime: new VmBun(),
repo: repoId
}),
},
});
// Agentパターン(Devin、Cursor Agentなど)
import { freestyle, VmSpec } from "freestyle-sandboxes";
import { VmBun } from "@freestyle-sh/with-bun";
const { vm } = await freestyle.vms.create({
git: {
repos: [
{ repo: "https://github.com/user/repo.git" },
]
}
});
const { forks } = await vm.fork({ count: 3 });
await Promise.all([
ai(forks[0], "Build the API endpoints"),
ai(forks[1], "Build the frontend UI"),
ai(forks[2], "Write the test suite"),
]);
// コードレビューパターン(Code Rabbit、Greptileなど)
import { freestyle } from "freestyle-sandboxes";
import { VmBun } from "@freestyle-sh/with-bun";
const { vm } = await freestyle.vms.create({
git: {
repos: [{ repo: repoUrl, rev: branchRev }],
},
});
const { stdout: lint } = await vm.exec("bun run lint");
const { stdout: test } = await vm.exec("bun test");
const review = await ai(vm, "Review the diff for bugs");
await github.pulls.createReview({
body: review,
event: test.includes("FAIL") ? "REQUEST_CHANGES" : "APPROVE",
});
ターゲット層
このインフラは、テスト、開発、デプロイメントのワークフローを大規模に行うためにフルシステムサンドボックスを必要とするAIコーディングエージェントを構築または使用する開発者向けに設計されています。
📖 Read the full source: HN LLM Tools
👀 See Also

Manifest、MiniMaxトークンプランをM2.7モデルサポートで追加
オープンソースのルーティングレイヤーであるManifestが、OpenClaw向けにMiniMaxのトークンプランをサポート開始しました。月額10ドルから利用可能です。新たに追加されたMiniMax M2.7モデルはOpenClawのワークフロー向けに特別に構築されており、MM-ClawBenchで62.7、SWE-Bench Proで56.2のスコアを達成しています。

RAG-EngramアーキテクチャでファインチューニングされたQwen3.5-2Bは、8Kコンテキストにおいて根拠に基づいた回答の精度を50%から93%に向上させます。
開発者がカスタムRAG-EngramアーキテクチャでQwen3.5-2Bをファインチューニングし、『中間喪失』現象に対処。実世界のクエリにおいて8Kトークンでの正解率を50%から93%に向上させました。このシステムは、静的エンティティ埋め込みと動的チャンクナビゲーションの2段階アプローチを採用しています。

Claude Desktop 機能リクエスト:自動初期化のためのセッション開始フック
Claude Desktop向けの永続的コンテキストシステムを構築している開発者が指摘するギャップ:ユーザー設定フィールドは、ユーザーが最初のメッセージを送信したときにのみ指示を注入し、初期化には手動トリガーが必要。彼らは、新しい会話が開かれたときに自動的に実行される「セッション開始時」実行フィールドの追加を提案している。

TruthGuard: AIコーディングエージェントの嘘を見抜くシェルスクリプトフック
TruthGuardは、Claude CodeとGemini CLIが実際に行うことと主張することの間の差異を検証するためにシェルスクリプトフックを使用するオープンソースツールです。ファントム編集、終了コードの虚偽、危険なショートカットを検出し、テストが失敗した場合はコミットをブロックします。