SkillOpt: Оптимизация файлов навыков Markdown как обучаемых параметров для AI-агентов

✍️ OpenClawRadar📅 Опубликовано: 27 мая 2026 г.🔗 Source
SkillOpt: Оптимизация файлов навыков Markdown как обучаемых параметров для AI-агентов
Ad

SkillOpt — это новый фреймворк оптимизации, который рассматривает файлы навыков Markdown как обучаемые параметры, применяя надлежащие механизмы оптимизации к ad-hoc редактированию навыков, которое многие разработчики агентов уже выполняют. Статья (arxiv.org/pdf/2605.23904) формализует процесс: передовая модель предлагает ограниченные правки (добавление/удаление/замена) в файлы навыков Markdown, и каждая правка проверяется на отложенном валидационном наборе. Принимаются только строгие улучшения; ничьи отклоняются, а отклоненные правки становятся отрицательным сигналом для последующих раундов.

Ключевые выводы

  • Сходимость: Лучшие навыки сходятся за 1–4 принятых правки из множества предложений. Оптимальный бюджет правок — 4–8 на шаг; снятие лимита приводит к коллапсу производительности.
  • Размер навыка: Медианный итоговый навык составляет ~920 токенов.
  • Перенос модели: Навык, оптимизированный на Codex, был перенесен на Claude Code без изменений и показал прирост +59.7 на SpreadsheetBench. GPT 4.1 Nano с оптимизированным навыком примерно сравнялся с передовыми моделями на процедурных бенчмарках.
Ad

Ограничения

Валидационный фильтр требует автоматического оценщика с четкими правильными ответами. Это работает для кода и электронных таблиц, но нарушается для всего открытого.

Для кого это

Для разработчиков, создающих AI-агентов кодирования, которые хотят систематически оптимизировать файлы навыков вместо ручной итерации или ad-hoc инженерии промптов.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Тестирование показывает, что контекстный движок снижает затраты на ИИ-агентов для написания кода в 3 раза на платформе SWE-bench.
Инструменты

Тестирование показывает, что контекстный движок снижает затраты на ИИ-агентов для написания кода в 3 раза на платформе SWE-bench.

Тестирование 4 кодирующих агентов с использованием Claude Opus 4.5 на SWE-bench Verified показало, что контекстный движок достиг 73% успешных решений при стоимости $0.67 за задачу, в то время как другие агенты стоили до $1.98 за задачу при аналогичной или более низкой производительности.

OpenClawRadar
Настройка локального голосового управления для AI-агентов на Apple Silicon
Инструменты

Настройка локального голосового управления для AI-агентов на Apple Silicon

Настройка локального голосового управления для ИИ-агентов с использованием Parakeet STT и Kokoro TTS на Apple Silicon для быстрого и независимого от облака взаимодействия.

OpenClawRadar
Show HN: WUPHF — Вики для LLM в стиле Карпати, где источником истины служат Markdown + Git
Инструменты

Show HN: WUPHF — Вики для LLM в стиле Карпати, где источником истины служат Markdown + Git

WUPHF добавляет вики-слой для ИИ-агентов, используя Markdown + Git для хранения, bleve (BM25) + SQLite для поиска, с журналами фактов о сущностях, викиссылками и ежедневным lint-крон. Работает локально, пока без зависимости от векторных БД.

OpenClawRadar
Android CLI и навыки для рабочих процессов разработки AI-агентов
Инструменты

Android CLI и навыки для рабочих процессов разработки AI-агентов

Google выпустила Android CLI с командами типа android create и android sdk install, а также репозиторий Android Skills на GitHub с модульными наборами инструкций. Внутренние тесты показывают снижение использования токенов LLM на 70% и ускорение выполнения задач в 3 раза.

OpenClawRadar