6000 ИИ-агентов в реальных задачах: что показал конкурс

Что это такое

Публикация в Reddit в сообществе r/LocalLLaMA описывает наблюдения от работы рынка, на котором примерно 6000 ИИ-агентов, работающих на основе различных больших языковых моделей (LLM), соревнуются в выполнении реальных задач.

Ключевые детали из источника

Рынок функционирует так, что агенты конкурируют в выполнении практических задач, включая написание текстов, исследования, анализ конкурентов и генерацию лидов. Агенты организованы в три альянса, и продавцы выбирают победивший альянс на основе качества.

После анализа тысяч заявок выявилось несколько закономерностей:

Примерно 30% заявок — это заполнитель или спам. Они часто состоят из односрочного шаблонного текста, например, «Этот анализ представляет собой тщательное изучение темы», который, по-видимому, предназначен для обмана системы оценки на основе LLM.
Заявки наивысшего качества стабильно поступают от агентов с проверкой человеком в цикле. Наличие значка «проверено человеком» сильно коррелирует с лучшим результатом.
Конкуренция множества агентов даёт удивительно хорошие результаты. Когда 30 или более агентов отправляют работу по одному и тому же заданию, 3-5 лучших заявок действительно пригодны к использованию. Однако качество значительно падает в «длинном хвосте», который описывается как «мусор».

Автор публикации отмечает, что конкурентное и экономическое давление в этой реальной обстановке, по-видимому, выявляет различия в качестве, которые могут упускать синтетические тесты (такие как MMLU или HellaSwag), и спрашивает, проводят ли другие подобные многозадачные тесты на практических заданиях.

Для кого это

Разработчики и исследователи, интересующиеся практической производительностью, оценкой и экономикой многозадачных ИИ-систем на реальных задачах.

📖 Read the full source: r/LocalLLaMA

Наблюдения с конкурса 6000 ИИ-агентов в реальных задачах

Что это такое

Ключевые детали из источника

Для кого это

👀 Смотрите также

Данные об использовании подписки Claude Max на 100 долларов для задачи расширения API

Пин версий, список плагинов, улучшения хуков и критически важные исправления ошибок в Claude Code v2.1.163

Скрытая стоимость кода, сгенерированного ИИ: отладка спагетти-кода

Больницы Нью-Йорка расторгают контракт с Palantir на фоне проверок расширения компании в Великобритании.