Как стать автором
Обновить
327.54
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Новый подход к обучению ИИ-агентов: совершенствование через анализ успешных примеров

Время на прочтение3 мин
Количество просмотров888

Новое исследование Стэнфордского университета показало, что агенты с искусственным интеллектом могут гораздо лучше справляться со сложными задачами, просто учась на собственном успешном опыте.

Исследователи из Стэнфорда обнаружили, что агенты искусственного интеллекта совершенствуются, руководствуясь прошлыми успехами

До сих пор создание эффективных ИИ-агентов часто требовало больших усилий: тщательно продуманных подсказок, тщательно отобранных наборов примеров или специализированных пространств для действий. Эти методы работают, но они требуют много времени и их сложно масштабировать. Команда из Стэнфорда предлагает гораздо более простую альтернативу: позволить агентам совершенствоваться, учась на том, что сработало в прошлом.

Их метод основан на архитектуре ReAct, в которой языковая модель создаёт план для каждой задачи, а затем наблюдает, рассуждает и действует. Разница в том, что на каждом этапе агент извлекает примеры из базы данных, заполненной не выбранными вручную образцами, а успешными траекториями из предыдущих задач, которые система собирает автоматически. В данном контексте траектория — это полная последовательность шагов, которые агент ИИ предпринимает для решения задачи.

Даже упрощённая версия этого подхода, называемая Traj-Bootstrap, значительно повышает процент успешных результатов в трёх тестах. В ALFWorld точность повышается с 73% до 89%. В Wordcraft — с 55% до 64%, а в InterCode-SQL — с 75% до 79%.

Это улучшение достигается за счёт цикла положительной обратной связи. Успешные примеры помогают в решении новых задач, которые затем приводят к появлению ещё более успешных примеров. Система учится сама у себя и продолжает совершенствоваться, не требуя дополнительных обучающих данных или настройки модели.

Не каждая собранная траектория помогает, а некоторые могут даже ухудшить ситуацию. Чтобы исправить это, исследователи разработали две стратегии отбора.

DB-Selection запускает несколько баз данных параллельно. Каждый раз, когда размер базы данных удваивается, сохраняется только самая успешная из них, а наименее эффективная удаляется. Такой эволюционный подход быстро улучшает результаты, повышая процент успешных операций ALFWorld до 91%.

Метод «Выбор образца» оценивает каждую траекторию по тому, насколько часто она помогает решать новые задачи. Этот метод особенно хорошо работает для Wordcraft, повышая вероятность успеха до 72%, и для InterCode-SQL, повышая её до 81%.

Некоторая помощь человека по-прежнему полезна. Система работает лучше, если в исходной базе данных есть несколько тщательно отобранных примеров, которые помогут агенту начать работу в правильном направлении. Без них, по словам команды, производительность снижается.

В ALFWorld Traj-Bootstrap с меньшим по размеру GPT-4o-mini на самом деле превосходит по производительности более крупный GPT-4o на один процентный пункт. Используя DB-Selection, система соответствует производительности более сложных иерархических систем, которые полагаются на вручную заданные пространства наблюдений и действий.

Этот метод также эффективен по сравнению со стратегиями, в которых агент делает несколько предположений для каждой задачи. Агент, обученный с помощью Traj-Bootstrap, соответствует производительности базовой системы с первой попытки, в то время как базовой системе требуется три или четыре попытки.

Исследование показывает, что важен не размер модели, а качество данных. Вместо того чтобы постоянно создавать новые модели или оптимизировать подсказки, зачастую достаточно собрать хорошие примеры и грамотно их отобрать. Это соответствует тенденции, наблюдаемой в других областях генеративного ИИ.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Теги:
Хабы:
0
Комментарии0

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Вероника