Комментарии 8
Самое интересное в таких симуляциях, по-моему, не то, что агенты «похожи на людей» в отдельных сценах, а то, что появляется длинный горизонт последствий. В обычном чате модель может красиво ответить на один вопрос, но почти не платит цену за противоречия через неделю, месяц или десять виртуальных лет.
Я бы смотрел на такие миры как на стенд для проверки памяти, целей и устойчивости поведения. Например: сохраняет ли агент важные договоренности, умеет ли менять стратегию после повторяющихся неудач, не деградирует ли в шаблонные реакции, как ведет себя при конфликте краткосрочной выгоды и долгосрочной репутации.
Для продуктовых AI-агентов это очень практичная тема. У ассистента в обучении, поддержке или личной продуктивности качество видно не по одной реплике, а по серии маленьких взаимодействий: помнит контекст, не давит, вовремя предлагает следующий шаг и не ломает доверие пользователя. Симулятор может быть хорошим способом хотя бы приблизительно измерять такие вещи до реальных пользователей.
ИИ обучен на текстах человеков, поэтому и поведение скопировано с человеческого, ничего нового или неожиданного
А что так много текстов, описывающих жизненную стратегию и вообще целую жизнь? Это больше похоже на опыт, которого не так много в интернетах. Ради него авторы всё и затеяли - чтобы создать полезные данные для обучения.
так много текстов, описывающих жизненную стратегию и вообще целую жизнь
Конечно: ЖЖ, реддит, фейсбук, миллиарды блогов на других платформах. Причем, учитывая особенности разметки\обучения (индусу-разметчику интереснее читать жизненные истории, чем какой-то бред\код), такие тексты могут иметь больший "приоритет" внутри модели
Всё это просто слова. Но бывают реально эмуляции миров, где можно обучать нейронки, например, neural MMO.
Я тоже думаю свой игровой проект переделать в среду для RL. Посмотреть, смогут ли агенты вывести закономерности из наблюдаемых данных. Научится разводить растения, добывать металлы, общаться, торговать и прочее.
Авторы упоминали, что намеренно отказались от механик вроде “пойти на кухню, найти чайник, сделать кофе” - в тестовых прогонах агенты очень часто ошибались, на это уходило очень много токенов, контекст перегружался, и всё ломалось. Поэтому авторы это убрали, и сконцентрировались на более высоком уровне.
Эта симуляция примерно тоже самое, что изучение трафика мегаполиса на муравьях в бумажном макете города. Оно движется, что-то даже происходит, но к реальности это движение отношения ни малейшего не имеет... Для игр хороший вариант, но плохо дело, если кто-то на ИИ-хайпе начнет продавать подобный софт чиновникам как настоящий симулятор реальности.

Коммуналка, школа и 10 лет свободы: AI выпустили в симулятор жизни, где они научились дружить, выгорать и достигать