Видео с провалами на YouTube показывают, что у ведущих моделей искусственного интеллекта есть серьёзный недостаток: они не справляются с неожиданными ситуациями и редко пересматривают свои первоначальные оценки. Даже такие продвинутые системы, как GPT-4o, спотыкаются на простых сюжетных поворотах.

Исследователи из Университета Британской Колумбии, Института искусственного интеллекта Vector и Наньянского технологического университета протестировали лучшие модели искусственного интеллекта на более чем 1600 неудачных видео с YouTube из набора данных Oops!
Команда создала новый эталонный тест под названием BlackSwanSuite, чтобы проверить, насколько хорошо эти системы справляются с непредвиденными событиями. Как и людей, модели ИИ сбивают с толку неожиданные моменты, но, в отличие от людей, они отказываются менять своё мнение даже после того, как видят, что произошло на самом деле.
Один из примеров: мужчина размахивает подушкой возле рождественской ёлки. ИИ предполагает, что он целится в кого-то поблизости. На самом деле подушка сбивает с ёлки украшения, которые затем падают на женщину. Даже после просмотра всего видео ИИ остаётся при своём первоначальном неверном предположении.
Видеоролики охватывают широкий спектр тем, среди которых чаще всего встречаются дорожно-транспортные происшествия (24%), несчастные случаи с детьми (24%) и несчастные случаи в бассейне (16%). Все их объединяет непредсказуемый поворот событий, который часто ускользает от внимания даже людей.
Три типа задач
Каждое видео разделено на три сегмента: установка, сюрприз и последствия. Тест ставит перед LLM разные задачи на каждом этапе. В задаче «Прогнозист» ИИ видит только начало видео и пытается предсказать, что будет дальше. Задача «Детектив» показывает только начало и конец, прося ИИ объяснить, что произошло между ними. В задании «Репортёр» ИИ получает полное видео и проверяется, может ли он скорректировать свои предположения после просмотра всей истории.

Тестированию подверглись как закрытые модели, такие как GPT-4o и Gemini 1.5 Pro, так и системы с открытым исходным кодом, такие как LLaVA-Video, VILA, VideoChat2 и VideoLLaMA 2. Результаты выявили явные недостатки. В детективном задании GPT-4o дал правильный ответ только в 65% случаев. Для сравнения: люди справились на 90%.

Разрыв увеличился ещё больше, когда моделям пришлось пересмотреть свои первоначальные предположения. Когда GPT-4o попросили пересмотреть свои прогнозы после просмотра всего видео, точность составила всего 60%, что на 32% ниже, чем у людей (92%). Системы, как правило, придерживались своего первоначального мнения, игнорируя новые данные.
Другие модели, такие как Gemini 1.5 Pro и LLaVA-Video, продемонстрировали ту же закономерность. По словам исследователей, производительность резко снижалась при воспроизведении видео, которые даже людям было сложно понять с первого раза.
Мусоровозы же не сбрасывают деревья, не так ли?
Корень проблемы кроется в том, как обучаются эти модели ИИ. Они учатся, выявляя закономерности в миллионах видео, и ожидают, что эти закономерности будут повторяться. Поэтому, когда мусоровоз сбрасывает дерево вместо того, чтобы забрать мусор, ИИ сбивается с толку — у него нет шаблона для такого сценария.

Чтобы выявить проблему, команда попыталась заменить видеовосприятие ИИ подробными описаниями сцен, написанными человеком. Это повысило производительность LLaVA-Video на 6,4%. Добавление дополнительных пояснений повысило производительность ещё на 3,6%, в результате чего общий прирост составил 10%.
Как ни странно, это лишь подчёркивает слабость моделей: если ИИ демонстрирует высокую эффективность только тогда, когда люди берут на себя большую часть работы по восприятию, то он не может «видеть» и «понимать» до начала реального рассуждения.
Люди, напротив, быстро пересматривают свои предположения при появлении новой информации. Современным мод��лям ИИ не хватает такой гибкости мышления.
Этот недостаток может иметь серьёзные последствия для реальных приложений, таких как беспилотные автомобили и автономные системы. Жизнь полна сюрпризов: дети выбегают на дорогу, с грузовиков падают предметы, а другие водители совершают неожиданные манёвры.
Исследовательская группа разместила эталонный тест на GitHub и Hugging Face. Они надеются, что другие пользователи будут использовать его для тестирования и улучшения собственных моделей ИИ. Пока ведущие системы не справляются с простыми видео с ошибками, они не готовы к непредсказуемости реального мира.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Перевод, источник новости здесь.
