ИИ от DeepMind не в состоянии точно идентифицировать действия Гомера Симпсона / Хабр

Нейросетей разного типа становится все больше, и они реально помогают людям жить и работать. Какие-то системы погоду предсказывают, какие-то — учатся диагнозы ставить, а часть систем ушла в большой бизнес. ИИ, слабая его форма, уже умеет анализировать огромные массивы данных, находя зависимости между, на первый взгляд, никак не связанными факторами. Но, конечно, проблем остается еще много — искусственный интеллект не в состоянии справиться с анализом поведения такого «загадочного» мультипликационного персонажа, как Гомер Симпсон.

Нет, какие-то его действия система может идентифицировать, но далеко не все. При этом нейросеть тренировали на большом количестве YouTube роликов из «Симпсонов». Стоит отметить, что DeepMind далеко не новички в разработке различных ИИ-систем. Например, одна из разработок этой компании, ранее входившей в состав Google, а теперь перешедшей под юрисдикцию Softbank, смогла победить чемпионов мира в игре го.

Системы DeepMind, равно, как и разработки такого рода других компаний, в состоянии анализировать огромные объемы информации. С течением времени работа нейросетей становится все более совершенной, поскольку они самообучаются. Будь то распознавание лиц или перевод с английского на китайский и обратно — результаты улучшаются день ото дня. Для того, чтобы научить свою систему, получившую название Kinetics, понимать поведение людей, сотрудники DeepMind «скормили» более 300 000 роликов с YouTube, научив различать около 400 типов действий человека.

«ИИ-системы сейчас очень хороши в распознавании различных объектов на изображениях, но их слабая сторона — работа с видео», — говорит представители DeepMind. «Одна из основных причин — отсутствие больших выборок качественных видео».

Для того, чтобы решить эту проблему, сотрудники DeepMind решили создать собственную выборку. Для каждого из 400 типов действий человека с YouTube «нарезали» минимум по 400 видео, продолжительностью около 10 секунд. В итоге получился один из первых качественных и специализированных дата-сетов, предназначенных для обучения ИИ. Конечно, компании DeepMind, которая формировала эту выборку еще будучи подразделением Google, повезло, поскольку Google (сейчас — холдинг Alphabet) является владельцем YouTube. Соответственно, сотрудникам Deepmind, вероятно, был доступен специализированный инструментарий по работе с материалами видеосервиса. Другим компаниям в этом отношении придется сложнее, поскольку найти общедоступные качественные видео для составления специализированного дата-сета не так и просто, как могло бы показаться.

Точность идентификации различных увиденных Kinetics в роликах действий людей составила около 80%, что не так и мало. Правда, это касается обычных видео, где играют в теннис, успокаивают плачущего ребенка, делают прогноз погоды и т.п. В случае с Гомером Симпсоном все сложнее, здесь точность сразу падает в четыре раза, вплоть до 20%. Нейросети было сложно идентифицировать действия Гомера вроде подбрасывания монетки, причесывания несуществующих волос (те пара волосинок, что остались, не в счет) и другие.

Кроме Гомера, Kinetics сложно идентифицировать блюдо или продукт, если показана только его часть. Съеденный наполовину гамбургер уже определяется гораздо менее точно, чем целый. Проблемы возникают и в том случае, если объект показан очень малого размера. По словам представителя DeepMind, для того, чтобы научить нейросеть правильно определять какое-то действие с высокой степенью точности, порой хватает всего нескольких видео. Но иногда даже сотня не помогает повысить точность определения специфических действий.

Все это — достаточно известные проблемы. Например, ранее у этой же нейросети возникали сложности с идентификацией лиц людей, принадлежащим к определенным этническим группам. По мнению некоторых специалистов, алгоритмы, лежащие в основе Kinetics, в состоянии определить пол человека по некоторым особенностям речи и текстов.

Нейросеть от DeepMind в состоянии определить пол человека и на видео (правда, далеко не во всех случаях), а также оценить «половой баланс» ряда роликов. Например, видео с бритьем усов и бороды в основном, мужские (кто бы удивлялся), а вот работа с бровями или чирлидинг — женские. Правда, проблема с распознаванием полов еще остается, здесь разработчикам есть, над чем поработать.

В дальнейшем работа над такими системами, скорее всего, позволит определять не только то, что делают люди на видео, но и причину их действий. Например, нейросеть сможет определить, почему человек воскликнул «ой», объяснив, что стало причиной этого действия. Для этого нужна солидная дополнительная работа и много-много дата-сетов для обучения.

Наверное, если потренировать Kinetics получше, то эта система научится определять и действия Гомера Симпсона. Хотя кто знает, очень уж непредсказуемый это персонаж. Получится ли?