
Откуда появилась змея на последнем рисунке? Почему она кусает человека? На втором и третьем рисунках изображён один и тот же человек? Ответы на эти вопросы читатель получает из общего понимания сюжета, осмысливая подписи к рисункам, фразы героев и смысловые переходы от одной картинки к другой
Нейросети демонстрируют удивительные успехи в различных задачах. Они обошли человека по точности распознавания лиц, чтению по губам, игре в некоторые настольные игры, диагностированию некоторых болезней и вождению автомобиля в темноте. С каждым днём количество «побед» нейросетей над человеком увеличивается. Но есть специфические задачи, в которых Искусственный интеллект даже близко не может подобраться к человеческому уровню, так что ему не остаётся ничего иного, кроме как признать своё поражение — и отступить.
Одна из таких непосильных задач — понимание комиксов, рассказов в картинках. Этот вид искусства находится на стыке литературы и изобразительного искусства. Он отличается тем, что активно обращается к воображению читателя. Человек должен домысливать то, что происходит в рисованной истории. Оптимистичные учёные из Университета Колорадо и Университета Мэриленда (США) предположили, что смогут обучить этому нейросеть, но просчитались.
Рассказы в картинках — древний жанр искусства, который ведёт свою историю со Средневековья. Он получил широкое распространение в современной массовой культуре в конце 19 века и в 20 веке, став прообразом мультипликации и кинематографа. Это практически одно и то же. Как говорил Скотт МакКлауд, автор книги «Суть комикса», пространство для комикса значит то же, что время для фильма. В английском языке слово "cartoon" даже обозначает и мультфильм, и комикс одновременно, потому что эти понятия близки по смыслу.

Страница из книги Скотта МакКлауда «Суть комикса»
В серии картинок автор может рассказать от начала и до конца любую историю, от развития трёхсотлетней межгалактической войны до семейного ужина. Ключевая особенность комикса и настоящее мастерство художника заключается не в том, что он показывает, а в том, что скрыто. Зрителю приходится догадываться. Воображение рисует красочные картины, которые автор комикса специально оставил для него, для воображения.

Только представьте, что увидела героиня этого комикса!
В этом и есть вся прелесть комиксов. Воображение.
Исследователи из Университета Колорадо и Университета Мэриленда (США) попытались обучить нейросеть заполнять смысловые пробелы (gutters) между отдельными рисунками комикса, как это делает воображение человека. Для обучения нейронной сети составили обширную базу комиксов: примерно 1,2 млн рисунков из 4000 публично доступных книг с рисованными историями. Все они вышли в 1938−1954 гг. Собранная база COMICS размером 120 ГБ через несколько дней будет опубликована в открытом доступе на GitHub. Судя по всему, это первый в истории набор данных с комиксами для обучения нейросетей.
Статистика набора данных
Книг — 3948
Страниц — 198 657
Рисунков — 1 229 664
Текстовых полей — 2 498 657
Чтобы проверить понимание контекста и сюжета комиксов, исследователи разработали три задачи по предсказанию текста и объектов на рисунках: text cloze, visual cloze и character coherence. Хотя задачи отличались по содержанию, но во всех случаях задачи имели одинаковый формат: нейросеть получала в качестве контекста несколько предшествующих рисунков и должна была оценить наилучший из вариантов для предсказания следующего текста (text cloze), картинки (visual cloze) или соответствия текста конкретному персонажу (character coherence). Выбор осуществлялся из трёх вариантов текста и рисунков и из двух вариантов соответствия фраз персонажу.
Понимание смысла комиксов определялось по тому, каким образом нейросеть предсказывает следующий рисунок в сюжетной линии и текст на нём. Для тестирования было разработано четыре модели: Text-only, Image-only, NC-image-text и Image-text. Первая нейросеть получала информацию только о тексте на картинках. Вторая нейросеть получала информацию только о визуальных характеристиках рисунков. Третья и четвёртая модели отличаются лишь в деталях, но обе они получали информацию и о тексте, и о визуальных характеристиках рисунков.

Применение архитектуры Image-text к задаче text cloze. Предварительно усвоенные в процессе обучения фичи изображения сочетаются с текстовыми фичами в иерархической архитектуре для формирования представления контекста, который затем использован для оценки текстовых кандидатов, то есть для выбора наиболее подходящего из трёх вариантов фразы героини
После обучения нейро��ети проверили на трёх вышеупомянутых задачах по предсказанию следующего рисунка в комиксе. Как видно из таблицы с результатами, нейросети очень плохо справились с поставленной задачей, показав результат гораздо хуже, чем у человека, хотя и выше, чем случайная вероятность (33% и 50%, соответственно).

Судя по всему, понимание смысла комиксов и характерных смысловых пробелов между отдельными кадрами остаётся уникальной задачей, решить которую способен только человек. Искусственный интеллект обыгрывает людей в интеллектуальную викторину, шахматы и го, гораздо лучше распознаёт объекты на видео и обрабатывает речь, умеет предсказывать звуки и генерировать произведения искусства в стиле известных художников, но понять комиксы он пока не в состоянии. У него нет воображения.
Научная работа опубликована 16 ноября 2016 года в открытом доступе на сайте arXiv (arXiv:1611.05118).
