
Люди отлично справляются с определением жанра, едва взглянув на визуальное оформление книги. Согласитесь, что выбрать кулинарную книгу, биографию или путеводитель, просто посмотрев на обложку – довольно легко. Тогда возникает интересный вопрос: может ли искусственный интеллект так же успешно судить о книге по обложке, как и человек?
Ответ на него попытались получить ученые из Университета Кюсю в Японии. Они поставили перед сверточной нейронной сетью (CNN) задачу изучить книжные обложки и определить категорию, к которой они относятся. Метод обучения оказался довольно простым: исследователи скачали более 13,5 тысяч обложек с сайта Amazon.com вместе с названием, именем автора и жанром книги. Помимо определения категории, этот набор данных может в дальнейшем пригодиться для обучения нейронных сетей распознаванию и анализу шрифтов и решению других задач, связанных с дизайном. В своем эксперименте ученые использовали только жанры, отбросив все остальные данные из набора. Нейросеть разбиралась в 20 возможных жанрах. Если книга повторялась сразу в нескольких категориях, ученые просто указывали самый первый.

Затем группа исследователей использовала 80% набора данных, чтобы обучить нейронную сеть распознавать жанр в зависимости от изображения на обложке. Нейросеть, которую они использовали в своем эксперименте, состояла из четырех слоев, в каждом из которых насчитывалось 512 нейронов. Вместе они учились определять корреляцию между дизайном обложки и жанром. Еще 10% набора данных ушли на проверку сети. На заключительном этапе использовались оставшиеся 10%, чтобы определить, насколько хорошо сеть может классифицировать незнакомые изображения.
Результат оказался довольно интересным. Алгоритм корректно определял наиболее часто встречающуюся ему тройку жанров в 40% случаях. Со всеми остальными жанрами точность составила порядка 20%. Это значительно лучше, чем просто случайность. Относительно корректная работа нейросети показывает, что классификация книг по обложкам реальная, хотя и трудновыполнимая задача.
Некоторые жанры оказалось легче распознать, чем другие. Например, туристические книги или книги о компьютерах и технологиях сравнительно легко поддаются определению, поскольку дизайнеры обычно используют схожие по смыслу изображения для обложки. Кроме того, ученые установили, что нейросеть с легкостью узнавала кулинарные книги, если при их оформлении используются фотографии еды.

Однако нейросеть начинала сомневаться, стоило только появиться на обложке фотографии повара или другие объекты, косвенно связанные с приготовлением блюд.
Биографии и мемуары также вызвали у нейросети затруднения: очень часто такие книги отправлялись в категорию исторических. Интересно, что для многих подобных книг вторичным жанром на Amazon.com оказывалась именно история. Поэтому нельзя сказать, что алгоритм ошибся на 100%.

Еще CNN перепутала детские книжки с комиксами и графическими романами, а также медицинские книги с учебниками по математике. Это неудивительно, учитывая определенное сходство между этими категориями. Ошиблась сеть и с разными по сути, но близкими по оформлению книгами по праву и религии. Обычно их обложки выполнены либо в одном цвете без каких-либо рисунков, либо с абстрактными изображениями.

Тем не менее, результат этого исследования заслуживает внимания. Он может помочь дизайнерам улучшить свои навыки, когда дело доходит до книжных обложек. Можно пойти еще дальше и обучать технику проектировать обложки без участия человека. В будущем это может означать, что создание человеком дизайна обложки – еще одна задача, которая отправится в архивы истории.
Графический дизайн стал объектом для машинного обучения сравнительно недавно. Самый известный опыт практического применения нейронных сетей связан, в первую очередь, с распознаванием художественного стиля известных авторов картин и дальнейшим его переносом на другие изображения. Исследователи из Университета Кюсю преследовали похожую цель, но зашли немного дальше: они попытались выявить скрытый смысл, который кроется за стилем оформления. Если говорить о классификации, уже были попытки научить нейросети сортировать музыку, картины, тексты по жанрам.
Научная работа опубликована на arXiv.org (ArXiv:1610.09204 [cs.CV])