Статьи / Профиль Andre1540 / Хабр

Andre1540 14 мая 2019 в 11:38

Краткий разбор статьи «DeViSE: A Deep Visual-Semantic Embedding Model»

4 мин

1.2K

Машинное обучение*

Из песочницы

Рассматриваемая статья.

Введение

Современные распознавательные системы лимитированы классифицировать на относительно не большое количество семантически не связанных между собой классов. Привлечение текстовой информации, даже несвязанной с картинками, позволяет обогатить модель и в некоторой степени решить следующие проблемы:

если модель распознавания совершает ошибку, то часто эта ошибка семантически не близка к правильному классу;
нет возможности предсказать объект, который относится к новому классу, который не был представлен в обучающем наборе данных.

Предложенный подход предлагает отображать картинки в богатое семантическое пространство, в котором метки более схожих классов находятся ближе к друг другу, чем метки менее похожих классов. Как результат, модель дает меньше семантически далеких от истинного класса предсказаний. Более того, модель, учитывая и визуальную и семантическую близость, может правильно классифицировать изображения, относящиеся к классу, который не был представлен в обучающем наборе данных.

Читать дальше →