Search
Write a publication
Pull to refresh
5
0
Send message

Краткий разбор статьи «DeViSE: A Deep Visual-Semantic Embedding Model»

Reading time4 min
Views1.4K

Рассматриваемая статья.


Введение


Современные распознавательные системы лимитированы классифицировать на относительно не большое количество семантически не связанных между собой классов. Привлечение текстовой информации, даже несвязанной с картинками, позволяет обогатить модель и в некоторой степени решить следующие проблемы:


  1. если модель распознавания совершает ошибку, то часто эта ошибка семантически не близка к правильному классу;
  2. нет возможности предсказать объект, который относится к новому классу, который не был представлен в обучающем наборе данных.

Предложенный подход предлагает отображать картинки в богатое семантическое пространство, в котором метки более схожих классов находятся ближе к друг другу, чем метки менее похожих классов. Как результат, модель дает меньше семантически далеких от истинного класса предсказаний. Более того, модель, учитывая и визуальную и семантическую близость, может правильно классифицировать изображения, относящиеся к классу, который не был представлен в обучающем наборе данных.

Читать дальше →

Information

Rating
Does not participate
Registered
Activity