Многие гравюры в базе данных Британского музея имеют копии, не раскрашенные или раскрашенные в разные цвета; а количество копий у каждой гравюры неизвестно. Наша цель была найти дубликаты персонажей с разных гравюр для каждого из 41 тыс персонажей, если дубликатов не было, то модель выводила просто внешне похожих персонажей на искомого. Это задача мэтчинга, построенного на векторах-аутпутах модели контрастивного подхода.
Про реализацию: разумеется, обучить модель классификации на 41 тыс классов требует очень много ресурсов, и наших вычислительных мощностей и данных не хватило на такую задачу. Поэтому “трюком” было контрастивное обучение, которое, грубо говоря, позволяет сделать векторные представления внешне схожих персонажей максимально близкими друг к другу (более подробный подход описан в статье SimCLR, ссылка на нее есть в посте выше). Поскольку при помощи SimCLR мы получаем вектора, то классификационная голова нам не нужна.
Information
Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Многие гравюры в базе данных Британского музея имеют копии, не раскрашенные или раскрашенные в разные цвета; а количество копий у каждой гравюры неизвестно. Наша цель была найти дубликаты персонажей с разных гравюр для каждого из 41 тыс персонажей, если дубликатов не было, то модель выводила просто внешне похожих персонажей на искомого. Это задача мэтчинга, построенного на векторах-аутпутах модели контрастивного подхода.
Про реализацию: разумеется, обучить модель классификации на 41 тыс классов требует очень много ресурсов, и наших вычислительных мощностей и данных не хватило на такую задачу. Поэтому “трюком” было контрастивное обучение, которое, грубо говоря, позволяет сделать векторные представления внешне схожих персонажей максимально близкими друг к другу (более подробный подход описан в статье SimCLR, ссылка на нее есть в посте выше). Поскольку при помощи SimCLR мы получаем вектора, то классификационная голова нам не нужна.