aruslantsev 8 сен 2022 в 13:40

Как мы сделали матчер: тайтлы, БЕРТы и две сестры

10 мин

7.3K

Блог компании AliExpress РоссияBig Data*Машинное обучение*

+18

Комментарии 17

Andriljo 8 сен 2022 в 14:49

Взять всё лучшее и соединить в сервис. Не хватило новизны. Но в целом, работа проведена серьёзная. Насчёт colBert, если домен Russian можно было и наш ruSBERT взять)

stalkermustang 8 сен 2022 в 14:57

SBERT-ы показывали себя хуже на этапе кандидатной модели, по нашим внутренним замерам.

Andriljo 8 сен 2022 в 15:05

COLBert брали multilng? Если так. Понятно чем он лучше, тк SBERT не тюнили под мультилингв, пробовали LaBSE?

stalkermustang 8 сен 2022 в 17:57

COLBert у нас на своем претрене на мультитаск на наших же данных. Претрены SBERT'а брали разные. То же и для LaBSE.

Andriljo 8 сен 2022 в 18:23

Претрен на своем домене конечно лучше, молодцы. Серьёзно поработали. Советую попробовать clip эмбеддинги для картинок дотюнить в паре к описанию sku

CameleoGrey 8 сен 2022 в 15:46

Здравствуйте! Очень интересная статья, спасибо. Раньше матчингом заниматься не приходилось, хотя знаю, что тип задачи важный для бизнеса. Не рассматривали вариант с Self-Supervised Learning (SSL)? Как вариант Sim-Siam, чтобы избежать проблем с дублированием модели в памяти, проблем с большим батчем в других подходах и особенностями отдельных подходов (хитрые аугментации, выбор subsamples), и при этом получить пригодные для transfer эмбеддинги (случай новых товаров). На таких объемах должно отработать отлично. Для текста в качестве аугментаций можно попробовать использовать стандартные подходы типа лемматизации, стемминга или даже откидывания отдельных токенов (подходит, исходя из устройства задачи матчинга). Причем можно попробовать использовать не просто Contrastive Loss и его аналоги типа модификаций с KL дивергенцией, а Cluster Loss (взвешенная сумма Contrastive Loss и отличия от центра, эмбеддинг которого выучивается в процессе). Потенциально может отработать даже лучше, чем размеченные данные и дешевле, чтобы автоматически кучковались сами, плюс не было элемента субъективности, вносимого в разметку толокерами. Но проблема с Cluster Loss в том, что при увеличении количества кластеров с некоторого момента начинает жутко расти потребление памяти, поэтому можно делать иерархическую кластеризацию, чтобы избежать такого исхода (есть свои подводные камни, решаются исходя из имеющихся ресурсов).

Вобщем, если не смотрели в эту сторону, обратите внимание на SSL. Может получиться еще более клевое решение, в котором, возможно, пропадут некоторые звенья, которые кажутся на данный момент необходимыми. Но спрогнозировать в какую сторону качнется качество сложно (для картинок SSL может быть как лучше (RelicV2), так и хуже (SimCLR), чем supervised в зависимости от выбранного подхода). Зависит от данных и специфики задачи, которую пока не пощупаешь, не поймешь, что там происходит.

Надеюсь, коммент окажется полезным, спасибо.

aruslantsev 8 сен 2022 в 15:51

Добрый день! Спасибо за интерес к статье.

Если честно, пока особо не смотрели в сторону этого подхода. Было желание использовать обученную модель и для других задач, где есть много размеченных данных, поэтому вопрос с методом обучения особо и не возникал. Надеюсь в будущем, когда мы соберемся переобучать модели, будет время поэкспериментировать и попробовать новые подходы.

zuriad 8 сен 2022 в 17:16

Добрый день!
Не было других идей/экспериментов при работе с картинками кроме ArcFaceLoss (MoCo с NXTLoss, SimCLR)? Какую base модель использовали для обучения (ResNet, EffNet, ViT) ?

aruslantsev 8 сен 2022 в 17:25

Добрый день!

Были эксперименты с N-pair-mc Loss. На наших данных для этой задачи лучше всего себя показали BCE Loss и дообучение с ArcFaceLoss. Модель сейчас ResNet, и Swin Transformer в процессе оценки.

CyaN 9 сен 2022 в 16:01

По своему опыту могу сказать, что применение ML для задач из области НСИ - не лучшая идея.

Andre_Y 16 сен 2022 в 15:09

AliExpress Россия вы красиво пишете, графики замечательные. Вот только почему я не могу оплатить покупку на AliExpress.ru стоимостью 0,01$ ? Заранее предвидя ответ - более дорогие покупки проходят. Может быть Вы ответите, прошу Вас это считать оффициальным обращением.

MaximusPanin 5 окт 2022 в 18:26

Что это за трэш дизайн на в зоне .RU в стиле Яндекса ?

Worst_Misaka 6 окт 2022 в 01:25

У вас то хотя бы поиск работает, хех

elAlex 16 окт 2022 в 18:45

Кто может рассказать как можно на глобальный алиэкспресс ходить, без этих жопоруких aliexpress.ru ? Что-ж они как ни возьмутся за что-нибудь - всё гробят. Это лютый треш. Слов нет - выражения то-же закончились.

elAlex 16 окт 2022 в 18:58

Пока вроде через ВПН получается.
Вот это я понимаю - бюджетик освоили.
Сами своими тупыми руками ( голов там нет ) выталкивают в ВПН.
Молодцы, поздравляю mail.ru с очередным клиническим фэйлом.

В поиске ( не обсуждая пока сам поиск ) цена одна

При заказе другая. Такой подъём на бирже не снился.

LAutour 18 окт 2022 в 10:50

У них есть обратная связь в Телеграмме по глюкам. Я им писал и об это баге и об других. Говорят: о занесении в багрепорт, делают вид, что собираются исправить — а в итоге все либо остается как есть, либо просто функционал вместе с багом вырезается, а чаще ломают еще больше (причем базовые вещи).

elAlex 18 окт 2022 в 16:41

Скиньте телеграмм, если остался - хоть душу отведу, матом покрою, на изменения надежды нет. Потому как я даже до подвала страницы с контактами домотать не могу - подсовывают товары. Насколько надо быть идиотами что-бы такое творить.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий