Как стать автором
Обновить

Комментарии 17

Взять всё лучшее и соединить в сервис. Не хватило новизны. Но в целом, работа проведена серьёзная. Насчёт colBert, если домен Russian можно было и наш ruSBERT взять)

SBERT-ы показывали себя хуже на этапе кандидатной модели, по нашим внутренним замерам.

COLBert брали multilng? Если так. Понятно чем он лучше, тк SBERT не тюнили под мультилингв, пробовали LaBSE?

COLBert у нас на своем претрене на мультитаск на наших же данных. Претрены SBERT'а брали разные. То же и для LaBSE.

Претрен на своем домене конечно лучше, молодцы. Серьёзно поработали. Советую попробовать clip эмбеддинги для картинок дотюнить в паре к описанию sku

Здравствуйте! Очень интересная статья, спасибо. Раньше матчингом заниматься не приходилось, хотя знаю, что тип задачи важный для бизнеса. Не рассматривали вариант с Self-Supervised Learning (SSL)? Как вариант Sim-Siam, чтобы избежать проблем с дублированием модели в памяти, проблем с большим батчем в других подходах и особенностями отдельных подходов (хитрые аугментации, выбор subsamples), и при этом получить пригодные для transfer эмбеддинги (случай новых товаров). На таких объемах должно отработать отлично. Для текста в качестве аугментаций можно попробовать использовать стандартные подходы типа лемматизации, стемминга или даже откидывания отдельных токенов (подходит, исходя из устройства задачи матчинга). Причем можно попробовать использовать не просто Contrastive Loss и его аналоги типа модификаций с KL дивергенцией, а Cluster Loss (взвешенная сумма Contrastive Loss и отличия от центра, эмбеддинг которого выучивается в процессе). Потенциально может отработать даже лучше, чем размеченные данные и дешевле, чтобы автоматически кучковались сами, плюс не было элемента субъективности, вносимого в разметку толокерами. Но проблема с Cluster Loss в том, что при увеличении количества кластеров с некоторого момента начинает жутко расти потребление памяти, поэтому можно делать иерархическую кластеризацию, чтобы избежать такого исхода (есть свои подводные камни, решаются исходя из имеющихся ресурсов).

Вобщем, если не смотрели в эту сторону, обратите внимание на SSL. Может получиться еще более клевое решение, в котором, возможно, пропадут некоторые звенья, которые кажутся на данный момент необходимыми. Но спрогнозировать в какую сторону качнется качество сложно (для картинок SSL может быть как лучше (RelicV2), так и хуже (SimCLR), чем supervised в зависимости от выбранного подхода). Зависит от данных и специфики задачи, которую пока не пощупаешь, не поймешь, что там происходит.

Надеюсь, коммент окажется полезным, спасибо.

Добрый день! Спасибо за интерес к статье.

Если честно, пока особо не смотрели в сторону этого подхода. Было желание использовать обученную модель и для других задач, где есть много размеченных данных, поэтому вопрос с методом обучения особо и не возникал. Надеюсь в будущем, когда мы соберемся переобучать модели, будет время поэкспериментировать и попробовать новые подходы.

Добрый день!
Не было других идей/экспериментов при работе с картинками кроме ArcFaceLoss (MoCo с NXTLoss, SimCLR)? Какую base модель использовали для обучения (ResNet, EffNet, ViT) ?

Добрый день!

Были эксперименты с N-pair-mc Loss. На наших данных для этой задачи лучше всего себя показали BCE Loss и дообучение с ArcFaceLoss. Модель сейчас ResNet, и Swin Transformer в процессе оценки.

По своему опыту могу сказать, что применение ML для задач из области НСИ - не лучшая идея.

AliExpress Россия вы красиво пишете, графики замечательные. Вот только почему я не могу оплатить покупку на AliExpress.ru стоимостью 0,01$ ? Заранее предвидя ответ - более дорогие покупки проходят. Может быть Вы ответите, прошу Вас это считать оффициальным обращением.

Что это за трэш дизайн на в зоне .RU в стиле Яндекса ?
Что это за трэш дизайн на в зоне .RU в стиле Яндекса ?

Что это за трэш дизайн на в зоне .RU в стиле Яндекса ?

У вас то хотя бы поиск работает, хех
image

Кто может рассказать как можно на глобальный алиэкспресс ходить, без этих жопоруких aliexpress.ru ? Что-ж они как ни возьмутся за что-нибудь - всё гробят. Это лютый треш. Слов нет - выражения то-же закончились.

Пока вроде через ВПН получается.
Вот это я понимаю - бюджетик освоили.
Сами своими тупыми руками ( голов там нет ) выталкивают в ВПН.
Молодцы, поздравляю mail.ru с очередным клиническим фэйлом.

В поиске ( не обсуждая пока сам поиск ) цена одна
В поиске ( не обсуждая пока сам поиск ) цена одна

При заказе другая. Такой подъём на бирже не снился.
При заказе другая. Такой подъём на бирже не снился.

У них есть обратная связь в Телеграмме по глюкам. Я им писал и об это баге и об других. Говорят: о занесении в багрепорт, делают вид, что собираются исправить — а в итоге все либо остается как есть, либо просто функционал вместе с багом вырезается, а чаще ломают еще больше (причем базовые вещи).

Скиньте телеграмм, если остался - хоть душу отведу, матом покрою, на изменения надежды нет. Потому как я даже до подвала страницы с контактами домотать не могу - подсовывают товары. Насколько надо быть идиотами что-бы такое творить.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий