Комментарии 17
Взять всё лучшее и соединить в сервис. Не хватило новизны. Но в целом, работа проведена серьёзная. Насчёт colBert, если домен Russian можно было и наш ruSBERT взять)
SBERT-ы показывали себя хуже на этапе кандидатной модели, по нашим внутренним замерам.
COLBert брали multilng? Если так. Понятно чем он лучше, тк SBERT не тюнили под мультилингв, пробовали LaBSE?
Здравствуйте! Очень интересная статья, спасибо. Раньше матчингом заниматься не приходилось, хотя знаю, что тип задачи важный для бизнеса. Не рассматривали вариант с Self-Supervised Learning (SSL)? Как вариант Sim-Siam, чтобы избежать проблем с дублированием модели в памяти, проблем с большим батчем в других подходах и особенностями отдельных подходов (хитрые аугментации, выбор subsamples), и при этом получить пригодные для transfer эмбеддинги (случай новых товаров). На таких объемах должно отработать отлично. Для текста в качестве аугментаций можно попробовать использовать стандартные подходы типа лемматизации, стемминга или даже откидывания отдельных токенов (подходит, исходя из устройства задачи матчинга). Причем можно попробовать использовать не просто Contrastive Loss и его аналоги типа модификаций с KL дивергенцией, а Cluster Loss (взвешенная сумма Contrastive Loss и отличия от центра, эмбеддинг которого выучивается в процессе). Потенциально может отработать даже лучше, чем размеченные данные и дешевле, чтобы автоматически кучковались сами, плюс не было элемента субъективности, вносимого в разметку толокерами. Но проблема с Cluster Loss в том, что при увеличении количества кластеров с некоторого момента начинает жутко расти потребление памяти, поэтому можно делать иерархическую кластеризацию, чтобы избежать такого исхода (есть свои подводные камни, решаются исходя из имеющихся ресурсов).
Вобщем, если не смотрели в эту сторону, обратите внимание на SSL. Может получиться еще более клевое решение, в котором, возможно, пропадут некоторые звенья, которые кажутся на данный момент необходимыми. Но спрогнозировать в какую сторону качнется качество сложно (для картинок SSL может быть как лучше (RelicV2), так и хуже (SimCLR), чем supervised в зависимости от выбранного подхода). Зависит от данных и специфики задачи, которую пока не пощупаешь, не поймешь, что там происходит.
Надеюсь, коммент окажется полезным, спасибо.
Добрый день! Спасибо за интерес к статье.
Если честно, пока особо не смотрели в сторону этого подхода. Было желание использовать обученную модель и для других задач, где есть много размеченных данных, поэтому вопрос с методом обучения особо и не возникал. Надеюсь в будущем, когда мы соберемся переобучать модели, будет время поэкспериментировать и попробовать новые подходы.
Добрый день!
Не было других идей/экспериментов при работе с картинками кроме ArcFaceLoss (MoCo с NXTLoss, SimCLR)? Какую base модель использовали для обучения (ResNet, EffNet, ViT) ?
По своему опыту могу сказать, что применение ML для задач из области НСИ - не лучшая идея.
AliExpress Россия вы красиво пишете, графики замечательные. Вот только почему я не могу оплатить покупку на AliExpress.ru стоимостью 0,01$ ? Заранее предвидя ответ - более дорогие покупки проходят. Может быть Вы ответите, прошу Вас это считать оффициальным обращением.
Что это за трэш дизайн на в зоне .RU в стиле Яндекса ?
Кто может рассказать как можно на глобальный алиэкспресс ходить, без этих жопоруких aliexpress.ru ? Что-ж они как ни возьмутся за что-нибудь - всё гробят. Это лютый треш. Слов нет - выражения то-же закончились.
Пока вроде через ВПН получается.
Вот это я понимаю - бюджетик освоили.
Сами своими тупыми руками ( голов там нет ) выталкивают в ВПН.
Молодцы, поздравляю mail.ru с очередным клиническим фэйлом.
Как мы сделали матчер: тайтлы, БЕРТы и две сестры