Pull to refresh
0
0
Курогло Александр @Kual

User

Send message

Как machine learning улучшает рекомендации по каталогу сайта на 80%. Повышаем эффективность collaborative filtering

Level of difficulty Medium
Reading time 7 min
Views 1.9K

Рекомендации продуктов стали неотъемлемым инструментом продаж для сайтов электронной коммерции. Такие системы рекомендаций обычно используют технологию collaborative filtering — распространенный подход для создания рекомендательных систем, основанных на поведении пользователей. Применение collaborative filtering возможно, когда имеется достаточное количество исторических данных о взаимодействии пользователя с элементами интерфейса, и она неэффективна, когда данные о взаимодействиях собраны в недостаточном объеме или не по всем действиям. Согласно принципу Парето, обычно 20% каталога сайта получают 80% трафика, а остальной каталог не имеет достаточного объема данных о взаимодействии с пользователями. Именно это является проблемой для реализации рекомендаций на основе поведения.

Когда collaborative filtering применить не получается, можно использовать рекомендации на основе контента, то есть находить товары по схожему внешнему виду, характеристикам или описанию. Однако, используя machine learning, мы можем сделать подход collaborative filtering эффективным даже для продуктов с минимальными данными о взаимодействии с клиентами. Давайте обсудим, как обучить ML‑модель для отображения характеристик collaborative filtering, чтобы предоставлять рекомендации на основе поведения даже для продуктов с неполными данными.

Читать далее
Total votes 3: ↑3 and ↓0 +3
Comments 3

Кейс крупнейшего китайского маркетплейса: атрибуция более чем 100 млн товаров технологиями ML без обучения модели

Level of difficulty Medium
Reading time 5 min
Views 2.4K

Наш клиент, крупный маркетплейс товаров из Китая, определил “цвет”, как один из самых важных атрибутов на сайте, именно этот  параметр встречается в 23 категориях из 30.

Однако в нашем случае, фильтрация товаров по цвету является сложной задачей, потому что, карточки товаров заполняют не представители маркетплейса, а продавцы конкретных товаров, которые не всегда понимают, что заполнять данные о продукции стоит максимально подробно и понятно для каждой позиции. В свою очередь, маркетплейс также не регламентирует каких-то четких правил описания товаров. Это привело к тому, что характеристики товара заполнены неверно или неточно. Особенно наглядно это проявляется в описании цвета, где некоторые селлеры могут написать что-то непонятное, например, “цвет утреннего рассвета”.

Отметим, что данных для обучения ML-моделей, к сожалению, нет. То есть мы не можем выделить группу товаров для тренировки, в которой мы были бы заведомо уверены, что атрибуты проставлены верно.  Предварительная оценка показала, что только в 31% товаров цвет был заполнен одним из значений, которые мы впоследствии хотим видеть в фильтрах, но даже это не значит, что он заполнен верно без ручной проверки.

Кроме того,  товаров очень много – более 100 млн. Заполнять атрибуты вручную для каждого товара займет слишком много времени и ресурсов, которые тратить никто не готов.

Фишкой данного решения является минимальное использование обучающих данных для достижения высокой точности в классификации изображений. Это достигнуто благодаря использованию модели CLIP (Contrastive Language-Image Pretraining), которая предназначена для zero-shot и one-shot обучения, изначально созданная для сопоставления изображения и его текстового описания.

Читать далее
Total votes 12: ↑11 and ↓1 +10
Comments 4

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity