Статьи / Закладки / Профиль Kual / Хабр

FlexiTech 13 сен 2023 в 10:20

Как machine learning улучшает рекомендации по каталогу сайта на 80%. Повышаем эффективность collaborative filtering

Средний

7 мин

Клиентская оптимизация*Разработка под e-commerce*Машинное обучение*Искусственный интеллектБлог компании FlexiTech.ai

Обзор

Рекомендации продуктов стали неотъемлемым инструментом продаж для сайтов электронной коммерции. Такие системы рекомендаций обычно используют технологию collaborative filtering — распространенный подход для создания рекомендательных систем, основанных на поведении пользователей. Применение collaborative filtering возможно, когда имеется достаточное количество исторических данных о взаимодействии пользователя с элементами интерфейса, и она неэффективна, когда данные о взаимодействиях собраны в недостаточном объеме или не по всем действиям. Согласно принципу Парето, обычно 20% каталога сайта получают 80% трафика, а остальной каталог не имеет достаточного объема данных о взаимодействии с пользователями. Именно это является проблемой для реализации рекомендаций на основе поведения.

Когда collaborative filtering применить не получается, можно использовать рекомендации на основе контента, то есть находить товары по схожему внешнему виду, характеристикам или описанию. Однако, используя machine learning, мы можем сделать подход collaborative filtering эффективным даже для продуктов с минимальными данными о взаимодействии с клиентами. Давайте обсудим, как обучить ML‑модель для отображения характеристик collaborative filtering, чтобы предоставлять рекомендации на основе поведения даже для продуктов с неполными данными.

FlexiTech 16 авг 2023 в 13:33

Кейс крупнейшего китайского маркетплейса: атрибуция более чем 100 млн товаров технологиями ML без обучения модели

Средний

5 мин

2.5K

Обработка изображений*Машинное обучение*Искусственный интеллектNatural Language Processing*Блог компании FlexiTech.ai

Кейс

Наш клиент, крупный маркетплейс товаров из Китая, определил “цвет”, как один из самых важных атрибутов на сайте, именно этот параметр встречается в 23 категориях из 30.

Однако в нашем случае, фильтрация товаров по цвету является сложной задачей, потому что, карточки товаров заполняют не представители маркетплейса, а продавцы конкретных товаров, которые не всегда понимают, что заполнять данные о продукции стоит максимально подробно и понятно для каждой позиции. В свою очередь, маркетплейс также не регламентирует каких-то четких правил описания товаров. Это привело к тому, что характеристики товара заполнены неверно или неточно. Особенно наглядно это проявляется в описании цвета, где некоторые селлеры могут написать что-то непонятное, например, “цвет утреннего рассвета”.

Отметим, что данных для обучения ML-моделей, к сожалению, нет. То есть мы не можем выделить группу товаров для тренировки, в которой мы были бы заведомо уверены, что атрибуты проставлены верно. Предварительная оценка показала, что только в 31% товаров цвет был заполнен одним из значений, которые мы впоследствии хотим видеть в фильтрах, но даже это не значит, что он заполнен верно без ручной проверки.

Кроме того, товаров очень много – более 100 млн. Заполнять атрибуты вручную для каждого товара займет слишком много времени и ресурсов, которые тратить никто не готов.

Фишкой данного решения является минимальное использование обучающих данных для достижения высокой точности в классификации изображений. Это достигнуто благодаря использованию модели CLIP (Contrastive Language-Image Pretraining), которая предназначена для zero-shot и one-shot обучения, изначально созданная для сопоставления изображения и его текстового описания.

+10