alicezavels 22 мая 2024 в 14:52

Честные рейтинги и отзывы: роль машинного обучения в борьбе с фродом рейтинга и отзывов товаров в ритейле

Средний

7 мин

2.1K

Блог компании АвтомаконBig Data*Машинное обучение*Искусственный интеллектIT-компании

Приветствуем читателей Хабра! Мы, команда дата-сайентистов и дата-аналитиков компании «ДатаЛаб»* (ГК «Автомакон»), продолжаем рассказывать о насущных проблемах ML-разработки, делимся подходами к их решению и рассуждаем на актуальные темы.

Автор статьи: Андрей Шелюх, руководитель проектов направления «ДатаЛаб».

С растущим разнообразием товаров и услуг все больше потребителей обращаются к онлайн-отзывам и рейтингам, чтобы принять решение о покупке. При этом растет и риск столкнуться с фродом отзывов и искусственным накручиванием рейтингов, что может серьезно исказить представление потребителей о продуктах и услугах. За красочными обещаниями и блестящими оценками могут скрываться поддельные отзывы, созданные для манипуляции восприятием потребителей. Все это является серьезным вызовом для потребителей, бизнеса и доверия к онлайн-платформам. В последние годы технологии машинного обучения (ML) стали широко использоваться для выявления фрода в отзывах и рейтингах, благодаря своей способности анализировать большие объемы данных и выявлять неестественные паттерны.

В данной статье мы рассмотрим технические методы применения ML для борьбы с фродом в рейтингах и отзывах товаров в ритейле. Наша команда разработала антифрод-систему для ВкусВилл, которая умеет распознавать и блокировать поддельные отзывы, что помогает бренду поддерживать высокий уровень доверия и объективности. На практике она уже показывает значительные результаты и помогает достичь одной из главных целей ритейлера — предоставлять покупателям прозрачную и честную информацию о товарах и продуктах сети.

ВкусВилл уже давно активно работают с отзывами покупателей через различные каналы связи (соцсети, горячая линия, упоминания в медиа), чтобы улучшать качество продуктов. На основании отзывов и оценок в мобильном приложении и на сайте ВкусВилл формируется рейтинг, который является базой системы качества и при падении сигнализирует, что с продуктом что-то не так. Товары с низким рейтингом выводят из ассортимента на доработку, часто товары после доработки возвращаются. Важно понимать, что отзывы в интернете не всегда бывают честными. Чтобы избежать фальшивых мнений и обеспечить честные рейтинги, специалисты ВкусВилла проверяют все оставленные отзывы. Применение технологий машинного обучения в борьбе с фродом рейтинга и отзывов товаров в ритейле представляет собой эффективный подход, который позволяет выявлять неестественные паттерны и аномалии в данных. Системы ML могут быть использованы для обучения моделей выявления фрода, а также для анализа текстовых отзывов с использованием алгоритмов обработки естественного языка.

Сбор и подготовка данных

Прежде чем приступить к применению ML, необходимо собрать и подготовить данные. Это могут быть текстовые отзывы и оценки, выставленные товару после покупки, история покупок, данные о покупателе, полученные при регистрации бонусной карты. Важно проверить есть ли другие покупатели, использующие этот же телефон, а также провалидировать почтовый адрес. Также можно посмотреть на агрегированные данные по поставщикам товаров. После сбора данных очищаем их от дубликатов, выбросов и других аномалий, чтобы обеспечить качественное обучение моделей ML.

Выявление аномалий и неестественных паттернов

С помощью моделей машинного обучения мы можем выявить аномалии и неестественные паттерны в данных, которые могут указывать на фрод. Например, алгоритмы кластеризации помогут выявлять группы пользователей или отзывов, которые сильно отличаются от общей массы поведения. Алгоритмы обнаружения аномалий помогут выявить отзывы или оценки, которые сильно выбиваются из общего распределения.

Для выявления аномалий в данных можно использовать разные методы, такие как метод k-ближайших соседей (k-NN), Isolation Forest, а также модели глубокого обучения, такие как автоэнкодеры (автокодировщики), свёрточные нейронные сети и другие. Для более точного определения фродовых покупателей все эти методы можно использовать в ансамбле. Разные модели отмечают разные отзывы в качестве аномальных или подозрительных, что уменьшает вероятность ошибки, когда все эти методы сходятся во мнении насчёт какого-то из отзывов.

Обучение моделей для выявления фрода

Выявление фрода в рейтингах и отзывах можно производить различными моделями ML, такими как классификация, кластеризация, обнаружение аномалий и т.д. Например, модели классификации могут помочь определить, является ли отзыв подлинным или фальшивым, основываясь на текстовых признаках. Модели кластеризации могут помочь выявить группы пользователей с необычным поведением. Для обучения моделей сгенерированные из данных признаки подаются в нормализованном виде. Также можно вместо нормализации формировать эмбеддинги данных. Для данных упорядоченных по времени можно использовать модель Pytorch Lifestream, которая позволит получить представление изменяющихся во времени рейтингов для пар товар-поставщик или для оценок и отзывов индивидуальных пользователей.

Одним из способов для определения аномалий в данных является автоэнкодер. Объекты, которые более всего выбиваются из общего распределения, после реконструкции автоэнкодером дадут наибольшую ошибку в сравнении с оригиналом. С помощью модели Pytorch Lifestream мы сформировали эмбеддинги и на полученном представлении данных применили различные методы для выявления фрода (для иллюстрации эмбеддинги были сжаты до размерности 2). Предлагаем посмотреть как сработал метод K-means и метод Isolation Forest.

Как видите, модели при оценке фрода «обращают внимание» на разные факторы, поэтому для повышения точности имеет смысл использовать методы в ансамбле.

Другой метод, которым мы воспользовались, — оценка ошибки реконструкции автоэнкодера.

Все эти методы в комбинации с другими сопутствующими факторами помогают принять финальное решение о том, является ли конкретный отзыв фродовым или нет.

Использование алгоритмов обработки естественного языка (NLP)

Для анализа текстовых отзывов можно применять алгоритмы NLP, которые позволяют извлекать смысловую информацию из текста. Это позволит выявить фальшивые отзывы, использующие одни и те же фразы или шаблоны. Подробнее рассмотрим это в отдельной статье.

Обновление моделей и системы

ML-модели должны постоянно обновляться и улучшаться, чтобы адаптироваться к новым видам фрода. Это может быть осуществлено с помощью постоянного мониторинга результатов моделей и внедрения новых данных для обучения.

Метрики эффективности

После начала работы системы было важно установить метрики эффективности, которые помогали бы командам понимать, насколько цель инструмента достигается.

Ахлем Лукманов, лидер по алгоритмам и антифрод рейтинги и отзывы ВкусВилл:

Для нашей команды основным обещанием в системе менеджмента Beyond Taylor ВкусВилл является обещание честного рейтинга и что честный покупатель не будет заблокирован на фрод. Поэтому было важно установить ключевые триггеры по определению недобросовестных действий. Со стороны команды в любом случае осуществляется ручной контроль и перепроверка карт покупателей, которые были заблокированы. Ключевая метрика - доля выявленного фрода системой 90%. То есть ручных блокировок должно быть 10% и менее. Также мы оперируем понятием “плохая прибыль” (термин из книги “Искренняя лояльность“ Фред Райхельд и Роб Марки). Каждый замеченный фейковый отзыв по продукту по факту ведет к тому, что по этому продукту пытаются скрыть реальную картину мнения покупателей и скорее всего проблемы по качеству. Потому рано или поздно, если не предпринимать меры, такой продукт не будет соответствовать эволюционной цели ВкусВилл - вкусные и полезные продукты для здорового питания доступны каждому. Поэтому в выявленный период вся прибыль и выручка по такому продукту считается “плохой” и ежемесячно мы смотрим на долю “плохой прибыли” в общей прибыли компании. Также мы считаем показатель “плохой” выручки в 10 000 рублей. Пока эта цифра составляет пипсы. Мы понимаем, что скорее всего нулевого значения достичь не удастся, но внимательно следим за динамикой и минимально допустимыми значениями данного показателя.

«Антифрод» в компании

Наталья Кузьменко, лидер клиентского пути поставщика ВкусВилл:

Важно понимать, что целью антифрод системы является не найти, наказать и обезвредить недобросовестных деятелей, а создать безопасные условия и механики для покупателей, которые позволяют совершать покупки вкусных и полезных продуктов и оставлять свое мнение, понимая что его услышат и предпримут необходимые действия для улучшения.

Поэтому в первую очередь мы за безопасный и удобный путь рейтингов и отзывов для покупателей, а также за добросовестную и честную конкуренцию между поставщиками.

С момента стремительного развития ecomm знаем, что с проблемной честного рейтинга и фрода в целом сталкивается не только ВкусВилл, поэтому готовы объединяться и делиться опытом с другими компаниями

Система антифрода играет важную роль в защите компании от недобросовестных действий покупателей и повышении доверия как со стороны клиентов, так и поставщиков. Ее внедрение может принести значительные экономические выгоды, помогая компании экономить сотни миллионов в год. При этом важно помнить, что цена доверия к бренду может оказаться намного выше. Для выявления фрода не всегда нужны сложные инструменты. Часто достаточно иметь актуальные данные и понимание, что именно необходимо найти, поэтому хорошая система поддержки data-инженеров — ключевой фактор при разработке системы антифрода.

Одним из сложных моментов может стать хранение исторических личных данных и обеспечение их безопасности. При запросе пользователя об удалении информации о нем, компания обязана выполнить это требование. В связи с тем, что важно сохранять как можно больше информации для дальнейшего использования в анализе, следует использовать методы защиты, такие как хеширование личных данных пользователей.

В нашей системе антифрода используются различные наборы признаков для выявления разных видов мошенничества, таких как манипуляции с рейтингами, возвраты товаров, чрезмерное использование бонусов и другие. Эти признаки могут появляться как однократно, так и несколько раз в течение дня. Важно отметить, что срабатывание одного признака не всегда означает выявление фрода. Иногда эффективнее наблюдать за действиями пользователя и анализировать совокупность сработавших признаков или частоту их срабатывания. Поэтому каждому признаку присваивается определенный вес, и устанавливается порог аккумулированного веса, при достижении которого ситуация считается подозрительной и переходит в статус фродовой.

Признаки фрода необходимо постоянно адаптировать и дорабатывать под новые условия. Некоторые из них могут перестать работать из-за прекращения использования мошеннических схем, в то время как другие могут требовать постоянного внимания и доработки. Гибкость и постоянная адаптация системы антифрода являются ключевыми факторами ее эффективности и успешной борьбы с мошенничеством.

Хабы: