Как стать автором
Обновить

Natural Language Processing онлайн-чеков: курс уроков волшебства для обычного кота и другие проблемы

Время на прочтение10 мин
Количество просмотров7.9K
Всего голосов 68: ↑66 и ↓2+64
Комментарии5

Комментарии 5

бедные, бедные ОФД — им не видно GTIN товара в чеке, а ещё злые ритейлеры подключают 3-4 разных ОФД параллельно и водят их за нос, хитро направляя разные чеки в разные компании, путая следы. А теперь ещё и «честный знак»…
Естественно, что перед проектом мы проверили возможность использования доступных кодов товара в чеках для наших целей. Можно было только поражаться, какое разнообразие оплат проходит под кодом «услуги». Кроме того, наша таксономия была значительно более подробной и сфокусированной на интересах человека, чем код оплаты в транзакции. Но Вы правы в том, что некоторые ритейлеры приносят проблемы ОФД, в частности они меняют кириллицу на латиницу в непредсказуемых местах, делают нетривиальные сокращения и всячески препятствуют систематическому анализу текстов чеков.

конечно, препятствуют

Я верно понял, что вы забираете данные от ОФД чтобы потом предоставлять маркетологам аудитории вида «Покупатели велосипедной втулки»?

Если да, то для меня невероятной загадкой является, как вы найдёте айдишники (телефон, емейл, метриковский ClientID или гугловский идентификатор или ещё что-то) тех, кто покупал эту самую втулку? Ведь в чеке нет никакой такой информации!
Мы используем биржу данных как площадку, на которой наши партнеры могут продавать или покупать информацию об аудитории. Сам проект был запущен для помощи одному из наших партнеров предоставлять качественную информацию на биржу. Если на бирже сформирован сегмент, то для рекламной кампании он может быть загружен в одну из площадок (Google, MyTarget, Yandex, etc), и действительно для запуска кампании нужны идентификаторы, в этом Вы правы. Чаще всего идентификатором являются куки браузера, но некоторые площадки позволяют использовать телефонные номера или емейлы (не в открытом виде, естественно). В случае описанного в статье проекта использовались хэшированные телефонные номера, которые указывались при заказе в Интернете, таким образом мы не получали доступ к персональной информации, однако по этим идентификаторам можно сделать рекламную кампанию на некоторых площадках, позволяющих связать номер и куки браузера.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий