Как стать автором
Обновить

Как мы обучали категоризатор фискальных чеков DataCheckEngine

Время на прочтение6 мин
Количество просмотров1.9K
Всего голосов 8: ↑8 и ↓0+8
Комментарии7

Комментарии 7

С одной стороны, цель понятна. С другой - а зачем кусать кактус со сложной стороны?

В каждом чеке есть обязательно ИНН организации. Через ИНН можно сделать две полезные вещи:

1) Узнать ОКВЭД

2) Завести словарь Организация - род деятельности.

И по каждому чеку вы теперь примерно понимаете категорию.

ОКВЭД не дает вам детальной категории товара. К примеру, вы можете узнать, что какое-то юр. лицо магазина "Ашан" занимается продуктами, но какую это даст картину о клиенте, если он покупал там велосипед, чайник или что-то не из продуктов? Мы же говорим о более детальных категориях и работе с такими сущностями как продукт и бренд.

Как с первичными данными обстоят дела?
Данные вида "Нап с/а RED DEVIL ИнаяСила7,2% ж/б0.45L " редко встречаются в чеках.
Чаще всего это невнятное неидентифицируемое даже человеком нечто, которое может трактовать только продавец и покупатель, если он еще помнит что покупал.

Наиболее же интересно сравнить два товара в двух соседних магазинах разных ретейлеров.
Но на тех данных чеков что есть сейчас сделать это практически невозможно. Жаль что не передается в чеке GS1 или штрихкод или его хэш.

Как с первичными данными обстоят дела?

Все в порядке. Кассовики их охотно продают в обезличенном виде - так, чтобы можно было понять долю уникальных клиентов или точек продаж в данном наборе переданных чеков. Но для категоризации они отдают полные наименования чеков под любые запросы - можно выбрать даже категорию из их перечня.

Данные вида "Нап с/а RED DEVIL ИнаяСила7,2% ж/б0.45L " редко встречаются в чеках.

С чего бы? Продуктовых точек в РФ очень много. Такого полно. А вот непонятного, что может трактовать только продавец - мало, это как раз таки регламентируется 54 ФЗ. А если там совсем ерунда, которую даже человек неспособен понять, то такой чек не представляет ценности в маркетинге.

Наиболее же интересно сравнить два товара в двух соседних магазинах разных ретейлеров.Но на тех данных чеков что есть сейчас сделать это практически невозможно. Жаль что не передается в чеке GS1 или штрихкод или его хэш.

А в чем вы видите задачу сравнения с точки зрения бизнеса? Сравнить имеющиеся чеки нашим решением как раз возможно и провести достаточно глубокую аналитику. Другой вопрос, что мы не можем покупать чеки конкретного юр. лица, не имея на то их согласия. Т.е. кассовики вам никогда не назовут наименование или ИНН юр. лица, продавая семпл чеков. Отсюда сравнить условную "Пятёрочку" с "Дикси" не выйдет.

может у нас разные пятерки / дикси / перекрестки и рыбные/мясные лавки и фруктовые / овощные магазинчики. у меня чеки мало пригодные для чтения .

по реглементирование 54 ФЗ, удивили, посмотрю. Спасибо.

про кассовиков не совсем понял в чеке же есть ИНН.
ИНН-> ЕГРЮЛ->ОКВЭД

может у нас разные пятерки / дикси / перекрестки и рыбные/мясные лавки и фруктовые / овощные магазинчики. у меня чеки мало пригодные для чтения .

В рамках более глобальной задачи по матчингу транзакций на чеки в ОФД мы имели доступ к большому массиву данных по РФ, чеки разнятся, бывают магазины с четкими написаниями, бывают такие сокращения. И те и те закупали для обучения нашего категоризатора.

по реглементирование 54 ФЗ, удивили, посмотрю. Спасибо.

Если не дословно, ФЗ регламентирует, что покупатель должен понять, какой вид товара он купил вплоть до единицы. Условно, нельзя написать в чеке "товар 1" или "футболка 1", "футболка 2" - если футболка 1 - это, допустим детская футболка, а футболка 2 - мужская. Однако, можно написать наименование буквенно-цифровое, если по какой-то причине это однозначный товар. Например, коды запчастей автомобилей концерна VAG. Но сокращать и коверкать слова продавцы могут как угодно, это не регламентировано.

про кассовиков не совсем понял в чеке же есть ИНН.ИНН-> ЕГРЮЛ->ОКВЭД

Вы, имея какой-то объем чеков, оперируете тем, что вы его уже получили и он у вас есть законно вместе со всей персональной информацией - ИНН продавца, возможно, e-mail физ. лица, владеющий этим чеком. Т.е. у вас получены согласия этих юр. лиц и физ. лиц соответственно (это тоже, кстати из 54 ФЗ). Однако, в жизни, вы можете так получить максимум свои чеки. Тогда там будет персональная информация точки продажи - чек ведь ваш. Но глобально, в рамках решения задачи под финансовую организацию или ритейл (который хочет получить чеки конкурентов, к примеру), чтобы получить, а уж тем более, работать с такими чеками, нужно согласие этих самых владельцев персональной информации и владельца чека.

Пример, если банк хочет работать с чеками своих клиентов, он сначала получает с них согласия, потом только закупает их чеки у ОФД вместе со всей информацией по юр. лицу точки продажу, а уже потом обрабатывает их в своих целях для маркетинга. Вопрос, как понять, что данная транзакция клиента равна данному чеку - за рамками, это наш отдельный опыт, о котором с удовольствием расскажем в следующей статье.

Первичные данные имеют самую разнообразную структуру. Данный пример был взят как один из самых сложных. Что касается сравнения товарных позиций разных магазинов - да, это интересная задача, которая могла бы решаться нашим продуктом.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий