Pull to refresh

Comments 14

И какую информацию Вы хотели донести до читателя? Как сделать простой парсер на R?
В чем преимущества данного решения и почему я должен использовать R для таких задач?
Кстати, иногда удобнее собрать цены из yml. Единственная сложность — поиск самого yml файла.
Да, как ни посмотри — это просто парсер на R.

Использовать или не использовать — считаю, что это вопрос личных предпочтений. Лично мне кажется удобным, что нет необходимости писать парсер на другом языке, а затем результаты его работы импортировать в R.
У меня и моих коллег R раньше не ассоциировался со сбором данных. В статье попытался показать, что данный инструмент можно использовать и для подобных целей.

Про yml не знал, стоит попробовать, спасибо.
А кто сталкивался с мониторингом цен по чекам покупателей? Какие трудности? Интересно послушать.
Первая из трудностей, которая возникает — сбор чеков: либо самим рыться в урнах возле касс и магазинов (что, очевидно, просто непозволительно), либо каким-то образом мотивировать самих покупателей отправлять оригиналы чеков или сканы (менее предпочтительный вариант). Далее дело техники: отсканировать, распознать, сохранить, проанализировать.
Далее дело техники: отсканировать, распознать, сохранить, проанализировать.
отсканировать лучше заменить на «получить от пользователей»
Если проанализировать бизнес-процессы, то чтобы существенно снизить нагрузку на, собственно, производство (если так можно выразиться) — совершенно с Вами согласен — нужно переложить процесс сканирования на сторону покупателя. Но при этом, теряется, контроль над этим этапом: повышается вероятность появления либо сканов слабого качества, не пригодных для обработки, либо вовсе отсутствия таковых. Конечно же, по-хорошему, можно попробовать смоделировать поток первичного материала (чеков) от покупателей и проанализировать процент «брака» от общего числа сканов, при условии что общее количество покупателей, присылающих сканы будет расти. И немаловажным также будет, определить при каких условиях будет расти это общее число покупателей. P.S Где-то я встречал забугорную компанию которая занимается обработкой чеков, найду обязательно скину ссылочку
будет очень интересно ссылку
Все зависит от задачи.
Если необходимо разово промониторить цены в конкретном магазине — разумно самостоятельно пробежаться и записать цены с полок, во многих ситуациях этого достаточно. Если магазинов много и/или задача не разовая — тут уже нужно либо мотивировать покупателей присылать чеки самим (может обидеться конкурент), либо нанимать команду мониторщиков (которые ради денег могут прислать много несуществующих цен). Сейчас уже существуют компании, которые платят обычным людям за фотографии цен в магазинах. Затем эту информацию они продают компаниям.
Другая задача — по чекам восстановить некоторые параметры продаж, и тут все гораздо сложней. В этом случае, для получения разумной точности, количество чеков, которые необходимо собрать просто огромно.
по первой части вашего коммента все понятно. есть реализации и довольно успешные.
а по второй можно подробней?

я так понимаю главная проблема, это оцифровка?
Допустим Вы хотите исследовать пенетрацию (фактически это вероятность обнаружить товар в чеке) какого либо товара с заданной точностью. Нужно оценить количество чеков, необходимое для получения данной точности. Соответственно у нас есть 2 исхода — товар есть в чеке и товар в чеке отсутствует. Это биномиальное распределение и доверительный интервал будет иметь вид. Отсюда в зависимости от предполагаемого ассортимента исследуемого магазина и заданной точности можно получить необходимое количество чеков. Оно будет огромным.
Проблема оцифровки отходит на второй план — собрать такое количество чеков очень сложно.
Очевидно, удобнее что-то спарсить на Javascript, который можно загнать прям на страницу магазина, загруженную в браузере.
Автор не понял как программно показать следующие 30 товаров, поэтому решено было изучить мобильную версию сайта.

Для этого отлично подходит отладочная панель браузера.
Вся нужная информация была здесь /catalogAdditional/93402?sort=5&viewType=4&pageNum=5
По парсингу — мы выкладываем данные парсинга и мониторинга цен в открытый доступ — можно просто забирать импортировать себе и работать с итогами. xmldatafeed.com — сделать промышленный парсинг очень сложно.
Sign up to leave a comment.

Articles