Comments / Profile of ssh1 / Habr

How to become an author

Сергей @ssh1

Data Scientist

ProfileArticles6PostsNewsComments60

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 29 2015 at 10:58

Проект делался в свободное время, в качестве хобби.
Если пересчитать:
Парсинг + отладка + игра «успей за изменениями на источнике» — 5 недель
Веб морда — 3 недели
Анализ — 5 часов
Статья — 1 час

Могу ошибаться в 2-3 раза в любую сторону)

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 29 2015 at 10:51

Спасибо. Какие даты вы имеете в виду? Снизу вроде есть даты?

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 28 2015 at 10:29

Парсеры python + urllib
База MySQL 5.6 недавно перешел на SSD
Пришлось немного повозиться чтобы научиться писать данные без избыточности
WEB — python + Django + bootstrap + highcharts
Memcached
Среднее время ответа сервера, судя по ньюрелик, 20-30мс. Учитывая что в кэше явно есть не всё, считаю это вполне достойным результатом)

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 27 2015 at 07:00

Как вариант. Спасибо, посмотрю подробнее.

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 27 2015 at 06:52

Спасибо за комментарий. Данные на графиках выводятся после ресэмплинга, соответственно, если на графике точка в 18:00, это не значит, что именно в 18:00 была такая цена. Плюс к этому магазины скорее всего очень часто меняют цены в период чёрной пятницы.
Спасибо за фидбэк, попробую изучить подробнее что происходило.

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 26 2015 at 19:10

Скажем так: часть там, часть там.
Бывает такое в названиях накрутят)

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 26 2015 at 19:01

Связки достаточно сделать один раз.
Тут работает свой алгоритм определения близости по цене и названию + парсинг агрегаторов. В общем есть куда развиваться.

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 26 2015 at 18:17

Парсинг магазинов/аггрегаторов
100 000 имеется в виду уникальных товаров, а не пар товар-магазин.
Да, кстати, как поживает ваш аналогичный проект? Планируется какое-либо развитие?

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 26 2015 at 12:28

Да, это косяки при сборе данных. Лучше обрабатывать при сборе, а не на выводе.
Спасибо за пример.

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 26 2015 at 12:09

Пока никак, с рекламы есть надежда окупить часть затрат на сервер.
В дальнейшем, была идея преобразовать это в сервис рекомендаций по ценообразованию. Отслеживаем цены конкурентов -> выставляем оптимальную цену на автомате.
Но это уже другая история, вопрос, дойдут ли руки.

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 26 2015 at 12:07

Спасибо. Скорее всего действительно добавим.

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 26 2015 at 10:41

Согласен, поиск не очень хорош. Думаю прикрутить sphinx как дойдут руки.

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 26 2015 at 10:26

Спасибо за идеи.
1. Вопрос где её взять, да, и интересно ли это производителю.
2. А является ли падение цены критерием успешности?
3. Интересно, но отсмотрев вручную около сотни графиков закономерностей не нашёл.
4. Спасибо, надо подумать как достать предложение о скидке. Бывает приходит рассылка: «Вот купон, он дает ссылку 10% на эти товары» и т.д.
5. Тоже думал. Доллар вырос в 2 раза. У многих товаров цена вообще не зависит от него. Хотя возможно она бы падала в случае неизменного курса.

Вообще я думал попробовать предсказать цену товара на основе прошлых цен + цен на товары в других категориях. Есть надежда что цены на стиралки, например, могут являться хорошими фичами для предсказания цен на холодильники. Пока не дошли руки.

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 26 2015 at 10:17

Спасибо. Да, долго, нудно, но в одни )

Анализ изменения цен в российских интернет-магазинах

ssh1 Nov 26 2015 at 08:45

Да, это первый вариант. Я думаю соберу фидбэк и что-то доработаю.

Теперь любой сайт может узнать адрес вашей страницы в VK?

ssh1 Nov 1 2015 at 17:11

А можете подробнее как сейчас это работает?

Обучение машинному обучению

ssh1 Oct 29 2015 at 15:41

Был ли прирост качества если добавить эти «угаданные» 15000 объектов к обучающей выборке?

Зaчем мне AshleyMadison, если я не курю?

ssh1 Sep 14 2015 at 17:10

Честно говоря не особо сравнивал с другими вариантами.
Как-то сразу начал использовать joblib после прочтения scikit-learn.org/stable/modules/model_persistence.html
Недавно попробовал pickle — в несколько раз дольше, объем также вырос в несколько раз.
Кстати, про joblib.dump: никто случайно не сталкивался с проблемой в ipython notebook?
Сохраняю tuple (X1,y1,X2,y2) с помощью joblib.dumb из одного ноутбука. Читаю из следующего — X1 и X2 пустые.
Без ipython notebook всё ОК.

Зaчем мне AshleyMadison, если я не курю?

ssh1 Sep 14 2015 at 17:03

Нет, не пробовал. А по каким критериям предлагаете их исключать?

Зaчем мне AshleyMadison, если я не курю?

ssh1 Sep 11 2015 at 18:04

Попробовал только что, принципиально разницы нет. По весу та же тенденция тяжелые женщины платят охотнее)
По возрасту — тоже аналогично. Женщин вообще около 12%, они не сильно влияют на общую картину.
Выложил дамп DataFrame для желающих поиграться самостоятельно.

2