Проект делался в свободное время, в качестве хобби.
Если пересчитать:
Парсинг + отладка + игра «успей за изменениями на источнике» — 5 недель
Веб морда — 3 недели
Анализ — 5 часов
Статья — 1 час
Парсеры python + urllib
База MySQL 5.6 недавно перешел на SSD
Пришлось немного повозиться чтобы научиться писать данные без избыточности
WEB — python + Django + bootstrap + highcharts
Memcached
Среднее время ответа сервера, судя по ньюрелик, 20-30мс. Учитывая что в кэше явно есть не всё, считаю это вполне достойным результатом)
Спасибо за комментарий. Данные на графиках выводятся после ресэмплинга, соответственно, если на графике точка в 18:00, это не значит, что именно в 18:00 была такая цена. Плюс к этому магазины скорее всего очень часто меняют цены в период чёрной пятницы.
Спасибо за фидбэк, попробую изучить подробнее что происходило.
Связки достаточно сделать один раз.
Тут работает свой алгоритм определения близости по цене и названию + парсинг агрегаторов. В общем есть куда развиваться.
Парсинг магазинов/аггрегаторов
100 000 имеется в виду уникальных товаров, а не пар товар-магазин.
Да, кстати, как поживает ваш аналогичный проект? Планируется какое-либо развитие?
Пока никак, с рекламы есть надежда окупить часть затрат на сервер.
В дальнейшем, была идея преобразовать это в сервис рекомендаций по ценообразованию. Отслеживаем цены конкурентов -> выставляем оптимальную цену на автомате.
Но это уже другая история, вопрос, дойдут ли руки.
Спасибо за идеи.
1. Вопрос где её взять, да, и интересно ли это производителю.
2. А является ли падение цены критерием успешности?
3. Интересно, но отсмотрев вручную около сотни графиков закономерностей не нашёл.
4. Спасибо, надо подумать как достать предложение о скидке. Бывает приходит рассылка: «Вот купон, он дает ссылку 10% на эти товары» и т.д.
5. Тоже думал. Доллар вырос в 2 раза. У многих товаров цена вообще не зависит от него. Хотя возможно она бы падала в случае неизменного курса.
Вообще я думал попробовать предсказать цену товара на основе прошлых цен + цен на товары в других категориях. Есть надежда что цены на стиралки, например, могут являться хорошими фичами для предсказания цен на холодильники. Пока не дошли руки.
Честно говоря не особо сравнивал с другими вариантами.
Как-то сразу начал использовать joblib после прочтения scikit-learn.org/stable/modules/model_persistence.html
Недавно попробовал pickle — в несколько раз дольше, объем также вырос в несколько раз.
Кстати, про joblib.dump: никто случайно не сталкивался с проблемой в ipython notebook?
Сохраняю tuple (X1,y1,X2,y2) с помощью joblib.dumb из одного ноутбука. Читаю из следующего — X1 и X2 пустые.
Без ipython notebook всё ОК.
Попробовал только что, принципиально разницы нет. По весу та же тенденция тяжелые женщины платят охотнее)
По возрасту — тоже аналогично. Женщин вообще около 12%, они не сильно влияют на общую картину.
Выложил дамп DataFrame для желающих поиграться самостоятельно.
Если пересчитать:
Парсинг + отладка + игра «успей за изменениями на источнике» — 5 недель
Веб морда — 3 недели
Анализ — 5 часов
Статья — 1 час
Могу ошибаться в 2-3 раза в любую сторону)
База MySQL 5.6 недавно перешел на SSD
Пришлось немного повозиться чтобы научиться писать данные без избыточности
WEB — python + Django + bootstrap + highcharts
Memcached
Среднее время ответа сервера, судя по ньюрелик, 20-30мс. Учитывая что в кэше явно есть не всё, считаю это вполне достойным результатом)
Спасибо за фидбэк, попробую изучить подробнее что происходило.
Бывает такое в названиях накрутят)
Тут работает свой алгоритм определения близости по цене и названию + парсинг агрегаторов. В общем есть куда развиваться.
100 000 имеется в виду уникальных товаров, а не пар товар-магазин.
Да, кстати, как поживает ваш аналогичный проект? Планируется какое-либо развитие?
Спасибо за пример.
В дальнейшем, была идея преобразовать это в сервис рекомендаций по ценообразованию. Отслеживаем цены конкурентов -> выставляем оптимальную цену на автомате.
Но это уже другая история, вопрос, дойдут ли руки.
1. Вопрос где её взять, да, и интересно ли это производителю.
2. А является ли падение цены критерием успешности?
3. Интересно, но отсмотрев вручную около сотни графиков закономерностей не нашёл.
4. Спасибо, надо подумать как достать предложение о скидке. Бывает приходит рассылка: «Вот купон, он дает ссылку 10% на эти товары» и т.д.
5. Тоже думал. Доллар вырос в 2 раза. У многих товаров цена вообще не зависит от него. Хотя возможно она бы падала в случае неизменного курса.
Вообще я думал попробовать предсказать цену товара на основе прошлых цен + цен на товары в других категориях. Есть надежда что цены на стиралки, например, могут являться хорошими фичами для предсказания цен на холодильники. Пока не дошли руки.
Как-то сразу начал использовать joblib после прочтения scikit-learn.org/stable/modules/model_persistence.html
Недавно попробовал pickle — в несколько раз дольше, объем также вырос в несколько раз.
Кстати, про joblib.dump: никто случайно не сталкивался с проблемой в ipython notebook?
Сохраняю tuple (X1,y1,X2,y2) с помощью joblib.dumb из одного ноутбука. Читаю из следующего — X1 и X2 пустые.
Без ipython notebook всё ОК.
По возрасту — тоже аналогично. Женщин вообще около 12%, они не сильно влияют на общую картину.
Выложил дамп DataFrame для желающих поиграться самостоятельно.