Search
Write a publication
Pull to refresh
39
0
Сергей @ssh1

Data Scientist

Send message
Проект делался в свободное время, в качестве хобби.
Если пересчитать:
Парсинг + отладка + игра «успей за изменениями на источнике» — 5 недель
Веб морда — 3 недели
Анализ — 5 часов
Статья — 1 час

Могу ошибаться в 2-3 раза в любую сторону)
Спасибо. Какие даты вы имеете в виду? Снизу вроде есть даты?
Парсеры python + urllib
База MySQL 5.6 недавно перешел на SSD
Пришлось немного повозиться чтобы научиться писать данные без избыточности
WEB — python + Django + bootstrap + highcharts
Memcached
Среднее время ответа сервера, судя по ньюрелик, 20-30мс. Учитывая что в кэше явно есть не всё, считаю это вполне достойным результатом)

Как вариант. Спасибо, посмотрю подробнее.
Спасибо за комментарий. Данные на графиках выводятся после ресэмплинга, соответственно, если на графике точка в 18:00, это не значит, что именно в 18:00 была такая цена. Плюс к этому магазины скорее всего очень часто меняют цены в период чёрной пятницы.
Спасибо за фидбэк, попробую изучить подробнее что происходило.
Скажем так: часть там, часть там.
Бывает такое в названиях накрутят)
Связки достаточно сделать один раз.
Тут работает свой алгоритм определения близости по цене и названию + парсинг агрегаторов. В общем есть куда развиваться.
Парсинг магазинов/аггрегаторов
100 000 имеется в виду уникальных товаров, а не пар товар-магазин.
Да, кстати, как поживает ваш аналогичный проект? Планируется какое-либо развитие?
Да, это косяки при сборе данных. Лучше обрабатывать при сборе, а не на выводе.
Спасибо за пример.
Пока никак, с рекламы есть надежда окупить часть затрат на сервер.
В дальнейшем, была идея преобразовать это в сервис рекомендаций по ценообразованию. Отслеживаем цены конкурентов -> выставляем оптимальную цену на автомате.
Но это уже другая история, вопрос, дойдут ли руки.
Спасибо. Скорее всего действительно добавим.
Согласен, поиск не очень хорош. Думаю прикрутить sphinx как дойдут руки.
Спасибо за идеи.
1. Вопрос где её взять, да, и интересно ли это производителю.
2. А является ли падение цены критерием успешности?
3. Интересно, но отсмотрев вручную около сотни графиков закономерностей не нашёл.
4. Спасибо, надо подумать как достать предложение о скидке. Бывает приходит рассылка: «Вот купон, он дает ссылку 10% на эти товары» и т.д.
5. Тоже думал. Доллар вырос в 2 раза. У многих товаров цена вообще не зависит от него. Хотя возможно она бы падала в случае неизменного курса.

Вообще я думал попробовать предсказать цену товара на основе прошлых цен + цен на товары в других категориях. Есть надежда что цены на стиралки, например, могут являться хорошими фичами для предсказания цен на холодильники. Пока не дошли руки.
Спасибо. Да, долго, нудно, но в одни )
Да, это первый вариант. Я думаю соберу фидбэк и что-то доработаю.
А можете подробнее как сейчас это работает?
Был ли прирост качества если добавить эти «угаданные» 15000 объектов к обучающей выборке?
Честно говоря не особо сравнивал с другими вариантами.
Как-то сразу начал использовать joblib после прочтения scikit-learn.org/stable/modules/model_persistence.html
Недавно попробовал pickle — в несколько раз дольше, объем также вырос в несколько раз.
Кстати, про joblib.dump: никто случайно не сталкивался с проблемой в ipython notebook?
Сохраняю tuple (X1,y1,X2,y2) с помощью joblib.dumb из одного ноутбука. Читаю из следующего — X1 и X2 пустые.
Без ipython notebook всё ОК.
Нет, не пробовал. А по каким критериям предлагаете их исключать?
Попробовал только что, принципиально разницы нет. По весу та же тенденция тяжелые женщины платят охотнее)
По возрасту — тоже аналогично. Женщин вообще около 12%, они не сильно влияют на общую картину.
Выложил дамп DataFrame для желающих поиграться самостоятельно.

Information

Rating
Does not participate
Registered
Activity