Комментарии 11
Статья — не история успеха, скорее история проб и ошибок; и прежде всего хотелось рассказать об опыте и организации работы.
Так или иначе, пока нет оснований полагать, что не получится.
Так или иначе, пока нет оснований полагать, что не получится.
Пока вы не попробуете на живых данных, у вас нет основания полагать, что получится. Ошибка может быть где угодно — неверные данные, подглядывание в будущее (например, ошибка с приведением данных к одному часовому поясу), загрязненные OOS данные (принятие решений на основе OOS) и т.д.
Мы думали об этом, да, хороший вопрос. Выходило, однако, что в результате A/B-теста в одном и том же регионе пришлось бы делить и так не очень большое количество магазинов пополам, и результаты не были бы так репрезентативны.
С другой стороны, результаты можно собрать, сравнивая регионы, или текущие результаты с результатами продаж прошлого года (с учетом внешнеэкономических факторов и естественного роста компании, разумеется).
Кроссфит и ставки на спорт не стоят потраченного времени
Почему?
Спасибо за интересные ссылочки!
а вы модель на форвардных тестах (тесты на исторических данных вне обучающей [обычно более поздний интервал] или оптимизирующей выборки) погоняли, метко попадает?
А не подскажете, на "бесплатные" $300 в Google Cloud доступен весь функционал, или есть какие-то ограничения?
И еще более животрепещущий вопрос, вот, допустим, вы переехали на Google Cloud, вы свою систему под тамошнюю инфраструктуру оптимизировали, перекопилили, профилировали (и есть вообще такая возможность), или оставили как есть?
Прогоняли, да, именно так мы нашу кросс-валидацию и построили. Мы планируем о результатах поведать вам отдельно.
Насчет ограничений Google Cloud: вы можете иметь не более 8 ядер (или виртуальных процессоров) одновременно на запущенных машинах. Например, вы можете запустить 8 экземпляров машин типа n1-standard-1
, или 2 экземпляра n1-standard-4
, но не сможете запустить машину типа n1-standard-16
.
К тому же, некоторые действия запрещены на протяжении пробного периода, например, майнинг криптовалют :). Дополнительные ограничения смотрите в соглашении об "Условиях использования пробной версии" и "Условиях использования Google Cloud Platform".
Инфраструктуру не оптимизировали и не меняли: просто запустили более обширные grid-search'и параметров. Смотрели на то, какие библиотечки лучше параллелятся (XGBoost прям выигрывает у LightGBM, например).
Было бы интересно почитать и о результатах работы.
Surf Studio: машинное обучение в production