Pull to refresh
14
0
Александра Царева @atsareva

data scientist в «Инфосистемы Джет»

Send message

Возможно, академически правильнее было бы написать «из социологов — в специалисты машинного обучения», чтобы подчеркнуть, какие дополнительные инструменты потребовалось освоить :-) С духовной точки зрения определенно социология будет частью науки о данных; с практической — как правило, от социолога не ожидают работы с математическим моделированием изучаемого процесса. Статистическое изучение закономерностей и взаимосвязей в данных есть в любом дата-сайнс проекте, конечно же, но он на этом не остановится.
Плюс дата-сайнтисты работают и со специфическими данными, например, изображениями и текстами, которые социология чаще оставляет специалистам по качественным методам (тоже нейросеть определенного рода :). Весь этот кусок обработки данных стал для меня совершенно новым для изучения.

определённые категории населения статистически чаще совершают такие или такие правонарушения

В целом всё так, но, скажем, для исправления ситуации с повторяющимися преступлениями — важно найти истинные причины (помня о том, что в статистике корреляция не означает причинность). В противном случае мы можем оказаться в ситуации, когда ИИ проанализировал поведение людей с диагностированным раком легких и посоветовал выбросить зажигалки, потому что наличие зажигалки в вещах пациента коррелирует в большим риском такого диагноза — а на деле человек, изучавший датасет, должен был сказать «постойте, но там может быть третий фактор!»
Для судебной системы, например, может быть ценно через анализ значимости признаков понять, почему одни совершают снова преступление, а другие точно такие же по своим характеристикам — нет (и на этот признак воздействовать или ввести дополнительные факторы, с ним связанные, в модель). Но в поведении людей столько влияния латентных переменных, что процесс может быть очень-очень длительным.

Я совсем не филолог или писатель-профи, так что выбираю скорее так, как мне кажется более логичным, это скорее моя вкусовщина :) Но «кейс» очень укоренился к русском в значении «конкретная ситуация».

При этом травматизм её пассажиров исключается, поскольку ПДД так устроены, что при их всеобщем соблюдении аварии невозможны, в правилах нет такой лазейки.

К сожалению, пешеходы и велосипедисты очень часто не соблюдают ПДД — и однозначно рассуждения на эту тему будут другими для ситуации, где и не-автомобиль всегда будет строго соблюдать ПДД. Плюс внедрение автопилотов явно не будет одномоментным и долгое время на одной дороге будут соседствовать несовершенные люди и строго соблюдающие ПДД машины под управлением автопилота.


Затормозить до полной остановки в случае внезапного появления пешехода перед машиной (например, перелезшего через заграждения магистрали человека, ребенка, который скатился с горки у оживленного шоссе) нередко невозможно просто по законам физики, повсеместное внедрение автопилотов тут не поможет, увы.


Ну и пункт 10.1 ПДД (который коротко можно пересказать как «правильно скорость выбирайте, а не правильно — не выбирайте») скорее сформулирован за всё хорошее и против всего плохого :) Он совершенно не поддается переносу в алгоритм, а набор обучающего набора данных с разными погодными условиями, разным освещением, разными типами дорожного покрытия и т.п. потребует очень большого времени. Возьмем, к примеру, выход лосей на трассу — разумной для автомобиля скорости, при которой удастся избежать столкновения в 100% случаев, просто не существует (да, существуют техники, позволяющие избежать столкновения, но для всех из них требуется обнаружение лося за некоторое время до, что не всегда возможно — они крайне любят выходить прямо под колеса). Должен ли автопилот в период миграции лосей всегда выбирать скорость пешехода как гарантирующую мгновенную остановку? Будет ли смысл в таком автомобиле? :) Можно было бы предположить, что в идеальном мире будущего все трассы перехода лосей через дорогу будут закрыты заборами, как сейчас делается на магистралях, — но скорее всего найдется какое-то более простое решение, чем огородить вообще все дороги.

Гарантий, наверно, никогда нет. Кроме случая «если у вас нет собаки, ее не отравит сосед» — нет бюджета, нет риска потратить его зря :)
Решения из коробки тут кажутся более стабильным и предсказуемым компонентом — понятно, какой счет выставят за какой срок, решение из коробки не решит перейти к другому работодателю, потому что жизнь поменялась или задача там интереснее, и т.п.
Спасибо, что поделились своим опытом! Цена очень важна, не знаю, как бы мы работали без нее. Думаю, что учет витринных цен тоже добавил бы нам точности. Про перекрестный спрос подумали, но исключили из пилота ради того самого оптимального соотношения результата к затраченным усилиям, а так тема очень перспективная.

Вокруг Нового года, к сожалению, в наборе часто остается после чистки мало данных, т.к. часто оказывалось, что товар на складе кончился и мы никак не можем восстановить реальный спрос. Плюс в новогодние праздники в разные года магазин, если я правильно помню, работал по-разному, что может быть внешним фактором для смещения спроса до и после — и тоже может быть дополнительной фичей.
С большим удовольствием почитаю про ограничения регрессора случайного леса в таких случаях, если вас не затруднит сослаться на материалы по теме! Пока известные мне материалы в основном касались ошибок при генерации фичей и предупреждали про опасность попадания части целевой переменной, которая находится выше по восходящему тренду и не имеет аналогов в тренировочном наборе, в тестовый сет.
По нашему опыту, для некоторых проектов после преобразования данных из time like в feature like случайный лес дает такие же или лучше результаты (вот просто для примера работа, где Random Forest сравнивается с ARIMA в прогнозировании вспышек гриппа). Про то, как лучше учитывать специфику временного ряда при генерации фич, написано тоже немало. Например, для модели из статьи учитывать возрастающий тренд оборота магазина помогают общие фичи продаж.
Спасибо за комментарии!
1. У нас пилотным исследованием (пилотом) обычно называется именно исследование, до внедрения, о нем эта история. А дальнейшие действия заказчика комментировать не можем.
2. Мы моделировали ежедневный прогноз (на один конкретный день — послезавтра) для одного товара (конкретный SKU, не группа).
3. Да, у нас были некоторые из перечисленных вами фичей для RandomForest плюс некоторые другие (вроде изменения цены товара относительно этих периодов). Думаю, что можно наинженерить еще и подобрать оптимум, но в данном случае для нас было важно показать принципиальную возможность улучшения первых результатов.
4. Флаг дня недели — это «день недели для продаж» (в смысле, что день, когда будут происходить продажи, а не когда мы строим прогноз), он пятая по важности фича для RandomForest.
5. У нас было в числе фичей некоторое число других праздников как флагов и как дней, оставшихся до них (например, Пасха и Новый год), они тоже оказывали влияние для отдельных товаров, хотя и не вошли в топ-5. Скорее всего, это все же шум какой-то природы, но для того, чтобы установить это точно, — стоит еще поисследовать возможные фичи. Например, я бы проверила, нет ли такого, что от мая к концу лета мясо просто покупают больше/меньше благодаря выездам на шашлыки, а Курбан-байрам к концу лета близок.

К сожалению, по разнообразию прогнозируемых SKU мы были ограничены как по постановке задачи и времени, так набором данных.
Я не думаю, что там есть утечка. В рамках имитации обучения «на послезавтра» условное «будущее» модели не показывалось. Плюс исключение фичи «продажи в день прогноза» делает прогноз более точным на некоторых временных промежутках (но на некоторых нет). В основном она помогает в периоды, когда активно применяются маркетинговые акции: заметное увеличение проданного сегодня может указывать на сместившийся спрос с послезавтра.

Тренд на общее возрастание числа продаж мы постарались учесть при генерации фич для RandomForest'а, добавив туда в том числе общие продажи по товару за предыдущие периоды от дня прогноза.
Система, для которой мы сделали пилотное исследование, как раз должна так прогнозировать спрос, чтобы товары были на складе всегда в оптимальном количестве.
Как и что устроено в системе заказа у магазина сейчас, к сожалению, никак не могу прокомментировать.

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Works in
Date of birth
Registered
Activity