Как стать автором
Обновить

Комментарии 6

Спасибо за статью.

Вопрос по поводу этапа «2. Аналитический подход» (кстати, я бы назвал его «Выбор аналитического подхода»): кто-нибудь встречал хоть какие-то материалы, структурно и (хоть насколько-то) полно описывающие типовые паттерны выбора подхода?

Вот это вот все:
Если нужен ответ в виде численного признака, то подойдут регрессионные модели. Деревья принятия решений могут иметь дело как с численными, так и с категориальными данными. Если вопрос в том, чтобы определить вероятности определенных исходов, необходимо использовать предиктивную модель.


Так вот, набор этих паттернов очевидно невелик, максимум несколько десятков вариантов, которые еще и можно сгруппировать. Даже, может быть, на верхнем уровне это небольшая Но это самые большие грабли, на которые наступает начинающий дата сайентист именно в части моделирования. И при этом этим паттернам вообще нигде не учат, хотя казалось бы.
Спасибо за комментарий! Что касается вопроса про паттерны выбора подхода, то в открытом доступе обзорных материалов по паттернам подхода я не нашла, меня тоже очень волнует эта тема, потому что это в общем-то ключевой момент. Кое-что о моделях есть в книгах, например: Data Science Наука о данных с нуля, автор Джоэл Грас, там несколько разделов посвящено описанию различных моделей. Но вот что касается именно техники принятия решений, какую модель брать, такого я пока не видела (могу предположить, что это ноу-хау, которым особо не принято делиться).
По поводу названия этапа 2: соглашусь, так было бы понятней. Я старалась поддержать стиль IBM в названиях этапов, может не везде удачно.
Спасибо за статью.
Можно узнать, почему модель выбирается на ранних этапах, еще до анализа данных? Мне кажется, что логичнее определить только тип модели (классификационная, регрессионная ...), а на 7 этапе выбирать по результатам кросс-валидаций между лесами, нейронками или ансамблями.
Интересный вопрос, спасибо. Думаю, вы совершенно правы. Насколько я понимаю, действительно на втором этапе выбирается только тип модели (возможно, вообще с точностью до дескриптивный/предиктивный) в зависимости от того, какой ответ требуется с точки зрения бизнес-задачи, потому что нужно же как-то подготовить требования к данным, а уж выбор конкретного алгоритма осуществляется на этапах 7-8 (построение и применение модели).
Могу сказать, что по паттернам дата-анализе, так же, чего-то определенного не накопал. Вот статья, которая, в существенной части, согласуется с моим опытом.
В основном опираюсь на опыт судебной экспертизы.
Поэтому советовал бы начинать с такой формулировки:
Па́ттерн (англ. pattern «образец, шаблон; форма, модель; схема, диаграмма») — схема-образ, действующая как посредствующее представление, или чувственное понятие, благодаря которому в режиме одновременности восприятия и мышления выявляются закономерности, как они существуют в природе и обществе.
Паттерн понимается в этом плане как повторяющийся шаблон или образец. Элементы паттерна повторяются предсказуемо. Так, из графических паттернов складываются красивые узоры.
Каждый из органов восприятия (чувств) воспринимает паттерны в соответствии со своими особенностями.
В науке, в том числе в математике и языкознании, паттерны выявляются путём исследования.

Когда научные теории исследуют и предсказывают синхронно существующие регулярности в природе и обществе, то это и есть выявление паттернов.

Этот подход, из цитаты, согласуется с принципами материалистической диалектики. Ключевую формулировку, которая одновременно существует и в этом определении и в материалистической диалектике выделил. Там, в материалистической диалектике, немного все сложнее, в схеме обоснования, такого отношения к использованием паттернов, в общей схеме познания. Ну мне помогает и в дата аналитике.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории