Comments 6
Спасибо за статью.
Вопрос по поводу этапа «2. Аналитический подход» (кстати, я бы назвал его «Выбор аналитического подхода»): кто-нибудь встречал хоть какие-то материалы, структурно и (хоть насколько-то) полно описывающие типовые паттерны выбора подхода?
Вот это вот все:
Так вот, набор этих паттернов очевидно невелик, максимум несколько десятков вариантов, которые еще и можно сгруппировать. Даже, может быть, на верхнем уровне это небольшая Но это самые большие грабли, на которые наступает начинающий дата сайентист именно в части моделирования. И при этом этим паттернам вообще нигде не учат, хотя казалось бы.
Вопрос по поводу этапа «2. Аналитический подход» (кстати, я бы назвал его «Выбор аналитического подхода»): кто-нибудь встречал хоть какие-то материалы, структурно и (хоть насколько-то) полно описывающие типовые паттерны выбора подхода?
Вот это вот все:
Если нужен ответ в виде численного признака, то подойдут регрессионные модели. Деревья принятия решений могут иметь дело как с численными, так и с категориальными данными. Если вопрос в том, чтобы определить вероятности определенных исходов, необходимо использовать предиктивную модель.
Так вот, набор этих паттернов очевидно невелик, максимум несколько десятков вариантов, которые еще и можно сгруппировать. Даже, может быть, на верхнем уровне это небольшая Но это самые большие грабли, на которые наступает начинающий дата сайентист именно в части моделирования. И при этом этим паттернам вообще нигде не учат, хотя казалось бы.
0
Спасибо за комментарий! Что касается вопроса про паттерны выбора подхода, то в открытом доступе обзорных материалов по паттернам подхода я не нашла, меня тоже очень волнует эта тема, потому что это в общем-то ключевой момент. Кое-что о моделях есть в книгах, например: Data Science Наука о данных с нуля, автор Джоэл Грас, там несколько разделов посвящено описанию различных моделей. Но вот что касается именно техники принятия решений, какую модель брать, такого я пока не видела (могу предположить, что это ноу-хау, которым особо не принято делиться).
0
По поводу названия этапа 2: соглашусь, так было бы понятней. Я старалась поддержать стиль IBM в названиях этапов, может не везде удачно.
0
Спасибо за статью.
Можно узнать, почему модель выбирается на ранних этапах, еще до анализа данных? Мне кажется, что логичнее определить только тип модели (классификационная, регрессионная ...), а на 7 этапе выбирать по результатам кросс-валидаций между лесами, нейронками или ансамблями.
Можно узнать, почему модель выбирается на ранних этапах, еще до анализа данных? Мне кажется, что логичнее определить только тип модели (классификационная, регрессионная ...), а на 7 этапе выбирать по результатам кросс-валидаций между лесами, нейронками или ансамблями.
0
Интересный вопрос, спасибо. Думаю, вы совершенно правы. Насколько я понимаю, действительно на втором этапе выбирается только тип модели (возможно, вообще с точностью до дескриптивный/предиктивный) в зависимости от того, какой ответ требуется с точки зрения бизнес-задачи, потому что нужно же как-то подготовить требования к данным, а уж выбор конкретного алгоритма осуществляется на этапах 7-8 (построение и применение модели).
0
Могу сказать, что по паттернам дата-анализе, так же, чего-то определенного не накопал. Вот статья, которая, в существенной части, согласуется с моим опытом.
В основном опираюсь на опыт судебной экспертизы.
Поэтому советовал бы начинать с такой формулировки:
Этот подход, из цитаты, согласуется с принципами материалистической диалектики. Ключевую формулировку, которая одновременно существует и в этом определении и в материалистической диалектике выделил. Там, в материалистической диалектике, немного все сложнее, в схеме обоснования, такого отношения к использованием паттернов, в общей схеме познания. Ну мне помогает и в дата аналитике.
В основном опираюсь на опыт судебной экспертизы.
Поэтому советовал бы начинать с такой формулировки:
Па́ттерн (англ. pattern «образец, шаблон; форма, модель; схема, диаграмма») — схема-образ, действующая как посредствующее представление, или чувственное понятие, благодаря которому в режиме одновременности восприятия и мышления выявляются закономерности, как они существуют в природе и обществе.
Паттерн понимается в этом плане как повторяющийся шаблон или образец. Элементы паттерна повторяются предсказуемо. Так, из графических паттернов складываются красивые узоры.
Каждый из органов восприятия (чувств) воспринимает паттерны в соответствии со своими особенностями.
В науке, в том числе в математике и языкознании, паттерны выявляются путём исследования.
…
Когда научные теории исследуют и предсказывают синхронно существующие регулярности в природе и обществе, то это и есть выявление паттернов.
Этот подход, из цитаты, согласуется с принципами материалистической диалектики. Ключевую формулировку, которая одновременно существует и в этом определении и в материалистической диалектике выделил. Там, в материалистической диалектике, немного все сложнее, в схеме обоснования, такого отношения к использованием паттернов, в общей схеме познания. Ну мне помогает и в дата аналитике.
0
Sign up to leave a comment.
Структура Data Science-проекта с высоты птичьего полета