Комментарии 8
Дата-майнинг — это не про очистку данных. Про очистку — это data cleansing, data wrangling, до определенной степени data curation.
+4
Дается хорошая вводная, но боюсь что не будет продолжения…
+2
Очень неоднозначная статья.
Особенно если принять во внимание содержание первого абзаца как цель.
Очень много фактологических некорректностей.
Про то, что дэйта майнинг — это не очистка данных, написали в первом же комментарии.
И так далее.
Например, про машинное обучение совсем не то написано.
Его не применяют для сбора и оно не для получения представлений из массива (за редким исключением).
Та же самая регрессия — где там представление? Там ищутся переменные отклика, которых не будет в исходном массиве.
Сыровата статья…
Особенно если принять во внимание содержание первого абзаца как цель.
Очень много фактологических некорректностей.
Про то, что дэйта майнинг — это не очистка данных, написали в первом же комментарии.
И так далее.
Например, про машинное обучение совсем не то написано.
Его не применяют для сбора и оно не для получения представлений из массива (за редким исключением).
Та же самая регрессия — где там представление? Там ищутся переменные отклика, которых не будет в исходном массиве.
Сыровата статья…
+4
Присоединяюсь к недоумению комментаторов выше. С какой целью даны эти, мягко говоря, не совсем верные дефиниции известным вещам? Ведь уже давно есть общепринятые определения дата майнинга как процесса извлечения знаний из данных (Пятецкий-Шапиро), машинного обучения как класса алгоритмов, обучающихся предсказывать неизвестные данные на основе известных, и т.д. Статья только вносит ненужную путаницу в понятные вещи ;(
0
«Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты.»
Выкинуть 90% — и работать будет легко! ;-)
Чем меньше данных, тем сложнее с ними работать. Та математика, что работает с маленькими данными тем более будет работать с большими, при наличии вычислительных ресурсов (а это вопрос только денег).
Сложность и интересность больших данных в том, что они позволяют наблюдать очень тонкие эффекты, которые нельзя наблюдать на маленьких выборках и для которых соответственно нужны товые методы.
Выкинуть 90% — и работать будет легко! ;-)
Чем меньше данных, тем сложнее с ними работать. Та математика, что работает с маленькими данными тем более будет работать с большими, при наличии вычислительных ресурсов (а это вопрос только денег).
Сложность и интересность больших данных в том, что они позволяют наблюдать очень тонкие эффекты, которые нельзя наблюдать на маленьких выборках и для которых соответственно нужны товые методы.
0
Интересно, на кого рассчитана эта статья? Просто набор ссылок на эти термины в википедии был бы информативнее, как мне кажется. Или главная цель поста — раздуть спор?
-1
Судя по данной и другим статьям из этого блога, у них просто есть кто-то, кто любит рисовать картинки.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
В чем разница между наукой о данных, анализом данных, большими данными, аналитикой, дата майнингом и машинным обучением