Pull to refresh

Comments 8

Дата-майнинг — это не про очистку данных. Про очистку — это data cleansing, data wrangling, до определенной степени data curation.
а очистку делают data cleaners?))
Дается хорошая вводная, но боюсь что не будет продолжения…
Очень неоднозначная статья.
Особенно если принять во внимание содержание первого абзаца как цель.
Очень много фактологических некорректностей.

Про то, что дэйта майнинг — это не очистка данных, написали в первом же комментарии.
И так далее.
Например, про машинное обучение совсем не то написано.
Его не применяют для сбора и оно не для получения представлений из массива (за редким исключением).
Та же самая регрессия — где там представление? Там ищутся переменные отклика, которых не будет в исходном массиве.

Сыровата статья…
Присоединяюсь к недоумению комментаторов выше. С какой целью даны эти, мягко говоря, не совсем верные дефиниции известным вещам? Ведь уже давно есть общепринятые определения дата майнинга как процесса извлечения знаний из данных (Пятецкий-Шапиро), машинного обучения как класса алгоритмов, обучающихся предсказывать неизвестные данные на основе известных, и т.д. Статья только вносит ненужную путаницу в понятные вещи ;(
«Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты.»
Выкинуть 90% — и работать будет легко! ;-)
Чем меньше данных, тем сложнее с ними работать. Та математика, что работает с маленькими данными тем более будет работать с большими, при наличии вычислительных ресурсов (а это вопрос только денег).
Сложность и интересность больших данных в том, что они позволяют наблюдать очень тонкие эффекты, которые нельзя наблюдать на маленьких выборках и для которых соответственно нужны товые методы.
Интересно, на кого рассчитана эта статья? Просто набор ссылок на эти термины в википедии был бы информативнее, как мне кажется. Или главная цель поста — раздуть спор?
Судя по данной и другим статьям из этого блога, у них просто есть кто-то, кто любит рисовать картинки.
Sign up to leave a comment.