Sistemaalex 21 фев 2020 в 15:43

Очистка данных, как игра «Камень, Ножницы, Бумага». Это игра с финишем или без? Часть 2. Практическая

5 мин

2.2K

Big Data*Data Engineering*Data Mining*Алгоритмы*Открытые данные*

Комментарии 3

ganqqwerty 22 фев 2020 в 09:36

Теоретическая оценка последствий очистки хороша, а вот практика разочаровала. Разве не выработалось в области очистки анкетных данных целой кучи интересных признаков для самых разных полей? Словари стоп-слов, словари валют, reconciliation по словарям тех же названий городов и улиц.
А инструментарий? Эксель — это лучшее, чем нас может порадовать сегодняшняя технология? Даже старенький хиленький OpenRefine сдюжит эту задачу за меньшее время, ведь там хоть какие-то есть алгоритмы для кластеризации по шумам и быстрые способы обнаружения выбросов в числах. Ну а эвристики и признаки, собираемые в течение десятилетий специально для анкетных данных, для всех этих «зарплат в месяц», «городов», «улиц», «пол респондента»? Хочется поглядеть на опубликованные notebook’и, позволяющие сделать результаты воспроизводимыми, хочется поглядеть на обученные нейронные сетки, хочется пару терабайт пар «грязные данные» — «чистые данные», на которых можно делать свои модели.
Неужели ничего этого нет, а мы умеем только сливать дубликаты с буквой «ё», устранять дублирующие пробелы, ходить по колонкам тупым k-means и мерить расстояние примитивным левенштейном?

Sistemaalex 22 фев 2020 в 14:17

Эксель — это лучшее, чем нас может порадовать сегодняшняя технология?

Что есть, то есть. 99,99% всех специалистов, что формируют такие источники информации, в России, делают это в экселе. Для них и материал, в основном. Показал и в экселе, за ограниченный период, можно делать более качественный продукт. Тем более, что этот продукт затрагивает имущественное положение миллионов граждан.

Неужели ничего этого нет, а мы умеем только сливать дубликаты с буквой «ё», устранять дублирующие пробелы, ходить по колонкам тупым k-means и мерить расстояние примитивным левенштейном?

Для тех, кто формирует такие БД, возможно и нет более продвинутых технологий. И на это есть реальные причины. Одна из них заключается в том, что правовая информация должна формироваться по прозрачным и легко формулируемым принципам. То есть выход, за пределы наивного байесовского подхода, в большинстве случаев просто невозможно обосновать.

ganqqwerty 22 фев 2020 в 17:03

Я тут просто недавно решил почистить немного данных из твиттеровского флешмоба #KnowYourWorth по зарплатам программистов, датасет размером буквально тысячи две записей. По старой памяти расчехлил Open Refine и догадался спросить друга, сведущего в DataScience, не появилось ли за последние лет семь чего-нить более интересного. Дык он мне целую вселенную открыл, оказывается, даже инструменты полуручного Data Cleansing типа Refine — давно уже какашки мамонта. Если у вас повторяющиеся исследования, то чистить методами статистического обучения получается просто в сотни раз выгоднее, ведь и очистку, и выбор метода очистки и его валидацию можно производить, почти не заглядывая в сами данные и будучи уверенным, что количество ошибок в конечном датасете не будет превышать определенной величины. Остатки можно ковырнуть тем же Refine.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий