Комментарии 8
Поясните, пожалуйста, кто разобрался, почему данные ассоциируются со скотом, откармливаемым на пастбище? Или с самим пастбищем (основное значение слова pasture). Никак не могу найти недостающее звено в этой логической цепочке.
Предложу свое понимание:
'Wrangling' переводится как выпас, но на русском такая аналогия не совсем отражает смысл процесса в силу контента. Выпас в прериях это кочевое 'мясное' скотоводство - процесс когда ковбои не дают стаду разбредаться в разные стороны и заставляют его медленно двигаться по маршруту где траву ещё не съели, а так же ближе к местам забоя в конце сезона.Так же в процессе такого перегона стад идёт отбраковка слабых животных, помощь при отеле и т.д.
В старом свете коров пасут обычно наоборот (оседлое 'молочное' скотоводство) т.е. днём дают им разбрестись по лугу, а вечером собирают и гонят домой.
(Понятно что современное скотоводство от всего этого отличается)
По отношению к данным 'wrangling' это как раз больше похоже на процесс 'формирования и управления стадом', чем выпас коров на лугу.
Велик и могуч американский язык! Слов в нем мало, а смыслов много.
извините, а что такое "Выпас данных" по-нашему, по английски?
На мой взгляд, «выпас данных» — это частный случай всего процесса подготовки данных. Интересно, что для подпроцессов придумываются этакие «sexy» термины, наподобие «функционального программирования», как однажды говорила Анджана Вакил.
И еще такой момент смутил: в начале говорится о том, чем отличается выпас от очистки, а потом очистка данных встраивается как часть выпаса.
На мой взгляд, не важно, как называется этот процесс — данные готовить нужно в любом случае, особенно, если потом они используются для статистичесеого анализа.
Ну, это просто личное мнение, не больше.
У нас всегда процесс строился на примерно такой схеме.
Но это касается динамических данных, а не статическийх дата сетов.
Для статики можно без циклов. В предложенном выше подходе нет "Измерять", т.е. нет оценки и критериев, что пробуем спасти, а что признаём безвозвратно испорченными данными.
После "Исправлять"нужно еще раз оценить насколько получилось исправить и отбросить то что не получилось исправить что бы не отравлять датасет плохими данными.
Дубли ... те кто занимается данными от этого слова покрываются испариной=)
Объединить данные признанные дублем - тоже отдельное кунгфу.
"Обогащать" есть, но это не только внешние данные, но и алгоритмические обогащения. Когда по ФИО определяем пол без внешних данных.
"Актуализация" это тоже в большинстве случаев про внешние данные.
Про термин.
Забавно Data quality трансформировали. Где там бритва Оккама ? ;)
Что такое выпас данных и почему он необходим?