Pull to refresh

Comments 8

Поясните, пожалуйста, кто разобрался, почему данные ассоциируются со скотом, откармливаемым на пастбище? Или с самим пастбищем (основное значение слова pasture). Никак не могу найти недостающее звено в этой логической цепочке.

Предложу свое понимание:

'Wrangling' переводится как выпас, но на русском такая аналогия не совсем отражает смысл процесса в силу контента. Выпас в прериях это кочевое 'мясное' скотоводство - процесс когда ковбои не дают стаду разбредаться в разные стороны и заставляют его медленно двигаться по маршруту где траву ещё не съели, а так же ближе к местам забоя в конце сезона.Так же в процессе такого перегона стад идёт отбраковка слабых животных, помощь при отеле и т.д.

В старом свете коров пасут обычно наоборот (оседлое 'молочное' скотоводство) т.е. днём дают им разбрестись по лугу, а вечером собирают и гонят домой.

(Понятно что современное скотоводство от всего этого отличается)

По отношению к данным 'wrangling' это как раз больше похоже на процесс 'формирования и управления стадом', чем выпас коров на лугу.

Велик и могуч американский язык! Слов в нем мало, а смыслов много.

извините, а что такое "Выпас данных" по-нашему, по английски?

"Data Wrangling" , спасибо

На мой взгляд, «выпас данных» — это частный случай всего процесса подготовки данных. Интересно, что для подпроцессов придумываются этакие «sexy» термины, наподобие «функционального программирования», как однажды говорила Анджана Вакил.

И еще такой момент смутил: в начале говорится о том, чем отличается выпас от очистки, а потом очистка данных встраивается как часть выпаса.

На мой взгляд, не важно, как называется этот процесс — данные готовить нужно в любом случае, особенно, если потом они используются для статистичесеого анализа.

Ну, это просто личное мнение, не больше.

У нас всегда процесс строился на примерно такой схеме.
Но это касается динамических данных, а не статическийх дата сетов.
Для статики можно без циклов. В предложенном выше подходе нет "Измерять", т.е. нет оценки и критериев, что пробуем спасти, а что признаём безвозвратно испорченными данными.
После "Исправлять"нужно еще раз оценить насколько получилось исправить и отбросить то что не получилось исправить что бы не отравлять датасет плохими данными.
Дубли ... те кто занимается данными от этого слова покрываются испариной=)
Объединить данные признанные дублем - тоже отдельное кунгфу.

"Обогащать" есть, но это не только внешние данные, но и алгоритмические обогащения. Когда по ФИО определяем пол без внешних данных.
"Актуализация" это тоже в большинстве случаев про внешние данные.

Про термин.
Забавно Data quality трансформировали. Где там бритва Оккама ? ;)

Sign up to leave a comment.