Data Engineering *

1. Таксономия форматов времени и дат в неочищенных данных, 2012 г.

Перевод

A survey of data quality tools (2005)

Достаточно часто каждый аналитик сталкивается с ситуацией, когда загрузил данные в блок анализа, а в ответ – тишина, хотя в тестовом режиме все работает. Причина обычно в том, что данные недостаточно очищены, где в этой ситуации искать аналитику засаду и с чего начинать обычно задачка не из легких. Можно конечно использовать механизмы сглаживания, но каждый знает, что если из черного ящика с красными и зелеными шарами отсыпать килограмм шаров и вместо них вбросить килограмм белых, то в понимании распределения красных и зеленых это мало приблизит.

Когда находишься в ситуации «а с чего начать» помогает таксономия «грязных данных». Хотя в учебниках и дают список проблем, но он обычно неполный, вот постоянно искал исследования, которые рассматривают эту тему подробней. Попалась работа T.Gschwandtner, J.Gartner, W.Aigner, S.Miksch хотя они ее делали для рассмотрения способов очистки данных связанных с датами и временем но, на мой взгляд, это оказалось исключение, которое потребовало разобраться с правилами поглубже чем в учебниках. По собственному опыту знаю, что сопряжение дат и времени «вынос мозга» практически в прямом смысле и поэтому и зацепился за исследование этих авторов.

В своей работе они проанализировали несколько работ других авторов и составили мощный список «загрязнений данных» логика их анализа заслуживает уважения и, с другой стороны, дает возможность более «со стороны» посмотреть на любую задачу очистки данных. Все это видно когда сопоставляешь всю совокупность работ, по которым они делают сравнительный анализ. Поэтому и сделал перевод самых используемых ими 5 статей, список с ссылками на эти переводы ниже.

Это шестая статья из цикла

2. Очистка данных: проблемы и современные подходы 2000 г.

4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.

5. Формульное определение проблем качества данных 2005 г.

6. Обзор инструментов качества данных 2005 г.

Sistemaalex 23 мар 2021 в 09:35

Формульное определение проблем качества данных

24 мин

3.8K

Data Engineering * Big Data * Data Mining *

Перевод

A Formal Definition of Data Quality Problems (2005)

Это пятая статья из цикла

1. Таксономия форматов времени и дат в неочищенных данных, 2012 г.

2. Очистка данных: проблемы и современные подходы 2000 г.

4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.

5. Формульное определение проблем качества данных 2005 г.

nologin 23 мар 2021 в 07:58

Process Mining на базе BI — реальные возможности для оптимизации бизнеса

16 мин

11K

Блог компании VisiologyData Mining * Data Engineering * Визуализация данных *

В каких ситуациях Process Mining может принести организации пользу? Мы уверены, что практически в любой! Я, Иван Лазаревский, руководитель отдела Data Science в Visiology, и коллеги из практики автоматизации процессов компании 7RedLines - Андрей Шкулёв и Владимир Басов, поделимся с вами нашим опытом в области Process Mining, а также реализации этого подхода на базе BI-платформы. Здесь вы найдёте: немного теории о Process Mining, соображения о разных подходах к аналитике, выкладки с преимуществами технологии для бизнеса и мини-гайд по выбору решения, подходящего для конкретной организации.

Sistemaalex 23 мар 2021 в 07:05

Проблемы, методы и вызовы комплексной очистки данных

42 мин

2.4K

1. Таксономия форматов времени и дат в неочищенных данных, 2012 г.

Перевод

Это четвертая статья из цикла

2. Очистка данных: проблемы и современные подходы 2000 г.

5. Формульное определение проблем качества данных 2005 г.

4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.

Sistemaalex 22 мар 2021 в 13:21

Таксономия «грязных данных»

35 мин

4.9K

4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.

Перевод

Это третья статья из цикла

1. Таксономия форматов времени и дат в неочищенных данных, 2012 г.

2. Очистка данных: проблемы и современные подходы 2000 г.

3. Таксономия «грязных данных» 2003 г.

5. Формульное определение проблем качества данных 2005 г.

zoldaten 22 мар 2021 в 13:10

Как обойти капчу Гугл

6 мин

40K

Data Engineering * Python * Машинное обучение *

Туториал

Ранее нам попадались относительно «простые» капчи:

В этот раз поработаем над чем-то более серьезным и давно знакомым:

Итак задача: обойти капчу, желательно с первого раза.

Читать дальше →

+14

alex_29 22 мар 2021 в 08:50

Как отлаживать код в RStudio и создавать новый проект на R

4 мин

7.7K

Блог компании Deutsche Telekom IT SolutionsR * Data Mining * Data Engineering * Big Data *

Туториал

Новогодним подарком в этом году стали для меня новая команда и проект на языке R, о котором в тот момент я знал немного. Поначалу было трудно и не понятно, но время шло, картинка прояснялась. С чем-то удалось разобраться, что-то пришлось принять как есть. И вот, спустя два с половиной месяца работы на R, я решил поделиться опытом и рассказать о своих первых шагах в этом проекте. Я не буду описывать все свои душевные муки и эмоции, которые переполняли меня в процессе освоения этого очень интересного языка, а сосредоточусь на технической стороне вопроса. Цель моей статьи рассказать о том, как отлаживать код в RStudio и создавать новый проект на R.

Читать дальше →

Sistemaalex 22 мар 2021 в 08:11

Очистка данных: проблемы и современные подходы

28 мин

14K

Data Engineering * Big Data * Data Mining *

Перевод

Data Cleaning: Problems and Current Approaches, 2000 г.

Это вторая статья из цикла

1. Таксономия форматов времени и дат в неочищенных данных, 2012 г.

2. Очистка данных: проблемы и современные подходы 2000 г.

4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.

5. Формульное определение проблем качества данных 2005 г.

Sistemaalex 22 мар 2021 в 06:09

Таксономия очистки данных форматов времени и дат

18 мин

3.6K

Перевод

Это первая статья из цикла.

1. Таксономия форматов времени и дат в неочищенных данных, 2012 г.

2. Очистка данных: проблемы и современные подходы 2000 г.

4. Проблемы, методы и вызовы комплексной очистки данных 2003 г.

5. Формульное определение проблем качества данных 2005 г.