Как мы составили Словарь больших данных для тех, кто не в теме бигдаты / Хабр

Я Павел Свиридонов, гуманитарий, который вместо известной сети быстрого питания попал в IT-компанию. У меня нет технического образования, и я всё ещё не до конца понимаю, как работает интернет. Но как выяснилось, не только я хлопаю ресницами и пытаюсь улететь с совещаний, где речь заходит про…

Впрочем, вот краткая предыстория. Однажды мой приятель — проджект в одной компании и бывший учитель английского, пожаловался: «На созвонах, где речь про бигдату заходит, я ничего не понимаю!» И это прям эхом отозвалось в моей душе: увы, но у меня с пониманием больших данных дела обстояли не лучше. Да что там: признаюсь, когда наши дата-инженеры начинали говорить, мне казалось, что беседа вдруг перешла на эльфийский.

Обидно!

И вот, отчасти чтобы помочь другим гуманитариям, отчасти чтобы разобраться в теме самому, я задумал маленькую контентную революцию: составить Словарь больших данных! Но такой, чтобы собранные в нём основные термины по бигдате, объяснялись просто, на бытовых примерах, понятных любому человеку, независимо от образования и профессии.

На что стоит обратить внимание для погружение в тему больших данных? Какие термины предстоит изучить? И насколько глубоко нужно копнуть, чтобы понять, как работают платформы по обработке и анализу бигдаты?

Об этом и о том, в каких муках рождался обозначенный выше Словарь, и написана эта статья.

Вниз по кроличьей норе

После того, как я с коллегами составил список основных и самых важных терминов, пришло время наполнять Словарь контентом. Я не рассчитывал, конечно, что работа над этим материалом будет легкой прогулкой, но после прочтения первого же абзаца в Википедии почувствовал себя героем известного мема. ??

Структурированные и неструктурированные данные, формула 3V, горизонтально масштабируемые программные инструменты — новая информация погрузила меня в бесконечную матрицу, где за большим массивом знаний шел следующий…

Словом, оказалось, что нужно было начать с понимания того, что вообще такое «большие данные». До этого казалось, что это некий “эфир”, незримая субстанция, витающая в воздухе и наполненная знаниями. На деле они обладали определенными признаками, а их описание было похоже на формулировку физического закона. Например, они характеризуются скоростью обновления, объёмом, достоверностью, тем, что эти данные можно визуализировать, или изменчивостью, т.е возможностью менять своё значение в зависимости от контекста.

Но… это были ещё цветочки; ягодки появились, когда дело дошло до терминов, которые описывают работу платформы Big data. Так в мою жизнь вошли знания о реляционных базах данных, наборах данных как способе хранить информацию и SQL — языке программирования, с помощью которого можно управлять данными в таких базах.

Всё чудесатее и чудесатее

Три дня я изучал все доступные достоверные источники. От новых знаний мозг мой опух, но список терминов наполнился-таки определениями. Пришла пора проверить мои наработки с экспертом. Им выступил наш руководитель отдела систем обработки данных Иван Хозяинов.

Первое, что я сказал ему, было:

— Ваня, мой мозг уже напоминает плавленный сырок. Я ничего не понимаю! Вот, казалось бы, данные — они и есть данные. Но оказывается, у них есть ещё и скорость, и достоверность, и ещё какие-то признаки. И вообще, почему «большие данные»? Что, есть и маленькие???

Ответ Ивана меня окончательно… удивил:

— Вообще, да, данные бывают маленькими. Когда они поступают небольшими объемами и очень редко, и это какая-то скудная информация, которую никак нельзя применить. Например, показатель температуры, который приходит к нам раз в год и состоит из пары замеров, и даже непонятно, где эти измерения были сделаны.

Мы пришли к выводу, что проще всего объяснить суть больших данных на примере круговорота воды в природе.

Например, объём. Вода может собраться и в лужу, и в океан. Так же и данные — из источника их может поступать очень много, а может и совсем по чуть-чуть. Воду в природе можно увидеть в разных состояниях: в виде пара или льда. Данные тоже бывают в разных состояниях — их нужно распаковать, расшифровать или собрать, чтобы работать с ними. Они, как и вода, могут течь с разной интенсивностью — быстро и бурно, как горная река, или тоненькой струйкой, словно ручей. Чтобы добыть пользу из данных, их необходимо обработать специальными инструментами — почти как с водой, которую нужно прокипятить и отфильтровать, чтобы пить, или закинуть в неё сети или удочку, чтобы поймать рыбу.

Не бойся Бармаглота, сын!

С Иваном мы прошли весь список терминов, который к тому моменту состоял из пары десятков позиций, и добавили примеры. Но Словарь должен был получить ещё одобрение главного по пиару в ITSumma — Глеба Русина. И тут вышла заминка — примерно как в том меме про «Всё фигня, переделывай». Старший товарищ сказал, что мы сильно перемудрили: определения были сложными, а примеры ничего толком не объясняли. Большая часть Словаря попросту не выполняла свою функцию и была непонятной.

И я пошёл переделывать.

Убирал заумные определения, а примеры постарался привести бытовые.

Вот как мы описали ETL/ELT-процессы с помощью того, что происходит в обычном магазине у дома.

Если бы такие процессы проходили в супермаркете “Надопакет”, они выглядели бы так. Извлечение данных — extract — буква E в ETL, аналогично тому, когда грузчик достает товары из кузова грузовика и несет их на склад. При этом в магазин поступили самые разные продукты — от газет и журналов до яиц и молока.

Все товары, как и данные, проходят обработку и преобразование. Это буква T (transform) в ETL. В случае супермаркета завскладом проверяет срок годности, состояние упаковки и заносит их в систему товарооборота. Данные же оценивают на качество, т.е. соответствие определенным критериям, отмечают, что это за данные, и для чего они могут понадобиться.

После этого товары попадают на соответствующие полки в торговом зале. Как бы “загружаются” в магазин. Что соответствует букве L — load, загрузка/запись данных в хранилище для дальнейшего использования.

Это лишь один удачный пример, который нам удалось придумать. Возможно, он не самый точный, но зато понятно описывает сложные процессы, происходящие на платформе по обработке и анализу данных.

И ещё пара моих любимых примеров из Словаря.

Что такое потоковая и пакетная обработка данных, мы объясняем через грязную посуду:

Если вы целый день копите грязную посуду в раковине, складываете туда тарелки, кружки и кастрюли и моете только вечером — это пакетная обработка посуды.

А если вы моете посуду сразу, как поели — это потоковая обработка посуды.

Кое-что про брокер сообщений на платформе по анализу и обработке данных:

Представьте себе логиста, который принимает грузы и направляет их туда, куда нужно. Он беглым взглядом распознает, что за посылка перед ним, сверяется со списками адресов, пишет на ней пункт назначения и отправляет груз. Примерно такую же функцию выполняет на платформе брокер сообщений.

К чему это всё?

К тому, что большие данные и всё, что с ними связано, — это не так уж и страшно. Да, на первый взгляд кажется, что это дремучий лес, в котором живут одни лишь датасатанисты (извините, коллеги). Но стоит погрузиться в тему, и становится понятно — big data везде и во всем. В каком-то смысле она — это весь мир, что нас окружает, всё, что мы видим и ощущаем.

Забавно, что после работы над Словарем я вижу данные везде. Так и хочется всё оцифровать, посмотреть на результат, покопаться в нем и вытащить оттуда каких-нибудь полезных инсайтов…

Конечно, для меня как гуманитария и прирожденного зазывалы на свободную кассу, это был некий челлендж. И тут больше спасибо коллегам за то, что нам удалось с помощью креативной жилки превратить научные определения в понятные термины. Надеюсь, наш Словарь и для вас будет полезен!

Как мы составили Словарь больших данных для тех, кто не в теме бигдаты

Вниз по кроличьей норе

Всё чудесатее и чудесатее

Не бойся Бармаглота, сын!

К чему это всё?

Публикации

Информация