Как стать автором
Обновить

Меч из озера: итоги сезона больших данных

Время на прочтение9 мин
Количество просмотров12K

…Из Data Lake вынырнула прекрасная дева и протянула Артуру меч, и на том мече рунической вязью было начертано «Big Data». «Пусть он служит тебе верой и правдой, пронзая тьму незнания и проливая свет на самые неочевидные закономерности», — торжественно произнесла Владычица Озера. Король Артур преклонил колени и принял меч из рук девы. Затем оседлал коня и направился в сторону ближайшего дата-центра.

Сезон больших данных на Хабре подошёл к концу. Сегодня мы поговорим о том, какими знаниями вооружили нас авторы сезона, раздадим ценные артефакты, а заодно — побеседуем о перспективах больших данных с авторами сезона и экспертами Газпромбанка.

О хабе

Хаб Big Data появился на Хабре в 2012 году. За этот немалый срок в нём опубликовали около 3300 статей. Вполне логично, что статьи этого хаба чаще всего также участвуют в хабах Машинное обучение, Data Mining и Data Engineering. Самые популярные посты набирают 300–490 тысяч просмотров. Впрочем, местные специалисты по Big Data наверняка и сами могли бы получить эту информацию за 10 минут в Excel, так что перейдём к самому интересному.

Итоги сезона

Под спойлером — таблица со всеми статьями сезона, упорядоченными по рейтингу (на 10 июня). Не смотрите, если хотите сохранить интригу.

Статья

Автор

Просмотры

Рейтинг (13.06.23)

Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация

@ANazarov

5090

33

Байесовский подход к АБ тестированию

@Kris_stn

4284

32

Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей

@Alliesverse

4150

28

Как мы делали скоринг на микросервисной архитектуре руками не-программистов

@YastrebovKS

7444

20

Бигдата, ты ли это?

@softError

3186

17

Сравнение технологии JuniStat и лазерных систем для беговых тестов

@plopr

955

15

Big Data в облаках

@SnezhSh

1768

15

Масштабируемая Big Data система в Kubernetes с использованием Spark и Cassandra

@Dartya

1827

14

Как дать крылья своей сводной таблице в Apache Superset

@Chatt

2145

14

Как рассчитать скидку за первый и последний этаж почти без формул в Excel

@Robastik

3217

14

Сassandra для бедных — пускаем в ход HDD

@softError

4000

13

FineBI 6.0: 9 полезных обновлений, о которых вы не знали

@Gi_gi_gi_gi_gi

2101

13

Как Почта моделирует риски потери отправлений

@kmamonov

1777

12

Что такое Self-Service BI и зачем он нужен?

@esfedoseev

2501

12

Её величество Иерархия. Классификация и способы хранение в MS Excel

@Grigory_T

4179

11

Геопространственные технологии для управления паспортом медицинского участка

@cohr

1519

11

Применение методов CRISP-DM для анализа Big Sales Data

@roman_salesai

705

10

Все DETRы мира: denoising queries и positive anchors. Часть 2

@crazyfrogspb1

683

8

Кластеризация текста в PySpark

@NewTechAudit

2241

8

Расчет скидки за первый и последний этаж в Excel (Часть 2)

@Robastik

1533

7

Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

@NewTechAudit

2389

7

Все DETRы мира: выкидываем и возвращаем энкоры. Часть 1

@crazyfrogspb1

1128

7

Кейс внедрение Dbt в «Детском мире»

@BioQwer

1054

6

MapReduce: как и зачем?

@Toor3-14

9412

6

Мигрируем с Qlik: как создать надежное хранилище для ваших данных

@dmntr

1873

6

Как мы организовали Data Warehouse в MANGO OFFICE

@MangoOffice

1359

6

Структурирование кредитного портфеля методами машинного обучения

@Elena24Kov

1275

5

Data-driven рост с помощью науки о данных и машинного обучения

@roman_salesai

1262

4

MLOps-платформа Dognauts для разработки и эксплуатации ML-моделей. Часть 1: предыстория создания

@neoflex

1155

4

Чем редакции Хабра запомнился этот сезон? В первую очередь — разноплановостью. У статей сезона не было какой-то одной главной темы, на которую пишут так много, что это уже приедается. Были посты о разнообразных аспектах Big Data: хранение данных, обработка, анализ, обзоры существующих инструментов для работы с данными, истории конкретных проектов, туториалы — в общем, на любой вкус и цвет.

Если судить по рейтингу постов, «одной большой темы» нет и для читателей. Высокий рейтинг набрали очень разные статьи: кейс разработки бота-юриста, обзор математических основ A/B-тестирования, туториал по разведочному анализу данных…

Что объединяет статьи наверху рейтинга, так это глубокое погружение в материал. Страшноватые формулы, километровые листинги, дотошное сравнение различных технологий и подходов. Всё то, что отталкивает казуального читателя, а истинного хабраюзера заставляет жмуриться от удовольствия и писать в комментах: «Хабр — торт».

Слово авторам

Объявление победителя — блюдо, которое подают холодным. Чтобы читатель успел нагулять аппетит, мы задали автором сезона несколько вопросов касательно «бигдаты».

В какой момент Data становится Big?

AlliesVerse

Платформа управления бизнесом

Термин Big Data так оброс дополнительными смыслами, что потерял изначальный.

Компании хотят большие данные, чтобы улучшать продукты, предсказывать поведение потребителей и находить бизнес-возможности. Но почему большие? Чем всех не устраивают маленькие?

«Бигдата» — не просто «биггер-зен-южал-дата». Это данные, которые невозможно обработать стандартными инструментами. Одно из первых определений Big Data предложила в 2001 году Gartner, оно звучало так: «Большие данные — это гиперсовокупность информации, которая создаётся в результате огромного объёма, скорости и разнообразия данных, требующих новых технологий для их обработки и сбора».

Окей, Гугл. За определение спасибо, но возможно ли уловить момент технологического перехода?

Да: надо всмотреться в 4 основных параметра:
1. объём данных;
2. скорость их сбора;
3. широта и разнообразие источников;
4. форматы данных и многоуровневость структуры.

Объём данных — «большие данные» связывают с огромными объёмами информации. Но что по числам? Сколько именно слайсов данных должно быть, чтобы можно было быть уверенными: данные стали взрослыми и теперь тратят на аптечку больше, чем на гардероб? Петабайты и экзабайты. Один петабайт — это миллион фотографий высокого разрешения.

Скорость сбора данных. Компании, которые собирают данные, быстро заполняют хранилища. Соцсети собирают с пользователей десятки и сотни терабайт, если бренд известен. Конкретных пограничных значений (терабайт/час), сигнализирующих о переходе данных во взрослую жизнь, пока никто не установил.

Широта и разнообразие источников данных — определяет, являются оперативные данные «большими» или нет. Если данные приходят из многих источников, то это может привести к тому, что информация становится слишком сложной для оценки и интерпретации. Например, если данные поступают от разных устройств IoT, то бизнес может вскоре не справиться с управлением всеми этими данными.

Форматы данных — ещё один аспект, который стоит учитывать. Данные от сенсоров IoT часто приходят в «сыром» двоичном формате. Анализ таких данных — задача не из простых, особенно учитывая, что они очень быстро наполняют хранилища. Но если из этих данных можно извлечь смысл (например, из показаний датчиков движения получить информацию о положении и перемещении), то бизнес может использовать их для прогнозирования поведения пользователя.

Не менее важна структура данных. В океане данных бизнесу нужно отлично ориентироваться для эффективного самоуправления: нужную информацию должно быть легко найти и сложно потерять. Для управления определёнными типами данных, такими как информация о продажах, обычно используются data warehouses. Они занимаются хранением, управлением и обработкой огромных объёмов данных и могут стать необходимыми при работе с большими данными.

В проверке на большие данные именно первый параметр (объём информации) считается «эталонным», именно он обычно стоит на высшей ступени пьедестала. Другие моменты, такие как скорость сбора и тому подобное, могут значительно варьироваться в зависимости от бизнес-задач.

Таким образом, данные становятся большими, когда их масштаб превышает возможности обработки стандартными инструментами. Чтобы определить это, стоит учитывать объём данных, скорость их сбора, широту и разнообразие источников, форматы данных и структуру. Когда все эти параметры одновременно превышают некоторый порог, компания может с чистой совестью использовать термин Big Data и начинать использовать «взрослые» инструменты для работы с ними.

Насколько изменилось представление о Big Data с момента появления термина?

Хороший вопрос. На мой взгляд, фундаментально представление о BigData не изменилось, изменилось лишь восприятие цифр: когда-то и 100 Гб казались огромным объёмом, а теперь ими никого не удивишь. Все же основные принципы работы с такими данными были описаны в работах 70–90-х — все подходы, использующиеся для их хранения и обработки, родом оттуда.

Что самое интересное произошло в отрасли за последний год?

Денис

aka @Robastik Парсинг веб

Очень большие языковые модели окончательно развеяли миф о «божественной природе» человеческой души.

Что самое сложное в работе с большими данными?

Кристина Лукьянова

бизнес-аналитик GlowByte aka @Kris_stn

Обеспечить скорость и предобработать — самое сложное. Большие данные — это большие шумы, большие пропуски и большой хаос.

С точки зрения и разработчика, и девопса самое сложное — это хранить столько данных, сколько реально нужно. Не всегда очевидно, какие данные реально нужны, а какие можно хранить не так долго — в такие обсуждения часто вовлечены многие отделы, и прийти к консенсусу не всегда возможно.

Как стать специалистом по Big Data — точка входа, дорожная карта и т. п.

NewTechAudit

Профессиональное сообщество

Выбирая путь специалиста по большим данным, стоит учесть особенности своего характера. Для работы требуются усидчивость и способность концентрироваться на задаче: например, предобработка данных занимает много времени. При этом часто нужно искать креативные решения. В будущем это поможет специалисту по Big Data не выгореть на своей непростой стезе.

Но одним характером не обойтись. Нужна математическая база: для понимания того, что происходит под капотом, нужно знать теорию вероятностей, математическую статистику, линал и пр.

Далее необходимо знание Python и SQL. При изучении Python нужно сконцентрироваться на получении опыта работы с библиотеками для анализа и визуализации данных.

Затем переходим к машинному обучению: нужно изучить основные алгоритмы и кейсы их использования, понять метрики.

И, наконец, можно приступить к deep learning: на этом этапе важно научиться предобрабатывать неструктурированные данные, понять принципы работы основных фреймворков и архитектур современных нейросетей.

Обучение никогда не заканчивается: следим за новостями мира AI (читаем статьи на arXiv, смотрим видео с международных конференций, публикации от ключевых людей отрасли) — и постоянно пробуем новые подходы.

Слово партнёру сезона

Мария Косарева

Вице-Президент, начальник Департамента анализа данных и моделирования в Газпромбанке

Сезон Big Data завершается, но работа с большими данными продолжается. Мы хотели бы поблагодарить участников: статьи оказались интересными и полезными. Авторы Хабра всегда отличались глобальным видением и вниманием к самым маленьким деталям — именно этот навык делает специалистов лучшими на рынке. Среди статей участников сезона нам показалась интересной тема про LawAI: автор и комментаторы поднимают один из важнейших вопросов о применении ИИ. Если человек, принимая решение, руководствуется не только фактами и знаниями, но и моралью, этикой, эмоциями, может ли и должен ли это учитывать ИИ? На этот вопрос сообществу ещё предстоит найти ответ. Другие важные вопросы, которые занимают сейчас умы разработчиков всего мира: на каких данных обучать модели, как заставить нейросеть говорить правду и перестать выдумывать «отсебятину».

Также среди наших фаворитов — статьи участников, посвящённые визуализации данных. Такой вопрос особенно остро стоит в больших компаниях: важна не только точность, но и наглядность, а качественная презентация для представителей бизнеса — тоже часть профессии аналитика и дата-сайентиста.

Ещё одна статья, заинтересовавшая нас, — про байесовский подход к А/B-тестированию. Как отметил в комментариях наш ведущий эксперт по разработке моделей для бизнеса, мы также рассматриваем возможность поэкспериментировать в банке с таким подходом.

Мы видим, что работой с Big Data и искусственным интеллектом сегодня заняты специалисты из совершенно разных областей. Мы в Газпромбанке сейчас работаем над моделями, которые помогут менеджерам в принятии важных решений, основываясь на датацентричном подходе. Сегодня уже существует множество интересных решений, нестандартных подходов в развитии этих направлений. Мы благодарны сообществу за то, что оно открыто делится успешными и неудачными кейсами — так, объединив усилия, мы все сможем двигаться чуточку быстрее к высокотехнологичному и датацентричному будущему.

Победитель

Итак, пришло время объявить человека, покрывшего себя бессмертной славой победителя сезона Big Data. И им становится (барабанная дробь… фанфары…) пользователь @ANazarov со статьёй Анализ таблиц сопряжённости средствами Python. Часть 1. Визуализация. Часто бывает так, что комментарии к хабрапосту интереснее и информативнее самого поста. Статья победителя оказалась настолько интересной и информативной, что на протяжении сезона никто не осмелился её прокомментировать. Количество экспертизы, вложенной в эту статью, оставляет у читателя лишь один вопрос: когда будет вторая часть?

Вместо легендарного меча Владычица Озера данных вручит триумфатору новенький Apple MacBook Air 13, а также грант в 30 000 ₽ — на корм боевому коню и на подготовку ещё одной крутой статьи. А теперь — без лишних слов — слово победителю.

Александр

aka @ANazarov

Что самое интересное в анализе данных? Техническая часть, математическая основа, эвристический поиск?

В анализе данных ключевое слово всё-таки «анализ», поэтому для меня наиболее интересны темы, связанные как с самими методами анализа, так и с опытом их применения. Всегда полезно изучить опыт решения задач другими специалистами.

Лично для меня особенно интересна математическая основа, тем не менее все аспекты важны.

Какие статьи сезона больше всего запомнились?

Из того, что запомнилось в данном сезоне, отмечу следующие публикации:

Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

Кластеризация текста в PySpark

Структурирование кредитного портфеля методами машинного обучения

Сравнение технологии JuniStat и лазерных систем для беговых тестов

Геопространственные технологии для управления паспортом медицинского участка

Выводы

Как говорил Стэн из мультсериала South Park, «сегодня мы многое поняли». Выводы, которые можно сделать по итогам сезона, с одной стороны, неудивительны, но с другой — приятны. Авторам Хабра по-прежнему хватает глубоких интересных кейсов, чтобы о них написать. Читателям Хабра по-прежнему нравятся технические лонгриды, «сложная лепота», если перефразировать название романа Питера Уоттса. А сезоны в очередной раз показывают себя хорошим способом мотивировать авторов. Поэтому не уходите далеко от монитора — скоро будет объявлен старт нового сезона.

Теги:
Хабы:
Всего голосов 8: ↑8 и ↓0+8
Комментарии1