Большие данные мертвы. В той их части, которая характеризуется как “большие”. Так считает Джордан Тигани, инженер-основатель Google BigQuery, человек, который больше 10 лет рассказывал всем о пользе big data. Что он имеет в виду и что это значит для бизнеса? Давайте разбираться.
Вспомним, что говорили про большие данные
Пятнадцать лет назад эксперты предполагали, что количество данных будет расти очень быстро. И для работы с ними придется изобрести новые инструменты и технологии.
Тогда считали, что компания, которая будет анализировать и обрабатывать big data за два года обгонит другие на десятилетия вперед. Стоит лишь внедрить громоздкое, дорогое решение, масштабируемое под возможный экспоненциальный рост данных. Но эксперты ошибались.
Что же произошло?
Прошло десять лет, как появились платформы, вроде Google Query. И оказалось, что даже у крупного бизнеса порой нет такого количества данных, которые можно назвать большими.
По словам Джордана сейчас даже самые крупные компании имеют от 1 до 10 терабайт аналитических данных. А у большинства объем данных находится в диапазоне от 1 до 100 Gb.
Технологии вполне поспевали за реальным, а не прогнозируемым приростом генерируемой информации. Сейчас средняя компания имеет около 10 Gb данных. И ей вполне хватает аппаратных мощностей, чтобы обработать их за секунды.
В 2006 году стандартный инстанс в AWS использовал 1 ядро и 2 Gb ОЗУ. Рабочая нагрузка на такую машину зачастую не помещалась полностью.
Сейчас же стандартный инстанс AWS работает на физическом сервере мощностью 64 ядра ЦП и 256 Gb RAM, который по желанию клиента можно масштабировать до 24 ТБ оперативной памяти и 445 ядер ЦП. Много ли вы знаете нагрузок, которым требуется столько вычислительных ресурсов?
При этом данные распределяются неравномерно, и большинству компаний не нужно обрабатывать их гигантские объемы. Это привело к тому, что СУБД с традиционной SQL-архитектурой: SQLite, Postgres, MySQL по-прежнему популярны.
И что же мы сейчас имеем? Компаниям предлагают создать и внедрить целый имперский крейсер, тогда как им нужен всего лишь 1 X-wing, чтобы уничтожить Звезду Смерти.
При этом 10 Gb — это все-таки данные, из которых можно извлечь пользу.
Почему 10Gb — это big data?
Давайте представим средний интернет-магазин с клиентской базой в тысячу человек. Пусть каждый из клиентов размещает новый заказ каждый день. И в каждом таком ордере находится сотня позиций. Даже в этом случае сайт генерирует меньше мегабайта новых данных в день. И только почти через 3 года их будет 1Gb.
Поэтому на первый план выходит не столько количество, сколько качество и подход к данным. То, как вы оцифровываете, храните и обрабатываете их. И делать это не так уж и сложно.
2 примера, которые это доказывают
Наглядный пример — сбор и обработка данных об общественном транспорте современного мегаполиса.
Организовать сбор и обработку данных о сотнях, а то и тысячах единиц техники и миллионах поездок, совершенных пассажирами, — это сложно. Но с этой задачей справится грамотно настроенная платформа, построенная на стеке Apache Kafka-Apache Spark-Greenplum.
Аналогичную по изящности платформу по сбору и обработке данных мы реализовали для сервиса Find My Kids. Это приложение, которое помогает родителям не беспокоиться о том, где находятся и что делают их дети, продвинутый GPS-трекер со встроенными функциями.
У приложения миллионы скачиваний в профильных магазинах, но для сбора и обработки данных они используют решение Kafka-Spark-Greenplum. Объем обрабатываемых данных при этом исчисляется даже не терабайтами, а сотней гигабайт.
Да что говорить, у мировых b2c-компаний их накапливается чуть больше 10 Tb. И даже такое количество данных благодаря современным технологиям можно хранить и обрабатывать быстро и без особых проблем.
В чем польза от этого для бизнеса?
В том, что можно не бояться этих самых больших данных. Чтобы реализовать инхауз платформу для сбора и обработки данных, не потребуется целый отдел гениев с докторской степенью по квантовой физике. Будет достаточно трех грамотных инженеров, которые хорошо разбираются в нескольких популярных opensource-решениях. Даже если у вас приложение с миллионами посещений в сутки.
Да, безусловно сложность проекта зависит от типа данных, количества источников, сложности требуемой аналитики и как долго вы их храните. Но начать работать с данными можно уже сейчас и это не потребует больших затрат.
В качестве примера облегченной платформы мы можем привести собственную разработку — лайт-версию нашего продукта ITS DPP. Почитать о её возможностях можно на сайте.