Закат эпохи Big Data

Множество иностранных авторов сходятся к тому, что эпоха Big Data подошла к концу. И в данном случае под термином Big Data понимаются технологии, основанные на Hadoop. Многие авторы, даже могут с уверенностью назвать дату, когда Big Data оставила этот мир и эта дата — 05.06.2019.

Что же произошло в этот знаменательный день?

В этот день, компания MAPR обещала приостановить свою работу, если не сможет найти средства для дальнейшего функционирования. Позднее, в августе 2019 года MAPR был приобретен компанией HP. Но возвращаясь к июню нельзя не отметить, трагичность этого периода для рынка Big Data. В этом месяце произошел обвал биржевых котировок акций компании CLOUDERA – ведущего игрока на обозначенном рынке, которая произвела слияние с хронически неприбыльным HORTOWORKS в январе этого же года. Обвал был весьма существенен и составил 43%, в конечном итоге капитализация CLOUDERA снизилась с 4,1 до 1,4 миллиарда долларов.

Невозможно не сказать, что слухи о надувании пузыря в сфере технологий, базирующихся на Hadoop, ходили еще с декабря 2014 года, но он мужественно продержался еще почти пять лет. Слухи эти основывались на отказе Google, компании в которой зародилась технология Hadoop, от своего изобретения. Но технология, прижилась, на время перехода компаний к облачным средствам обработки и бурного развития искусственного интеллекта. Поэтому, оборачиваясь назад, можно с уверенностью сказать, что кончина была ожидаемой.

Таким образом, эра Big Data подошла к концу, но в процессе работы над большими данными компании осознали все нюансы работы над ними, выгоды, которые Big Data может принести бизнесу, а также научились пользоваться искусственным интеллектом для извлечения ценности из сырых данных.

Тем интереснее становится вопрос о том, что же придет на смену этой технологии и как будут дальше развиваться технологии аналитики.

Дополненная аналитика


Во время описываемых событий, компании, работающие в сфере анализа данных, не сидели на месте. О чем можно судить исходя из информации о сделках, произошедших в 2019 году. В текущем году была осуществлена крупнейшая сделка рынка – приобретение Salesforce аналитической платформы Tableau за 15,7 млрд. долларов. Менее крупная сделка произошла между Google и Looker. Ну и конечно нельзя не отметить приобретение компанией Qlik — биг дата платформы Attunity.

Лидеры рынка BI и специалисты Gartner заявляют о грандиозном сдвиге в подходах к анализу данных этот сдвиг полностью разрушит рынок BI и приведет к замене BI на AI. В данном контексте необходимо отметить, что аббревиатура AI это не «Artificial intelligence» а «Augmented Intelligence». Давайте поближе рассмотрим, что скрывается за словами «Дополненная аналитика».

Дополненная аналитика, как и дополненная реальность базируется на нескольких общих постулатах:

  • возможностью общаться с использованием NLP (Natural Language Processing), т.е. на человеческом языке;
  • использование искусственного интеллекта, это значит, что данные будут предварительно обработаны машинным интеллектом;
  • и конечно же рекомендации, доступные пользователю системы, которые как раз-таки сгенерировал искусственный интеллект.

По мнение производителей аналитических платформ, их использование будет доступно для пользователей не обладающим специальными навыками, такими как знание SQL или подобного скриптового языка, не имеющих статистической или математической подготовки, не обладающими знаниями в области популярных языков, специализирующихся на обработке данных и соответствующих библиотек. Такие люди, называемые «Citizen Data Scientist», должны обладать лишь выдающейся бизнес квалификацией. Их задача – уловить бизнес-инсайты из подсказок и прогнозов, которые будет давать им искусственный интеллект, а уточнять свои догадки они смогут, используя NLP.

Описывая процесс работы пользователей с системами такого класса можно представить себе следующую картину. Человек, приходя на работу и запуская соответствующее приложение помимо привычного набора отчетов и дэшбордов, которые можно анализировать стандартными подходами (сортировка, группировка, выполнение арифметических действий) видит определенные подсказки и рекомендации, что-то типа: «Для того, чтобы достичь KPI по количеству продаж вам следует применить скидку на продукты из категории «Садоводство»». Кроме этого человек, может обратиться к корпоративному мессенджеру: Skype, Slack т.д. Может задать роботу вопросы, текстом или голосом: «Выведи мне пять самых прибыльных клиентов». Получив соответствующий ответ, он должен принять оптимальное решения, исходя из своего опыта в бизнесе и принести компании прибыль.

Если сделать шаг назад, и взглянуть на состав анализируемой информации, и на этом этапе продукты класса дополненной аналитики могут упростить жизнь людям. В идеале предполагается, что пользователю потребуется лишь указать аналитическому продукту на источники желаемой информации, а программа сама позаботится о создании модели данных, связке таблиц и тому подобных задачах.

Все это должно, прежде всего, обеспечить «демократизацию» данных, т.е. любой человек может заниматься анализом всего массива имеющейся у компании информации. Процесс принятия решений должен быть подкреплен методами статистического анализа. Время доступа к данным должно быть минимальным, так как не требуется писать скрипты и SQL запросы. Ну и конечно, можно будет сэкономить на высокооплачиваемых Data Science специалистах.

Гипотетически технологии открывают весьма радужные перспективы для бизнеса.

Что заменяет Big Data


Но, собственно, начал я свою статью с Big Data. И развить эту тему я не мог без краткого экскурса в современные BI инструменты, базой для которых, часто и служит Big Data. Судьба больших данных теперь четко предрешена, и это облачные технологии. Я акцентировал внимание на сделки, совершенные с BI производителями с целью демонстрации, что теперь каждая аналитическая система имеет под собой облачное хранение, а облачные сервисы имеют BI в качестве front end.

Не забывая о таких столпах в сфере баз данных как ORACLE и Microsoft необходимо отметить избранное ими направление развития бизнеса и это облако. Все предлагаемые сервисы можно найти в облаке, но некоторые облачные сервисы уже нельзя получить on-premise. Ими проделана значительная работа по использованию моделей машинного обучения, созданы библиотеки доступные пользователям, настроены интерфейсы для удобства работы с моделями от ее выбора до установки времени старта.

Еще одним важным преимуществом использования облачных сервисов, которое озвучивается производителями, является наличие практически неограниченных дата сетов по любой тематике, для тренировки моделей.

Однако, возникает вопрос, насколько облачные технологии приживутся в нашей стране?
Реклама
AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее

Комментарии 28

    +8
    Где-то я такие песни уже слышал…
    Точно! "больше не нужно будет вводить формулы в компьютер, достаточно будет всего лишь показать формулу на бумаге и компьютер выдаст решение" (с) инженеры 50х.
    Backend облаков (кстати, Оракл и МС заявили об облачном альянсе) крутится на том же hadoop + object store, то что hadoop замели веником под красивый и современный облачный ui — ничего не значит.
    И у вас фактологическая ошибка: обвал акций CLDR — прям обвал — был в конце мая, с $11 до 5, сейчас акции торгуются в районе 9, средняя цена за 52 недели $9.97.
    «программа сама позаботится о создании модели данных, связке таблиц и тому подобных задачах» — пусть для начала на кошкахреляционных базах потренируется, а то виденные мной ORM до сих пор не предел мечтаний.
    PS облачных технологий в стране навалом, в основном — приватные, изредка — гибридные облака. Дикси использовали публичные облака, но после фейла во время охоты на Телеграмм с банхаммером, не уверен, что не сделали облако гибридным.
      0
      Не согласен про фактологическую ошибку, на графике очень четко видно обвал:
      image
      «hadoop замели веником под красивый и современный облачный ui» — на мой взгляд это большое дело, особенно для понимания как этим пользоваться лицам принимающим решения.
        +1
        Перечитал ещё раз и понял, что потерял контекст: речь об июне же, но при этом используется «В этом месяце», что и сбило меня с толку. Возможно, лучше «в тот месяц»?
        Лица, принимающие решения и раньше не видели потрохов систем, для этого есть отделы аналитики, которые перерабатывают датасеты и рисуют графики, уже привычные конечным бизнес-пользователям.
        Прототипы автоматизированных bi-систем видел, но не впечатлён: их natural language — английский, а круг решаемых задач весьма примитивный, решения весьма типичных задач «где мы больше всего теряем деньги в этом квартале?» или «а ну-ка, блокируй фрод!» они не дают и смогут дать не раньше появления работающего AI, а без этого вспоминается байка про 1с, за которым бухгалтеры сами пишут лёгкий и понятный код (практически на натуральном языке, ага).
          –2
          Ну я как раз и говорю про заявления BI вендоров и видения будущего от Gartner, усилия направлены в эту сторону. Пока, в исполнении есть нюансы, не без этого.
            +3
            А, эти балаболыконсалтеры…
            — согласно одному из прогнозов аналитика Gartner, к 1993 году ожидался вывод из эксплуатации последнего мейнфрейма (Серия IBM Z до сих пор обновляется и продаётся)
            — в 2006 году Gartner счёл, что наиболее эффективной стратегией для Apple будет прекращение выпуска аппаратного обеспечения.
            IMHO: Крупный бизнес, у которого крупные деньги и крупная бигдата, вряд ли отдаст кластеры в детские дома и немедленно начнёт лить петабайты в облака (в 2 сразу, для отказоустойчивости), мелкому за глаза для анализа хватит и Excel (да и денег у мелкого бизнеса нет на эти игры), среднему проще нанять команду, получить решение и дальше расти.
              0
              Те, кто уже вложился в железо и проект конечно не откажутся. Интересно было бы узнать динамику стартов новых проектов.
              0
              пока то что я вижу это попытки продать продукт компаниям которые не хотят или не могут нанять дорогой персонал вида дата инжинеров, дата сантистов
              а BI который разговаривает с пользователем через Алексу и соотвествено амазон клауд я уже видел и видел растерянные лица СБшников которые не знали как это квалифицировать, когда финансовая инфа компании льется в чужое облако без всяких договоров и НДА
                0
                Все правильно, история в том числе об этом
                пока то что я вижу это попытки продать продукт компаниям которые не хотят или не могут нанять дорогой персонал вида дата инжинеров, дата сантистов

                СБшиники да — встревожены
                  0
                  да тут много всякого, взять хотя бы 152ФЗ, если залить клиентские данные в облако то это будет нарушение ФЗ.
                    0
                    Сейчас не буду копаться в законах, да и юрист из меня слабоватый. Но, на одной из конференций, был приглашен специалист из правового консалтинга который утверждал, что хранение данных в облаке, даже иностранном не запрещено. Отмечал, что собирать данные нужно на российский сервер, а потом можно передавать в любое облако. Сослаться на законы не хватает квалификации, транслирую, что было мною услышано.
                      0
                      Если лить в облако вместо перс данных только ключ — айдишник а перс данные хранить в Россиюшке то тогда норм, хотя юристы пока с фз 152 не знают что делать и трактуют любое слово в любую сторону, так что под отзыв лицензии или еще какую канитель можно попасть и если ты банк или телеком или еще какой авиа перевозчик то шутить с риском потери лицензии не будешь
                        0

                        Вы этого консалтера продажного наверное на вендорской конференции слушали… Ну так с него взятки гладкий в случае чего. На трансграничку нужно получать разрешение владельца ПДн. Даже при наличии такого согласия от обязанности обеспечить защиту там по российским законам никто не отменял. Как вы будете выкручиваться с криптографией отдельная история…

                          0
                          Так и есть, на партнерской.
          +2

          Хайповое название, а по факту идите в облака. Вот, где Биг Дата.

            –1
            Так о том и речь, я про тенденции.
            0
            аффтор путает платформу хадупа с канторами-дистроклепателями. место малоизвестного mapr просто займет майкростофт с его mssql2019. в mssql2019 тот самый hadoop+spark пойдет в комплекте.
            а клаудера вероятно тоже загнется с такими закидонами. они для проформы выкладывают в опенсорс свои продукты, а на деле позванивают клиентов и вымагают деньги на супорт. заявляют что хрен вы там бесплатно что-то без нас соберете.
              0
              А не тогда ли Cloudera подняла цены на лицензии?
              И, кстати, не отменила ли express edition?
                0
                за ценами на лицензии не следил и про express не слышал. вроде не было такой редакции. у них еще можно скачать их сборку (полный дистрибутив) бесплатно, но с февраля они это закроют. скачать дистрибутив смогут лишь обладатели подписки. цены что-то около $6k за ноду в год. странновастая стратегия мягко говоря, учитывая рост облаков и возможность в пару кликов поднимать хадуп кластеры в облаках.
                  0
                  — Я вас дважды огорчу(с)
                  Текущий ценник от $10к/нода в год + доп плата за ядра и место на дисках на 1 ноде выше определённого свежие цены
                  Бесплатный Express вроде ещё существует, но надолго ли? Типы лицензий, express ещё указан
                  Есть и другие редакции, но они странны составом, хоть и изрядно дешевле.
                  К тому же, Cloudera после слияния с Hortonworks и смерти MapR осталась единственным раскрученным поставщиком сборок hadoop.
              0
              Закат эпохи Big Data прям не заголовок а кликбейт
              Генерация информации ускоряется но маркетологи анононсировали загат эпохи больших данных
              пожалуй куплю попкорн и подожду когда они выкатят новую эпоху, интересно что это будет:
              эпоха громадных данных?
              эпоха ту фрекен матч данных?
                0
                Тут скорее о закате Hadoop в его классическом понимании. Данные растут, спору нет.
                  0
                  А куда лить, если не в Hadoop?
                  Ceph? Glusterfs? А специалистов по ним где брать и за чей счёт переезд?
                  Spark over ceph есть, но со скоростью, судя по тестам ребят из Red Hat, там проблемы.
                  В общем, я не против, но слишком много вопросов и слишком мало профита.
                  PS чистый hadoop никому давно не нужен, по крайней мере, MapR(YARN не нужен, GUI тоже), продвигавшая его, таки загнулась.
                    0
                    вот кстати интересный вопрос куда лить то что сейчас льют в дата лэйк?
                    возможно MPP базы и всякие клик хаусы хорошы но ведь они под определенные сценарии использования
                      0
                      Многие вендоры сделали коннекторы для своих MPP под spark.
                      Только в ценнике и стоимости владения по сравнению с hadoop совсем не уверен,
                      а если добавить переобучение админов и переезд…
                      Hadoop получился штукой с открытой архитектурой: можно начать стартовым комплектом из 3 дешёвых серверов (или виртуалок), и добавляя более скоростные ноды вместе с выводом старых, понемногу расширить и ускорить кластер практически до любого уровня за недорого, при этом, достаточно детально описанной и избавленой от детских болячек.
                      Альтернатив не вижу — или стартовый комплект с ценой крыла самолёта, или сыроватый для прода, или специалистов на весь мир 4.5 человека и 3 из них говорят на хинди.
                      0
                      Со скоростью там все не так уж и плохо, если мы не говорим про erasure coding, а про 3х репликацию. Но при этом есть posix-совместимость и возможность доступа к объектному хранилищу без завязки на конкретные версии компонент экосистемы. Например, можете взять любой версии Spark/Hive/Impala, лишь бы коннектор к S3 не подвел. Мне кажется — это выход для тех компаний, у которых по несколько кластеров для разных команд. mesos + ceph + все, с чем вы привыкли работать с данными в привычном для вас CDH/HDP/Vanilla.
                        0
                        Простите, «там» — это где? S3? Ceph?
                        И, встречали, киньте ссылью с тестами (английский, максимум — испанский), мне интересна эта тема.
                          0
                          «Там» — это в объектном хранилище Ceph. Spark/Hive/Impala использует коннекторы S3 для подключения к нему в той статье, на которую вы дали ссылку, тесты там тоже есть. И там видно, что бОьшая часть ворклоадов сравнивалась с Ceph с erasure coding, в то время как в HDFS использовалась обычная 3х репликации. В тех тестах, где в Ceph включали 3х репликацию, разница в производительности с HDFS не была значительной, я бы сказал что производительность была сопоставима.
                            0
                            Благодарю, нужно будет попробовать собрать Ceph и локально потестировать.
                            Хотя проигрыш в моих тестах достаточно очевиден: 12*sas + 40GbE ib для Hadoop против что найдётся из дисков + 10Gbe под Ceph.
                            Интересно, на сколько.

                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                Самое читаемое