Большие данные и большие вопросы

    С каждым годом популярность Big Data продолжает увеличиваться. Аналитические отчеты показывают рост процентного соотношения компаний, которые активно применяют «большие данные» в тех или иных бизнес-процессах.

    Сегодня мы поговорим о том, как этот новомодный термин зачастую вводит в заблуждение и не позволяет в полной мере оценить положительные стороны того, что под ним подразумевается в действительности.


    / фото Philip Kromer CC

    Сама технология, если так можно выразиться, уже используется практически повсеместно. Огромные объемы данных, которые оказываются в распоряжении компаний, предоставляющих пользователям поисковые сервисы или социальные сети, поражают даже самое смелое воображение. Было бы странно оставлять их храниться в полном спокойствии — бизнес пытается извлечь дополнительную выгоду из тех знаний, которые можно получить на основе анализа уже имеющихся данных о пользователях и их предпочтениях.

    Здесь можно провести параллели с любыми сферами деятельности: от медицины до дорожного движения. Смысл в анализе данных, которые должны в достаточной степени удовлетворять требованиям, и тогда их уже можно относить к тем самым «большим данным».

    В чем проблема


    Что дает анализ — возможность понять закономерности и на их основе прогнозировать развитие событий в ближайшем будущем. Но как и любой новый инструмент, Big Data требует аккуратной работы и внимательного отношения к качеству проводимых исследований.

    Иногда получается так, что исследователи уходят в построение определенных зависимостей, которые не всегда соответствуют базовой логике. Один из таких примеров — проверка текста на соответствие некоторым требованиям «качества». Здесь все зависит от адекватности предустановленных параметров и их соответствия действительному качеству материала.

    В некоторых случаях работы с оценкой текста получается так, что алгоритм выделяет в длинные предложения как значимые или «качественные», но все мы знаем, что с таким подходом в вопросах оценки какого-либо художественной произведения далеко не уйти. Подобные алгоритмы оценки достаточно легко обойти, понимая логику их работы.

    Другой пример — проект Flu Trends, который запустила компания Google. Получилось так, что он должен был предсказывать вспышки болезней, но так и не смог превзойти официальные службы, которые профессионально занимались этими вопросами.

    Что делать на практике


    Основная причина, по которой те или иные виды «больших данных» не работают заключается в элементарном отсутствии какой-либо минимально выстроенной системы сбора этих данных. Любая подобная затея потребует значительных подготовительных работ, что ведет к дополнительным издержкам на планирование и проектирование.

    Помимо понимания самих процессов сбора и систематизации данных стоит оценивать и необходимость наращивания ИТ-инфраструктуры, которая будет обслуживать эти процессы. Сегодня любая ИТ-комания так или иначе сталкивается с этими вопросами — объемы данных, которые нужно обрабатывать растут, а вместе с этим увеличивается и значимость инвестиций в технологии, связанные с Big Data.

    Сейчас уже мало просто собрать очень много данных — для получения даже промежуточных выводов необходимо уметь правильно сформулировать гипотезы, на основе которых и будет произведен анализ. Этот вопрос требует привлечения профильных специалистов, которые занимаются непосредственными вопросами анализа данных.

    P.S. Мы стараемся делиться не только собственным опытом работы над сервисом по предоставлению виртуальной инфраструктуры 1cloud, но и рассказывать о смежных областях знаний в нашем блоге на Хабре. Не забывайте подписываться на обновления, друзья!
    • +5
    • 10,4k
    • 9
    1cloud.ru
    248,00
    IaaS, VPS, VDS, Частное и публичное облако, SSL
    Поделиться публикацией

    Комментарии 9

      +6
      Новый способ издевательства над читателями — гифка с текстом? Успей прочесть, пока кадр не сменился!

      Скрытый текст
      image
        +1
        Аж два раза смена, чтобы прочитать нужна куча времени
          +1
          пока голову повернешь, кадр сменится :)
        +1
        Корреляции — это скорее вотчина machine learning, нежели big data, не?
        А используемые подходы я бы уподобил натуральному мышлению древнего человека, который, не строя и не проверяя модели, находил связь между кровавыми жертвоприношениями и приходом дождя.
          +1
          Тут получается забавный парадокс. Корреляция между жертвоприношениями и приходом дождя может казаться дикой, но если она есть, бизнес её может использовать. Если корреляция исчезнет, всегда можно найти новую. В общем, добро пожаловать в современный ML шаманизм. Непонятно как, но работает.
            0
            Безусловно, может. И использует.
            Просто если вдруг получается придумать фальсифицируемую модель и повесить на нее данные, то происходит настоящий прорыв.
              0
              Вот только если корреляция «ложная» (не связанная причинно либо связанная но не в ту сторону что надо) — то после начала использования этой корреляции она просто исчезает :)
              0
              (комментарий был удален)
            0
            Технические проблемы, вроде недостатка инфраструктурных мощностей, можно решить с помощью использования новых технологий — например, облаков.

            Объясните, кто-нибудь, где в "облаке" предполагается хранить данные? Если это EBS или S3 (предположим, у нас aws), не будет data-locality. Если это ephimeral — диски, тогда кластер нужно все время держать включенным, что дорого.

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

            Самое читаемое