Что такое «Big Data»?

    Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

    image

    С развитием технологий количество данных стало увеличиваться в геометрической прогрессии. Традиционные инструменты перестали покрывать потребность в обработке и хранении информации. Для обработки данных, объем которых превышает сотни терабайт и постоянно увеличивается, были созданы специальные алгоритмы. Их принято называть «big data».

    Сегодня информация собирается огромными объемами из разных источников: интернет, контакт-центры, мобильные устройства и т.д. Чаще всего такие данные не имеют четкой структуры и упорядоченности, поэтому человек не может использовать их для какой-либо деятельности. Для автоматизации анализа применяют технологии «big data».

    Когда появились первые большие данные?


    Большие данные появились в 60-70 годах прошлого столетия вместе с первыми ЦОД (центры обработки данных). В 2005 году компании начали понимать масштабы создаваемого контента пользователями интернет-сервисов (Facebook, YouTube и др.). Тогда же начала работу первая платформа, предназначенная для взаимодействия с большими наборами данных, — Hadoop. Сегодня она представляет собой большой стек технологий для обработки информации. Чуть позже популярность начала набирать NoSQL — совокупность методов для создания систем управления большими данными.

    Объем генерируемой информации стал увеличиваться с появлением крупных интернет-сервисов. Пользователи загружают фотографии, просматривают контент, ставят «лайки» и т.п. Вся эта информация собирается в больших объемах для дальнейшего анализа, после которого можно вносить улучшения в работу сервисов. Например, социальные сети используют большие данные для показа пользователям релевантной рекламы (то есть той, которая соответствует их потребностям и интересам) в таргете. Это позволяет соцсетям продавать бизнесу возможность проведения точных рекламных кампаний.

    Основные свойства больших данных


    В самом начале статьи мы определили три основных свойства больших данных из общепринятого определения. Давайте раскроем их более подробно:

    • Объем. Из названия «большие данные» становится понятно, что они содержат в себе много информации. И это действительно так: компании могут ежедневно получать десятки терабайт различных данных, некоторые — сотни петабайт. То есть «большие данные» не были бы таковыми без объема.
    • Скорость. Большие данные поступают и обрабатываются из разных источников с высокой скоростью. При отсутствии этого свойства информацию уже нельзя будет назвать «big data». А еще они генерируются без остановки.
    • Разнообразие. Большие данные содержат в себе информацию, относящуюся к разным типам. Это одно из главных отличий от простых данных — они всегда структурированы и могут быть сразу сохранены в базе данных.

    За последние несколько лет популярность больших данных увеличилась, в результате чего они получили два дополнительных свойства (характеристики): ценность и достоверность. Ценность определяется каждой компанией по-своему. Специалисты оценивают, принесет ли полученная информация пользу бизнесу. А достоверность показывает, можно ли используемым данным доверять (насколько они правдивы), ведь неточная информация может навредить компании и ее деятельности.

    Как с ними работают?


    Большие данные несут в себе много полезной информации, на основе которой компании создают новые возможности и формируют бизнес-модели. Работа с большими данными делится на 3 этапа: интеграция, управление и анализ.

    1 этап. Интеграция

    На этом этапе компания интегрирует в свою работу технологии и системы, позволяющие собирать большие объемы информации из разных источников. Внедряются механизмы обработки и форматирования данных для упрощения работы аналитиков с «big data».

    2 этап. Управление

    Полученные данные нужно где-то хранить, этот вопрос решается до начала работы с ними. Решение принимается на основе множества критериев, главными из которых считаются предпочтения по формату и технологии обработки. Как правило, для хранения компании используют локальные хранилища, публичные или частные облачные сервисы.

    3 этап. Анализ

    Большие данные начинают приносить пользу после анализа. Это заключительный этап взаимодействия с ними. Для этого применяют машинное обучение, ассоциацию правил обучения, генетические алгоритмы и другие технологии. После анализа данных остается только самое ценное для бизнеса.

    Примеры использования больших данных


    В общих чертах с «big data» разобрались. Но остался важный вопрос — где их можно применять практически? Ответ: в любой сфере деятельности, которая оперирует необходимыми для анализа данными. Давайте рассмотрим несколько реальных примеров. Это позволит лучше понять, для чего нужны большие данные и как от них можно получить пользу.

    Big Data в банках

    В российской банковской сфере большие данные первым начал использовать «Сбербанк». На основе «big data» и биометрической системы в 2014 году они разработали систему идентификации личности клиента по фотографии. Принцип работы очень простой: сравнение текущего снимка с фотографией из базы, которую делают сотрудники при выдаче банковской карты. Новая система сократила случаи мошенничества в 10 раз.

    Сегодня «Сбербанк» продолжает использовать большие данные в работе: сбор и анализ информации позволяет управлять рисками, бороться с мошенничеством, оценивать кредитоспособность клиентов, управлять очередями в отделениях и многое другое.

    Еще один пример из российского банковского сектора — ВТБ24. Внедрять «big data» компания начала чуть позже «Сбербанка». Сегодня они используют большие данные для сегментации и управления оттоком клиентов, формирования финансовой отчетности, анализа отзывов в интернете и многого другого.

    «Альфа-Банку» большие данные помогают контролировать репутацию бренда в интернете, оценивать кредитоспособность новых клиентов, персонализировать контент, управлять рисками и т.п.

    Большие данные в бизнесе

    Многие ошибочно полагают, что работа с большими данными актуальна только для банковского сектора и ИТ-компаний. Это опровергает пример «Магнитогорского металлургического комбината», который разработал сервис «Снайпер» для снижения расходов сырья в производстве. Технология собирает большие объемы информации, анализирует их и дает рекомендации по оптимизации расходов материалов.

    «Сургутнефтегаз» использует специальную систему для отслеживания основных бизнес-процессов в режиме реального времени. Это помогает в автоматизации учета продукции, ценообразовании, обеспечении персонала нужными данными и т.п.

    Big Data в маркетинге

    Маркетологи используют большие данные для прогнозирования результатов рекламных кампаний. Также анализ помогает в определении наиболее заинтересованной аудитории. Яркий пример «big data» в маркетинге — Google Trends. В систему поступает огромное количество данных, а после анализа пользователь может оценить сезонность того или иного товара (работы, услуги).

    Сложности при использовании


    Где есть большие возможности, там поджидают и большие трудности. Это правило не обошло стороной big data.

    Первая сложность, с которой сталкиваются компании, — большие данные занимают много места. Да, технологии хранения постоянно улучшаются, но при этом и объем данных неуклонно растет (в среднем в два раза каждые два года).

    Приобретение огромного хранилища не решает всех проблем. От простого хранения данных толку не будет, с ними нужно работать для получения выгоды. Отсюда вытекает другая сложность — налаживание обработки получаемых больших данных.

    Сейчас аналитики тратят 50-80% рабочего времени для приведения информации в приемлемый для клиента вид. Компаниям приходится нанимать больше специалистов, что увеличивает расходы.

    И еще одна проблема — стремительное развитие больших данных. Регулярно появляются новые инструменты и сервисы для работы (например, Hbase). Бизнесу приходится тратить много времени и средств, чтобы «быть в тренде» и не отставать от развития.

    Таким образом, big data — это совокупность технологий обработки больших объемов информации (сотни терабайтов и более) и сегодня мало кто отрицает их важность в будущем. Их популярность будет расти и распространение в бизнесе увеличиваться. Впоследствии разработают технологии по автоматизации анализа и с big data будут работать не только крупные компании, но и средние с маленькими.

    Хочешь научиться работать с большими данными и расширить знания в аналитике? Записывайся на наш онлайн-курс «Аналитик Big Data». Узнать подробности!

    ProductStar
    Компания
    Реклама
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее

    Комментарии 3

      0
      Примеры использования больших данных


      Пример использования больших данных был дан в известном фильме Сидни Поллака «Три дня Кондора» 1975 года.
      Там как раз показана контора, занимавшаяся обработкой больших данных (причем именно с использованием компьютера).
      Конкретно там искали источники утечек информации о деятельности ЦРУ.
      Т.е. «биг дата» — изначально инструмент разведки.
        0
        В российской банковской сфере большие данные первым начал использовать «Сбербанк». На основе «big data» и биометрической системы в 2014 году они разработали систему идентификации личности клиента по фотографии. Принцип работы очень простой: сравнение текущего снимка с фотографией из базы, которую делают сотрудники при выдаче банковской карты. Новая система сократила случаи мошенничества в 10 раз

        А про это где то прочитать можно? Верится с трудом.
          +1
          Объем. Из названия «большие данные» становится понятно, что они содержат в себе много информации. И это действительно так: компании могут ежедневно получать десятки терабайт различных данных, некоторые — сотни петабайт. То есть «большие данные» не были бы таковыми без объема.

          Было бы интересно узнать про компании, обрабатывающие сотни петабайт в сутки.

          Скорость. Большие данные поступают и обрабатываются из разных источников с высокой скоростью. При отсутствии этого свойства информацию уже нельзя будет назвать «big data». А еще они генерируются без остановки.

          Кхм… а если данные не генерируются без остановки? Например, сделали мы снимки всей поверхности Земли и сложили дабы потом их анализировать. Это уже не Big Data, получается? Кажется, важна скорость обработки данных, а не скорость их генерации.

          Разнообразие. Большие данные содержат в себе информацию, относящуюся к разным типам. Это одно из главных отличий от простых данных — они всегда структурированы и могут быть сразу сохранены в базе данных.

          Я бы посмотрел, как вы «сразу сохраните в базе» петабайт структурированных данных.

          В целом есть ощущение, что автор никогда с большими данными не работал.

          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

          Самое читаемое