HP Vertica: СУБД для анализа «больших данных»

Original author: https://www.facebook.com/MUKTajikistan
  • Translation
Одна из проблем современного бизнеса это переизбыток данных – по разным хранилищам, базам, файловым серверам и пр. разбросанно огромное количество информации. Информации много, но решения нужно принимать оперативно.

Инструменты работы с такими большими данными не успевают за их ростом. Среди таких проблем:
— высокая доля ручного труда,
— невозможность реализовать анализ в режиме реального времени,
— низкая точность поиска и отсутствие согласованности,
— неэффективная обработка неструктурированной информации.

Решением может стать специализированная база данных HP Vertica, предназначенная для анализа больших данных в режиме реал-тайм, работая намного быстрее, чем традиционные СУБД.

Работа с данными
HP Vertica показывает лучшие результаты по хранению и сжатию данных, из-за того что использует столбцы вместо строк. Использование кластерных технологий позволяет линейно увеличить производительность системы, подключая больше ресурсов «на лету», снижая объем хранения и сокращая время поиска. Хранение данных по столбцам дает возможность считывать с дисков не всю запись, а только нужные поля, участвующие в запросе.

Сжатие данных в столбцах проводится за счет записи числа повторений вместе со значением поля, дельта-кодирования последовательных значений и сжатия LZO Lempel–Ziv–Oberhumer для столбцов с большим количеством уникальных значений и неотсортированных колонок. Кроме того, применяются специальные алгоритмы компрессии для чисел в формате с плавающей запятой, дат и ряда других типов полей. Все это позволяет обеспечить степень сжатия информации свыше 90 %. Важным аспектом является возможность в большинстве случаев выполнять операции c данными без декодирования, что не только уменьшает требуемый объем хранилища и число обращений к дискам, но и снижает нагрузку на процессоры и память.



Ускорение обработки большого количества параллельных запросов осуществляется и за счет использования разных порядков сортировки в различных копиях столбцов в разных проекциях, выбираемых автоматически.

Агрессивная компрессия позволяет хранить множество копий одних и тех же колонок в разных «проекциях» базы данных, которые представляют собой наборы столбцов, содержащихся вместе. Возможно хранение не только различных копий на разных дисках, но и разделение «проекции» по значению одного из полей на сегменты, располагающиеся и обрабатывающиеся на разных машинах.

Для работы с уже накопленными данными Vertica поддерживает SQL и снабжена стандартным SQL-интерфейсом (ANSI SQL-99), имеющим расширения для работы с аналитическими запросами. Платформа совместима с механизмами очистки данных и составления отчетности, а также с решениями бизнес-аналитики компаний Cognos, Informatica, Business Objects и SAS. Это облегчает перенос баз данных и использование других аналитических приложений, имеющих стандартный SQL-интерфейс, коннекторы ODBC, JDBC или ADO.NET.



Аналитический «кран»
В августе 2014 года вышла значительное обновленная версия HP Vertica 7.1, получившая в продолжении традиции большого строительства название Dragline – «Скребковый экскаватор». Основным новшеством этой версии стали:
— поддержка прямой работы с неструктурированными данными,
— анализ текстов,
— гео-пространственная аналитика,
— улучшенное управление рабочей нагрузкой,
— поддержка проекций-агрегатов и многое другое.

В HP Vertica 7 реализована специальная область хранения и обработки неструктурированных данных Flex Zone. Она дает возможность создавать Flex-таблицы, загружать в них информацию из файлов CSV, JSON и других и выполнять к ним запросы, соединяя эти данные в запросах с реляционными таблицами Vertica. Данные в этих таблицах хранятся на узлах кластера в специальном формате, но по тем же принципам, что и реляционные данные БД. К неструктурированным данным возможно применение сжатия, зеркалирования и сегментирования.

Преимущество Flex Zone заключается в том, что она не является внешним решением, интегрированным с Vertica, а представляет собой реализацию нативной поддержки неструктурированных данных. Это дает гарантию скорости работы при гибридной обработке в запросах с использованием таблиц структурированных и неструктурированных данных.



Возможности кластеризации
Отказоустойчивость HP Vertica обеспечивается специальным механизмом создания копий данных (K-Safety). Механизм гарантирует максимально доступный уровень отказоустойчивости в режиме 24х7х365. Кластер способен без остановки выполнения запросов выдержать сбои нескольких узлов. Основной сегмент данных и его копия сохраняются на К узлах кластера. При отказе каких-либо узлов система продолжает функционировать, используя копии сегментов Доступ к этим данным осуществляется автоматически. Для замены неисправного узла исходные данные восстанавливаются по копиям сегментов, которые хранятся на работоспособных узлах.

Помимо этого, кластеризация позволяет пропорционально увеличить производительность и обеспечить не только масштабирование, но и отказоустойчивость. Поскольку кластер не содержит разделяемых ресурсов, то не тратится время на ожидание их блокировок и, следовательно, нет необходимости в средствах управления распределенными блокировками. Архитектура Vertica предусматривает также отказ от ведения журналов, поскольку журналирование зачастую становится узким местом при загрузке данных. Вместо этого в системе реализована поддержка множества копий колонок на разных узлах кластера.

Так как чаще всего необходима аналитика в реальном времени, в Vertica предусмотрен специальный механизм непрерывной загрузки данных без снижения скорости чтения. Запись данных ведется в специальную область оперативной памяти WOS (Write Optimized Store), а чтение происходит с дисков – из области хранения типа ROS (Read Optimized Store), причем информация в WOS не сортируется и не индексируется. При этом информация, находящаяся в WOS, доступна для получения результатов запроса еще до переноса в ROS.

Перенос записей из WOS в ROS происходит большими блоками, автоматически и асинхронно с помощью специального процесса перемещения записей Tuple Mover. Так как этот процесс оперирует целиком всей WOS, то перемещение записей может быть очень эффективным, с одновременной сортировкой многих записей и переносом их на диск в пакетном режиме.



Преимущества использования
Статистика уже внедренных платформ показывает, что работа с базами данных в среднем ускоряется до 1000 раз. Средний показатель сжатия информации по сравнению с другими системами составляет 10:1, а загрузка данных для выполнения дальнейшего анализа осуществляется в 10 раз быстрее и сравнима с режимом, близким к реальному времени.

В отличие от имеющихся на рынке решений, у HP Vertica нет привязки к конкретной аппаратной платформе – пользователь сам выбирает требуемое оборудование. Стоит разве что отметить, что существуют рекомендованные конфигурации.

Поскольку Vertica изначально предназначена для работы в горизонтально масштабируемой среде и лицензируется не по процессорам, а по объему данных, загруженных в систему, ее легко интегрировать в облачные среды, например, в VMware vSphere или Amazon Elastic Compute Cloud. Преимуществом виртуализированной среды является быстрота развертывания, так как все узлы в комплексе Vertica одинаковы и готовый образ виртуальной машины мгновенно устанавливается на имеющемся оборудовании.

HP Vertica поставляется с программным обеспечением Database Designer для автоматической настройки системы под требования заказчика. Vertica обладает простыми средствами интеграции и возможностями отчетности через SQL, JDBC, ODBC, ADO.NET. Имеется также бесплатная версия Vertica Community Edition, позволяющая аналитикам создавать собственные приложения и обмениваться опытом с сообществом пользователей Vertica.



Пример из жизни
Одна из самых крупных на данный момент инсталляций СУБД Vertica выполнена в компании, занимающейся разработкой сетевых игр для социальных сетей. Система обслуживает около 200 млн активных игроков, до 40 млн играющих одновременно. Ежедневный поток данных составляет 3 Тбайт. 200 машин в кластере обеспечивают мгновенный анализ и предоставление игрокам информации в форме рекомендаций. Инсталляция работает в режиме 24х7х365 без «окон» на загрузку данных, анализируя в реальном времени поступающие и исторические данные. Впрочем, и это – далеко не предел. Самый крупный клиент – Facebook с объемом данных в несколько петабайт и кластером в несколько сот узлов. Скорость загрузки данных в кластер сегодня составляет 40 Тб\час.



Мы дистрибутируем решения HP в Украине, Грузии и Таджикистане. Цены, вопросы — пишите: abo@muk.ua, или в личку.
Каталог всех решений и сервисов дистрибьютора МУК
Авторизованные учебные курсы Hewlett-Packard
Ближайшие курсы по Hewlett-Packard:
16-17 февраля 2015, (Киев, УЦ МУК) — Управление инфраструктурой посредством HP OneView
11-13 февраля 2015 (Киев, УЦ МУК) — HP BladeSystem Virtual Connect
23-24 февраля 2015 (Киев, УЦ МУК) — Implementing MSA 2000 Storage Solutions
МУК-Сервис — все виды ИТ ремонта: гарантийный, не гарантийный ремонт, продажа запасных частей, контрактное обслуживание
МУК
61.27
Компания
Share post

Comments 11

    +4
    Мне кажется вы как-то неверно понимаете идею Хабра…
      +3
      А это — норма :) В смысле на Хабре масса таких компаний, которые не понимают, но: «деньги же мы платим — давайте писать в блоге хочть что-нибудь!». Так и появляется всякая чушь в ленте. Когда высосанные из пальца, но хотя бы свои идеи заканчиваются, наступает время переводов с помощью гугл-транслейта.
        –3
        Вы, пожалуйста, прежде чем говорить все хорошо проверьте. 1. Перевод сделан человеком, а не гугл-транслейтом. 2. Какие идеи закончились? Что в этом тексте высосано из пальца? Здесь все по делу 3. У нас есть свой блог, который мы ведем в Таджикистане, на таджикском, а здесь разместили русскую версию обзора. Мы читали правила хабра, где написанно, что копипаст запрещен. И, естественно, мы делаем ссылку на свой же блог в фейсбуке.
        –3
        Разьясните? В чем идея хабра по-вашему, особенно идея корпоративных блогов на хабре?
          +4
          Безусловно, корпоративный блог позволяет приоткрыть завесу над деятельностью вашей компании, вы ведь платите деньги за подписку (как я понимаю). Но попробуйте сделать это не так топорно, как в коммерческой рассылке или как у юного HR-специалиста.

          Оставьте у людей иллюзию честной статьи, а не втюхиваемой рекламы. Это просто совет.
            –1
            Что здесь рекламного? Только написанно что эта БД работает быстрее, и объяснены технические (не рекламные) особенности работы оборудования, и, собственно, объяснено почему решение работает быстрее. Что здесь рекламного?
              –1
              Искренне спрашиваем — что в статье нечестного? Где в статье обман?
                +3
                Еще обмана не хватало! Вы поймите, пресс-релиз и статья на Хабре — это немного разные вещи.
                  0
                  Вы сказали «втюхивание» — подразумевается, что где-то обман.

                  Это пресс-релиз? Что-то многовато и слишком развернуто для релиза. Да, стиль текста такой, — но все по делу, ничего лишнего.
                    +1
                    Втюхивание — не моё, это другой комментатор так выразился. Но, пожалуй, я с ним согласен: не обязательно ведь врать напропалую, можно говорить полуправду — и это тоже будет воспринято негативно. Излюбленный прием небольших, но очень амбициозных компаний на Хабре — написать о космических технологиях, которые использует вендор (один из 40-а вендоров в прайс-листе дистрибутора), об Очень Больших Клиентах, опять же вендора, а не собственных.
                    Что же вы не расскажете о своих успешных проектах в Таджикистане, как там терабайты данных носятся туда-сюда каждый день?

                    Посмотрите на блоги сотовых операторов на Хабре — пишут о своих собственных успехах и факапах, а не о том, какую железяку Huawei в Сеуле показал на выставке или как в Токио терабайт передали через 5G-модем за минуту.
                      +1
                      Не будем спорить, мы вас услышали. Можем только сказать что мы — не сотовый оператор (у нас есть такие клиенты), и не интегратор, мы — дистрибьютор, со своими особенностями работы.

                      Второе. Не о всяких проектах расскажешь. Будет подходящий для хабра проект в Таджикистане — обязательно расскажем.

                      Третье. Оборудование недавно на рынке, как вы думаете оно уже у многих клиентов стоит? Иногда нужно просто проинформировать, мы считаем, что мы это сделали основательно и качественно.

        Only users with full accounts can post comments. Log in, please.