azathot Jun 23 2014 at 14:44

HP Vertica, проектирование хранилища данных, больших данных

8 min

34K

Big Data * SQL *

+14

Comments 10

akalend Jun 24 2014 at 08:13

Во первых, спасибо за статью, очень хорошо сделан обзор разных методологий…
Во вторых, какие опенсоурсные средства вы рассматривали, например, почему вам не подошла Кассандра или HBase?
Ну и последнее, а можно узнать ссылку на сам сервис (можно лично, чтоб не посчитали рекламой), или он еще в проекте?

azathot Jun 24 2014 at 08:26

Спасибо :)
Сервис не в проекте, это Авито :)
Про опенсорс… в начале уже писал, что выбор технологии немного за рамками статьи… но, если вкратце:
1. нам нужно было, чтобы система заработала быстро. Не было время на овладение и кастомизацию опенсорс инфраструктуры.
2. на тему HBase — данные нужно было не просто хранить, они все, вся совокупность, должны быть доступны для Ad-hoc аналитики. Посредством BI инструментов (Tableau), или посредством SQL. Сейчас у нас сидит чуть больше полудюжины аналитиков, которые, после однодневного обучения, анализируют все наши десятки ТБ информации посредством SQL запросов.
3. на тему Кассанды — вопрос в стабильности, скорости заливки, и, прежде всего, скорости выполнения ad-hoc SQL запросов. За счет сжатия и in-memory алгоритмов вертика выполняет подобные запросы за секунды или, в худшем случае, минуты.

Assorium Jun 24 2014 at 08:24

Про Vertica интересно все! Пишите больше!

yusman Jun 24 2014 at 17:33

Спасибо за статью, но все очень очень сжато описано. Хотелось бы посмотреть структуры, средства etl, как с данными работают юзеры?

azathot Jun 25 2014 at 08:44

Нюансов очень много, но я теперь лучше понимаю, на чем лучше сфокусироваться в следующей статье.
Там сделаю примеры таблиц основных сущностей — хаба, сателита и линка (терминологию взял из Data Vault), и напишу про то, как устроены ELT процессы на питоне.
Но будут именно иллюстративные примеры, верхнеуровневые, примеров кода автогенерации не обещаю.

yusman Jun 26 2014 at 17:20

Подписался! Когда можно ждать следующую статью?
Насчет data vault, если возможно то напишите в стиле «for dummies», пока не совсем понимаю данную архитектуру, но очень хочу в этом разбираться. И умоляю, побольше картинок.

azathot Jun 27 2014 at 09:13

Думаю недели через две.

nitrexin Feb 24 2015 at 13:21

Надеюсь желание не угасло и хватает времени, очень жду статью )

azathot Feb 27 2015 at 14:10

Я ее уже написал, но научную и целиком на английском :)… От формул не протолкнутся и т.п.
Надо попробовать сделать упрощенную и на русском…

Wadime Nov 16 2015 at 10:17

Я бы даже и на английском прочитал с удовольствием )