Comments 10
Во первых, спасибо за статью, очень хорошо сделан обзор разных методологий…
Во вторых, какие опенсоурсные средства вы рассматривали, например, почему вам не подошла Кассандра или HBase?
Ну и последнее, а можно узнать ссылку на сам сервис (можно лично, чтоб не посчитали рекламой), или он еще в проекте?
Во вторых, какие опенсоурсные средства вы рассматривали, например, почему вам не подошла Кассандра или HBase?
Ну и последнее, а можно узнать ссылку на сам сервис (можно лично, чтоб не посчитали рекламой), или он еще в проекте?
Спасибо :)
Сервис не в проекте, это Авито :)
Про опенсорс… в начале уже писал, что выбор технологии немного за рамками статьи… но, если вкратце:
1. нам нужно было, чтобы система заработала быстро. Не было время на овладение и кастомизацию опенсорс инфраструктуры.
2. на тему HBase — данные нужно было не просто хранить, они все, вся совокупность, должны быть доступны для Ad-hoc аналитики. Посредством BI инструментов (Tableau), или посредством SQL. Сейчас у нас сидит чуть больше полудюжины аналитиков, которые, после однодневного обучения, анализируют все наши десятки ТБ информации посредством SQL запросов.
3. на тему Кассанды — вопрос в стабильности, скорости заливки, и, прежде всего, скорости выполнения ad-hoc SQL запросов. За счет сжатия и in-memory алгоритмов вертика выполняет подобные запросы за секунды или, в худшем случае, минуты.
Сервис не в проекте, это Авито :)
Про опенсорс… в начале уже писал, что выбор технологии немного за рамками статьи… но, если вкратце:
1. нам нужно было, чтобы система заработала быстро. Не было время на овладение и кастомизацию опенсорс инфраструктуры.
2. на тему HBase — данные нужно было не просто хранить, они все, вся совокупность, должны быть доступны для Ad-hoc аналитики. Посредством BI инструментов (Tableau), или посредством SQL. Сейчас у нас сидит чуть больше полудюжины аналитиков, которые, после однодневного обучения, анализируют все наши десятки ТБ информации посредством SQL запросов.
3. на тему Кассанды — вопрос в стабильности, скорости заливки, и, прежде всего, скорости выполнения ad-hoc SQL запросов. За счет сжатия и in-memory алгоритмов вертика выполняет подобные запросы за секунды или, в худшем случае, минуты.
Про Vertica интересно все! Пишите больше!
Спасибо за статью, но все очень очень сжато описано. Хотелось бы посмотреть структуры, средства etl, как с данными работают юзеры?
Нюансов очень много, но я теперь лучше понимаю, на чем лучше сфокусироваться в следующей статье.
Там сделаю примеры таблиц основных сущностей — хаба, сателита и линка (терминологию взял из Data Vault), и напишу про то, как устроены ELT процессы на питоне.
Но будут именно иллюстративные примеры, верхнеуровневые, примеров кода автогенерации не обещаю.
Там сделаю примеры таблиц основных сущностей — хаба, сателита и линка (терминологию взял из Data Vault), и напишу про то, как устроены ELT процессы на питоне.
Но будут именно иллюстративные примеры, верхнеуровневые, примеров кода автогенерации не обещаю.
Sign up to leave a comment.
HP Vertica, проектирование хранилища данных, больших данных