Как стать автором
Обновить
10
3
Evgeny Vilkov @EvgenyVilkov

Lead Data Architect

Отправить сообщение
а ведь кто-то это сидел и переводил!
Черт, это все ты с неработающим admission :)
Используем конечно. Про это написано в статье. Как можно не использовать при такой высококонкурентной нагрузке? Работает. Работает хорошо. Impala не падает. Совсем. В CDH 6 и CDP 7 работает еще лучше.
Проблем с metastore нет.
Они бывают
-CDH 5.14 и ниже
-в инсталляциях Oracle BDA встречаются

Kudu используется как буфер для онлайн загрузки и на kudu отрезано 10% всего. Куда на нем ехать?
Аналог storage индекса — предикат запроса фильтрует данные при сканировании.
Без этой фичи если запрос не попадает под патерн секционирования или в индекс, то идет фулскан
Тот же pivotal пытается сам впилить это сейчас в GreenPlum и обещает в 7ке. До этого правда обещал в 6ке )
тогда первый вопрос снимается, но второй остается
А нормальная компрессия уже появилась разве?

Не хватает фильтрации данных на storage уровне.
Сравнение с Ora c GP всегда интересная тема, но вопросы остаются:
Размер и конфигурация кластера ADB? Железка Ora приводится в ADB нет. Что с чем сравниваем то? А то может у вас там десяток узлов с 15ю SSD или NVME дисками на сегмент хост.

Как организовали DR контур GP? Эта задача все еще нетривиальная.
Ну а я на проекте оракловом был до 2014 года и ушел в другую команду еще раньше чем Леша из йота.
Опыта работы с Vertiсa у меня ничуть не меньше вашего и помощь мне не требуется. Причем реального проектного, со слоями трансформации данных, витринами, аналитическими слоями и тд. Про чатик знаю, но не состою.

По поводу развернутой статьи, вы правы, не хватает тут такого толковых материала. Я уже даже написал, осталось только опубликовать. Надеюсь сделаю в ближайшее время. Нужно сделать последний шаг — согласовать с клиентом либо опубликовать обезличенный клиентский опыт.

В видео варианте по Cloudera можно посмотреть тут, например: www.youtube.com/watch?v=iXoWA9XP2xw&list=PLqYhGsQ9iSEoE10dyEjp5QtVrNo-g92gC

Насчет вашего воспоминания забавного ничего нет. GBC был подрядчиком не 4 года назад, а 2013 году. Но по иронии в той команде я состоял, несмотря на той что в тот момент у вас работало около 250 чел, но занимался исключительно той частью вашего ХД что была на Oracle. Можете взять референс у того кто с вашей стороны руководил вашим подразделением — Алексей Щеглов (у вас давно не работает).
«Предположу, что Вы лишь умозрительно допустили соответствие любых продуктов Hadoop условию «в adhoc запросах оперировать >1 трлн строк за разумное время в минутах». Насколько понимаю, это лицензионное название решения, где есть используемая нами Impala и производительность там ни разу ни на уровне Вертики отличаясь на 1-2 порядка. Хотя железо идентичное по CPU, RAM, сети (но для Vertica используются гораздо более производительные диски и нод в полтора раза больше).»

Наверное вряд ли при этом вы являлись экспертами по правильной настройке Impala и Hadoop под Impala. Иначе я не могу объяснить как она могла слить на 1-2 порядка Vertica с учетом того что Impala читает только те блоки, данные которых удовлетворяют соединения и условиям выборки (storage индексы), а в версии 3.4 на CDP появились еще страничные индексы уровнем ниже. Vertica так будет делать (тн SIP фильтр) если у вас сортировка колонки есть и правльная сегментация. Те ФМД вы заранее готовите под свои запросы. При внезапном ad-hoc с hash join Vertica превращается в обычную тыкву.

Другими словами, если сравнивать решение с тз cost per performance, то у Cloudera c Impala в качестве процессингового движка конкурентов нет.
Мне кажется у вас весьма поверхностные представления о возможностях Cloudera Hadoop. Это коробка полностью решает задачи классического DWH при правильных архитектурных подходах, а не только Data Lake. В том числе OLTP и time series нагрузку.
Все остальные дистрибутивы по факту это как раз боль и унижение, включая названными вами отечественный креатив. Именно потому он и позиционируется как часть какой то общей гетерогенной архитектуры в составе которой есть сборка GreenPlum.
Teradata это конечно технологический труп, от которого воняет уже лет 5 как.
Ерунда какая то. Что 5ка есть community что 6ка. Community edition нет только у CDP 7. Единственная договоренность которая может быть с cloudera — это саппорт через локального провайдера поддержки, но при условии если поддержка покупается напрямую у cloudera, а не через реселера (IBM->МОНТ->клиент), например. К версии это никакого отношения не имеет. Хочется все же комментарии автора увидеть.
не догоняю, в чем может быть преимущество 5.х без супорта над 6.3 без супорта?

По этому вопросу полностью поддержу. Смысла нет никакого, учитывая что шестерка все так же и остается бесплатной с комьюнити версией. Правда на днях закрыли дистрибутив для свободного скачивания на официальном сайте, но никто не мешает ставить со скаченного дистрибутива.

Все отношения с Клаудера могут разруливаться через локального multiple service provider'а и купить саппорт даже в госухе под санкциями не проблема.
Ну так надо правильно настроить admission control. Если памяти свободной не будет, то запрос встанет в очередь. В профиле запроса можно увидеть, поискав строку admission, стразу он выполняться начал или ожидал высвобождения ресурсов.
Во второй ветке impala наоборот приколы были, когда при отсутствии конкуренции и наличии большого кол-ва тредов Impala начинала поднимать дополнительные сканеры, которые быстро кпирались в лимит запроса. В этом случае надо было ограничивать кол-во сканеров через параметр сессии.
В третьей ветке появился параметр в ресурсном пуле max cap который не выделяет всю память запросу, а задает только верхний предел. Это избавило от проблемы переедания лишней памяти например теми пользователями, которые любили задать максимум чтобы не заморачиваться.
Переподписки памяти на хосте между импалой и ярном нет?
Так же я советовал определиться сколько запросу надо памяти и какой мемлим в итоге суммарный по узлам (mem_lim * кол-во узлов)
В соседней теме вы мне так и не сказали характеристики узлов между прочим.
8\64 (еще пади и с минимальным кол-вом маунтов на узел) — такие узлы я бы рекомендовал только для спарк обработки и то если вы идете в историю с облаком. Никто вменяемый не будет будет в он прем такие узлы делать и ждать после этого чуда.

Где вы найдете тот же GreenPlum с такими параметрами? Impala — это полноценный MPP движок, работающий над данными HDFS. И сайзить его надо именно с подходом проектирования классических MPP.

Kudu кстати великолепно сожительствует с HDFS под онлайн нагрузкой с доступом из Imapala. Но если вы ищете охеретительно быстрый доступ по ключу то лучше смотреть в сторону Phoenix. Все это есть в сборке CDP.

Те если все таки вы не разобрались это не значит что технология плохая.
Как же я тогда на Impala получаю 1млн SQL запросов в сутки на 14 узлах при утилизации CPU процентов так на 30?

Как же тогда интерфейс на медленный HDFS (а правильно все же говорить про паркет да желательно новый который с Page Indices) показывают производительную лучше чем GreenPlum при высококонкурентной нагрузке 50+ одновременных аналитических запросов?
Может вы просто не умеете правильно работать с технологией? Или не умеете делать правильный сайзинг (типа поднимем 100500 ущлов 8 CPU 64 Gb)?

Ну и очень хочется понять как вам так уникально насчитали $6k в месяц, если все ценники официально опубликованы и это можно проверить.
Хм. правда возможно они для бедных восточных стран?
On prem узел Cloudera в год стоит $8k в год.
10 улов за 3 года — $240k + налоги. Карл, куку. За такие деньги вы только посмотрите как другие смотрят на Exadata.

Для какой цели вам надо СУБД то закупать?
CDP закрывает все задачи системы интеграции данных в гомогенной архитектуре тк имеет в сборке сервисы на все виды нагрузки.
Если вы не знаете как это сделать, это не означает что это невозможно. Максимум что вам понадобится, Карл, это какой-нибудь постгресик под метаданные.
Очень странное заявление про Hadoop который не на взлете и убийственный ценник. Посчитайте TCO и cost per performance и вы поймете что конкурентов по сути у Cloudera нет. Именно CDP с их перечнем сервисов, а не других сборок.

Удачи вам с k8s+spark когда будете искать команду на 3000-4000 человеко дней с таймлайном год для проекта.
Ну бесплатного в этом мире ничего не бывает, это же понятно. Нет CDH открытого — идите в Apache Big Top. Нет нужных сервисов в Big Top, идите за покупкой саппорта в Cloudera. Как компания может развивать за просто так?
Конкурентов да, по сути больше нет. Все остальные поделки на базе big top с устаревшими версиями не назовешь конкурентами.

С другой стороны, Клаудера обещала выложить исходники CDP. Полгода как просрочили и отчета пока нет.

Информация

В рейтинге
1 209-й
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Зарегистрирован
Активность

Специализация

Database Architect
Lead
SQL
PostgreSQL
Database
Microsoft SQL Server
High-loaded systems
Oracle
Big data
ETL
MSSQL