Evgeny Vilkov @EvgenyVilkov
Lead Data Architect
Информация
- В рейтинге
- 1 209-й
- Откуда
- Москва, Москва и Московская обл., Россия
- Работает в
- Зарегистрирован
- Активность
Специализация
Database Architect
Lead
SQL
PostgreSQL
Database
Microsoft SQL Server
High-loaded systems
Oracle
Big data
ETL
MSSQL
Проблем с metastore нет.
Они бывают
-CDH 5.14 и ниже
-в инсталляциях Oracle BDA встречаются
Kudu используется как буфер для онлайн загрузки и на kudu отрезано 10% всего. Куда на нем ехать?
Без этой фичи если запрос не попадает под патерн секционирования или в индекс, то идет фулскан
Тот же pivotal пытается сам впилить это сейчас в GreenPlum и обещает в 7ке. До этого правда обещал в 6ке )
Не хватает фильтрации данных на storage уровне.
Размер и конфигурация кластера ADB? Железка Ora приводится в ADB нет. Что с чем сравниваем то? А то может у вас там десяток узлов с 15ю SSD или NVME дисками на сегмент хост.
Как организовали DR контур GP? Эта задача все еще нетривиальная.
По поводу развернутой статьи, вы правы, не хватает тут такого толковых материала. Я уже даже написал, осталось только опубликовать. Надеюсь сделаю в ближайшее время. Нужно сделать последний шаг — согласовать с клиентом либо опубликовать обезличенный клиентский опыт.
В видео варианте по Cloudera можно посмотреть тут, например: www.youtube.com/watch?v=iXoWA9XP2xw&list=PLqYhGsQ9iSEoE10dyEjp5QtVrNo-g92gC
Насчет вашего воспоминания забавного ничего нет. GBC был подрядчиком не 4 года назад, а 2013 году. Но по иронии в той команде я состоял, несмотря на той что в тот момент у вас работало около 250 чел, но занимался исключительно той частью вашего ХД что была на Oracle. Можете взять референс у того кто с вашей стороны руководил вашим подразделением — Алексей Щеглов (у вас давно не работает).
Наверное вряд ли при этом вы являлись экспертами по правильной настройке Impala и Hadoop под Impala. Иначе я не могу объяснить как она могла слить на 1-2 порядка Vertica с учетом того что Impala читает только те блоки, данные которых удовлетворяют соединения и условиям выборки (storage индексы), а в версии 3.4 на CDP появились еще страничные индексы уровнем ниже. Vertica так будет делать (тн SIP фильтр) если у вас сортировка колонки есть и правльная сегментация. Те ФМД вы заранее готовите под свои запросы. При внезапном ad-hoc с hash join Vertica превращается в обычную тыкву.
Другими словами, если сравнивать решение с тз cost per performance, то у Cloudera c Impala в качестве процессингового движка конкурентов нет.
Все остальные дистрибутивы по факту это как раз боль и унижение, включая названными вами отечественный креатив. Именно потому он и позиционируется как часть какой то общей гетерогенной архитектуры в составе которой есть сборка GreenPlum.
Teradata это конечно технологический труп, от которого воняет уже лет 5 как.
По этому вопросу полностью поддержу. Смысла нет никакого, учитывая что шестерка все так же и остается бесплатной с комьюнити версией. Правда на днях закрыли дистрибутив для свободного скачивания на официальном сайте, но никто не мешает ставить со скаченного дистрибутива.
Все отношения с Клаудера могут разруливаться через локального multiple service provider'а и купить саппорт даже в госухе под санкциями не проблема.
Во второй ветке impala наоборот приколы были, когда при отсутствии конкуренции и наличии большого кол-ва тредов Impala начинала поднимать дополнительные сканеры, которые быстро кпирались в лимит запроса. В этом случае надо было ограничивать кол-во сканеров через параметр сессии.
В третьей ветке появился параметр в ресурсном пуле max cap который не выделяет всю память запросу, а задает только верхний предел. Это избавило от проблемы переедания лишней памяти например теми пользователями, которые любили задать максимум чтобы не заморачиваться.
Так же я советовал определиться сколько запросу надо памяти и какой мемлим в итоге суммарный по узлам (mem_lim * кол-во узлов)
8\64 (еще пади и с минимальным кол-вом маунтов на узел) — такие узлы я бы рекомендовал только для спарк обработки и то если вы идете в историю с облаком. Никто вменяемый не будет будет в он прем такие узлы делать и ждать после этого чуда.
Где вы найдете тот же GreenPlum с такими параметрами? Impala — это полноценный MPP движок, работающий над данными HDFS. И сайзить его надо именно с подходом проектирования классических MPP.
Kudu кстати великолепно сожительствует с HDFS под онлайн нагрузкой с доступом из Imapala. Но если вы ищете охеретительно быстрый доступ по ключу то лучше смотреть в сторону Phoenix. Все это есть в сборке CDP.
Те если все таки вы не разобрались это не значит что технология плохая.
Как же тогда интерфейс на медленный HDFS (а правильно все же говорить про паркет да желательно новый который с Page Indices) показывают производительную лучше чем GreenPlum при высококонкурентной нагрузке 50+ одновременных аналитических запросов?
Может вы просто не умеете правильно работать с технологией? Или не умеете делать правильный сайзинг (типа поднимем 100500 ущлов 8 CPU 64 Gb)?
Ну и очень хочется понять как вам так уникально насчитали $6k в месяц, если все ценники официально опубликованы и это можно проверить.
Хм. правда возможно они для бедных восточных стран?
10 улов за 3 года — $240k + налоги. Карл, куку. За такие деньги вы только посмотрите как другие смотрят на Exadata.
Для какой цели вам надо СУБД то закупать?
CDP закрывает все задачи системы интеграции данных в гомогенной архитектуре тк имеет в сборке сервисы на все виды нагрузки.
Если вы не знаете как это сделать, это не означает что это невозможно. Максимум что вам понадобится, Карл, это какой-нибудь постгресик под метаданные.
Удачи вам с k8s+spark когда будете искать команду на 3000-4000 человеко дней с таймлайном год для проекта.
Конкурентов да, по сути больше нет. Все остальные поделки на базе big top с устаревшими версиями не назовешь конкурентами.
С другой стороны, Клаудера обещала выложить исходники CDP. Полгода как просрочили и отчета пока нет.