Комментарии / Профиль Mapar / Хабр

Виктор Езерский @Mapar

Пользователь

ПрофильСтатьиПостыНовостиКомментарии106

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Mapar 11 ноя в 14:40

А указанные в статье доработки Impala доступны в OpenSource или только вашим заказчикам?

Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

Mapar 28 окт в 10:27

Так tpc тесты так и задумывались, только это превратилось в спорт, а со стороны покупателя в шараду, что накрутил вендор, что бы выиграть.

Мне такого форматы статьи гораздо больше нравится, когда не про цифры, а про реальные планы запросов и косяки оптимизатора.

Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

Mapar 28 окт в 10:25

Он бы на join слился, не его это

Low/No-Code ETL vs классический подход: что выбрать бизнесу

Mapar 28 окт в 09:05

Раньше инструменты Low-Code и No-Code ETL использовали в основном технические энтузиасты — аналитики или инженеры, которым было интересно попробовать новый подход для себя или в рамках пилотных проектов.

Вот тут смешно прям, Informatica, ODI, и прочие NiFi, давно корпоративные стандарты.

В целом статья слишком высокоуровневая, для каждого из видов платформ не хватает примеров реальных систем.

Ну и рекламируете свой LowCode - так картинок хоть накидайте. Оно же про визуальное программирование.

ClickHouse уже не один: StarRocks показывает, что lakehouse-аналитика может быть проще и быстрее»

Mapar 14 окт в 10:37

Очередной ChatGPT текст от автора...

Как мы в Циане готовим Data Vault на GreenPlum

Mapar 7 окт в 15:21

Да, через row_number(). На больших сателлитах появляются проблемы. В нашем случае, например, это сателлит с объявлениями, где нужно хранить всю историю.

Вот тут PITR должен помочь...

Как мы в Циане готовим Data Vault на GreenPlum

Mapar 7 окт в 11:20

Хотелось бы понять, что помогло и "обо что ударились" при реализации DV именно на Greenplum?

Как я вижу вы отошли от закрытия записей в саттелитах, что бы не делать update, насколько эффективен механизм определения текущего значения, там как я понимаю оконные функции?

Как мы в Циане готовим Data Vault на GreenPlum

Mapar 7 окт в 11:17

Спасибо за детальный ответ!
Очень хотелось бы от вас более детального рассказа про ваш фреймворк, а не про базу DV.

По удалению, а как с хабами? Если статус трекинг сателлиты?

MSAT - это не несколько сателлитов на хаб, это саттелиты допускающие несколько состояний объекта одновременно (MULTI-ACTIVE SATELLITES), например, не плодя слабые хабы (weak hubs) и линки на них, организовать хранение нескольких телефонных номеров для клиента.

Как мы в Циане готовим Data Vault на GreenPlum

Mapar 7 окт в 09:48

Несколько вопросов:
1. используете ли для генерации структур и/или ETL фреймворк, или все руками?

2. возможны ли у вас сателлиты на линки?

3. как отслеживаете удаление на источнике?

4. используете ли продвинутые техники: MSAT, REF, PITR и так далее?

Можно ли перейти с Oracle или MS SQL на СУБД из Реестра российского ПО без переписывания всей хранимой логики?

Mapar 30 сен в 07:30

Вы так и не ответили как Вы аффилированы с Diasoft?!

Прямое нативное исполнение измененным (работающим по другой грамматике) SQL-интерпретатором.

Это понятно, но под капотом то PostgreSQL, мы знаем что в нем, например:

по другому от Oracle ведет себя проверка unique constraint, чем в Oracle (PostgreSQL проверяет ограничение целостности после обновления каждой строки, а Oracle - в конце команды)
нет undo как в Oracle, и долгие транзакции препятствуют очистке
не аналогов пакетов Oracle и их состояния
нет ассоциативных массивов как в Oracle
существенно медленне чем в MS SQL времемнные таблицы
нет хинтов, и не понятно как реализовать что то вида "LEFT HASH JOIN" из MS SQL

Соответственно когда я писал "опять же очень хотелось понять во что этот пример конвертируется" , я хотел понять во что интерпретатор превращает эти конструкции (какие конструкции PostgreSQL использует) в тех же примерах из вашей статьи и тех примеров, что я написал выше.

Можно ли перейти с Oracle или MS SQL на СУБД из Реестра российского ПО без переписывания всей хранимой логики?

Mapar 26 сен в 08:23

Из статьи не понятно насколько автор аффилирован с Diasoft.

По статье - хотелось бы более детально, что работает, а что нет. Особенно список фич которые не работают.
Пример для Oracle - максимально стерилен и легко переносится средствами миграции - нет состояния пакета, нет блока инициализации, нет ассоциативных массивов, только работа с lob, которая скажем реализована в PGPro. Опять же очень бы хотелось во что этот пример конвертируется.

Отдельный вопрос как решается вопрос с динамическим SQL.

Чем хорош Postgres 18?

Mapar 19 сен в 10:42

pgModeler супер для разработки, на хабре есть статьи как самому собрать.

https://pgmodeler.io/

Если коротко: нормальное графическое проектирование, легко хранится в git, умеет сравнить реальную БД и модель и в обе стороны сгенерировать изменения, включая герерацию DDL.

Проблема маленьких файлов. Оценка замедления S3 и проблем HDFS и Greenplum при работе c ними

Mapar 27 авг в 11:34

В Greenplum файл - это партиция/таблица (для AOCO колонка таблицы/партиции), если записать в таблицу Greenplum 1000 раз по 1 записи и 1 раз по 1000 записей количество файлов не изменится (для AO будет не полностью заполнен блок, но мы же про файлы). В Iceberg - файл отдельный факт модификации таблицы - записать 1 раз 1000 строк - 1 файл, а 1000 раз по 1 строке - 1000 файлов.
Т.е. в Greenplum количество файлов - это элемент планирования и проектирования структуры, а в Iceberg - зависит от нагрузки и политики компекшен.

Мне кажется это уже не техническая статья, а элемент маркетнинга/рекламы своего продукта, отсюда притянутое за уши сравнение с Greenplum, а также комментария про "недостаточный технический опыт" в начале статьи, что на мой взгляд не очень корректно по отношению к автору первоначальной статьи.

Нагрузочное тестирование GP6 vs GP7 vs Cloudberry

Mapar 14 авг в 11:27

Мне кажется тут тему все же нужно разбить на 2 части:

Можно ли заставить BRIN работать на больших объёмах, коллеги показывают что у них не получилось, я предположил что сортировка может помочь, но это надо проверять. Если оно не работает - так и нет предмета для разговора.
Допустим сортировка помогла, тогда мы имеем инструмент и нужно учится его грамотно применять, скажем в финальных витринах, или старых партициях, которые не меняются, т.е. там где количество select существенно превосходят количество insert. Ну и отдельная история запросы которые уже делают внутри неявную сортировку (например, group by). Но все это интересно лишь в том случае, если суметь заставить индекс работать.

Нагрузочное тестирование GP6 vs GP7 vs Cloudberry

Mapar 13 авг в 19:15

А если на вход подать отсортированноу последовательность при создании таблицы партиции, insert as select order by.

Моя идея была в том, что в зависимости от сортировки данных селективность brin индекса меняется и это можкт учитываться в статистике и gporca.

Нагрузочное тестирование GP6 vs GP7 vs Cloudberry

Mapar 13 авг в 15:07

Спасибо за интересную статью!

Хотел уточнить по BRIN индексу проводилось ли упорядочение (сортировка) данных до построения индекса, если нет, возможно это причина его не использования?

Миграция с Firebird на PostgreSQL. Что может пойти не так? Часть 1

Mapar 9 июл в 09:01

Нет, HoT update тоже влияет, как на место так и время работы.Но просто меньше, чем update индексированных полей.

Агрегированная витрина для дэшборда

Mapar 4 июн в 12:08

Это же postgres судя по тегам, кто мешает просто написать ROLLUP или CUBE или GROUPING SETS в GROUP BY?

Зачем изобретать то что есть уже в SQL?

Задачи на собеседованиях. Денежные переводы в SQL. Обновление счетов и уровни изоляций

Mapar 10 мая в 14:22

Мне кажется автор просто не удачно назвал статью, тем самым притянув не ту аудиторию. Статья вообще не про "денежные переводы". И тут я понимаю Вы все прекрасно расписали.

В моем понимании, статья только как выполнить конкурентный update без lost update и не более того, даже другие проблемы типа фантомных чтений не рассматриваются.

Но безусловно интересно почитать детали Вашей реализации.

Задачи на собеседованиях. Денежные переводы в SQL. Обновление счетов и уровни изоляций

Mapar 10 мая в 12:12

Вопрос наверное не ко мне, а к автору статьи.

Собственно он статьей на Ваш вопрос и отвечает, что делать и какие патерны серилизации применять.

2 3 4 5 6