Комментарии / Профиль EvgenyVilkov / Хабр

Evgeny Vilkov@EvgenyVilkov

Technical Director, Lead Data Architect

Подписчики

ПрофильСтатьи12ПостыНовостиКомментарии331

ClickHouse не тормозит, но не умеет джойнить. Убиваем миф

EvgenyVilkov 19 мар в 09:03

Разбудите меня когда CH пройдет хотя бы TPCDS

Почему Lakehouse нельзя построить без Spark

EvgenyVilkov 7 мар в 20:06

Они сделали ставку на всё.

Почему Lakehouse нельзя построить без Spark

EvgenyVilkov 7 мар в 20:05

Потому что StarRocks данные читает и пишет через один CN. Те имеет явный bottleneck. Хорошие новости - в апрельском релизе в Data Ocean Nova выйдет доработка StarRocks и он сможет читать через JDBC распределено через все доступные CN узлы. Также выйдет коннектор для GreenPlum которые будет читать GP с сегментов через CN узлы распределенно.

Trino есть не в каждой установке клиентской. Не все пользователи делают выбор в пользу этого движка. Держать Trino только для загрузки данных - не эффективно. А Spark есть в 19 из 20 промышленных установок по текущей статистике.

S3 Архипелаг: как мы в Диасофте построили свое объектное хранилище

EvgenyVilkov 27 фев в 03:17

25 гбс на 4 nvme вы по прежнему упёрлись в сеть. По прежнему дальше можно не читать.

S3 Архипелаг: как мы в Диасофте построили свое объектное хранилище

EvgenyVilkov 25 фев в 13:13

4 NVMe Диска и сеть на 10Гб. Дальше можно не читать. Вы просто уперлись в сеть и ваш тест не релевантный

Объектные хранилища: чем заменить minio?

EvgenyVilkov 13 янв в 16:41

Как человек который работал и с озон и с минио отвечу так - те кто изначально пошел в минио, озон рассматривать не будет.

В Сбербарнке и минио есть помимо озона и успешно эксплуатируется.

Кандидат должен быть таким же высокоприизводительным и не требовательным к железу как минио. Пока что по концепции ближе всего к этому RustFS, но он еще слишком сыроват для серьезного прода.

Автор вроде как рассматривает чисто бесплатные альтернативы без фстэка и прочей казуистики. Платные минио форки и российские есть с веб-мордой и полной поддержкой, если уж на то пошло.

Зарплаты разработчиков в России 2025: анализ по грейдам, стекам и городам

EvgenyVilkov 1 янв в 10:41

Выборка из 600 чел. Такое надо в заголовок выносить чтобы чувствительные души не общались по результатам прочтения

Trino в Авито два года спустя: от движка к полноценной экосистеме

EvgenyVilkov 29 дек 2025 в 20:23

В 2017 году группа китайцев "форкнула" Impala и ушла делать Doris. Мотивация была такой - ходим update delete timeseries? но не хотим идти в Kudu, а хотим в Mesa. Сами разработчики это назвали "идеологическим наследием". В процессе "перехода" перешли на свой собственный формат хранения и оптимизатор и стали shared-nothing СУБД по сути. За эти годы сообщество придумало OTF и они стали стандартом рынка в итоге Дорис начал переобуваться в ОТF форматы и по факту стал теперь догонять Импала в части поддержки открытых форматов.

СтарРокс форкнулся от Дорис в 2020г чтобы тоде уйти в свой формат со своим видением, но чуть раньше чем Дорис поняли что надо ориентироваться на OTF а не свои волшебные форматы.

Очень забавно читать материалы коллег, которые на голубом глазу рассказывают про уникальные векторные вычисления в Старрокс, которые на самом деле он унаследовал от бабушки антилоппы которая их умела в 2013 году.

СтарРокс как движок над S3 в настоящий момент в продакшине можно использовать только на чтение для bi adhoc доступа. ELT точно нет! С локальным стореджем можно жить, но не без приколов.

Trino в Авито два года спустя: от движка к полноценной экосистеме

EvgenyVilkov 29 дек 2025 в 17:52

Какая у вас тут интересная дискуссия получается, коллеги.

Как персона, имеющая прямое отношение у указанным выше ссылкам с полной ответственностью заявляю что смена методики на любую другую не поменяет расклад сил в тестировании. Проверялось неоднократно и на пром данных, и на синтетических тестах и на расчетах ELT и на чем угодно.

Однако, ознакомившись со следующей статье вашего цикла, у меня есть ощущение, что на чем бы вы не обращались к данным, вы упираетесь в инфраструктуру S3. Поэтому, разницы особую можно и не заметить между движками.

Ваш выбор - это ваш выбор. Вы выбирали под своим критерии и значит вам это решение большо подошло. Хоть и переплатили за compute мощности, но зато увереннее себя чувствуете тк можете что то развивать своими силами. Это нормально же.

По поводу Spark. Без него вам нормально пока не выжить, если хотите перейти окончательно на iceberg как на целевой формат. Только Spark может предложить полное реальное работающее обслуживание iceberg формата.

Trino в Авито два года спустя: от движка к полноценной экосистеме

EvgenyVilkov 29 дек 2025 в 17:38

Там еще и третий тест добавили в Click Bench и тч со сравнением ClickHouse, работающим над S3. https://habr.com/ru/companies/datasapience/articles/978430/

В части StarRocks вы правы только от части - он умеет работать над S3, но не все операции с открытыми форматами данных на нем доступны, о чем умалчивают или не понимают некоторые российские вендоры.

EvgenyVilkov 29 дек 2025 в 08:24

Greetings. You'll also likely appreciate the previous two posts regarding Starrocks :)

Обзор Lakehouse: архитектура, которая объединяет порядок и хаос

EvgenyVilkov 24 дек 2025 в 19:33

Теперь к внедрениям - в РСХБ нет Lakehouse, есть Hadoop с HDFS без разделения storage и compute.. В БСПБ нет Lakehouse, есть Hadoop c HDFS без разделения storage и compute.

Обзор Lakehouse: архитектура, которая объединяет порядок и хаос

EvgenyVilkov 24 дек 2025 в 19:33

Почему у вас федеративные запросы у Impala желтые, а у StarRocks зеленые? Возможности Impala и Starrocks в части федеративных запросов одинаковые вообще-то.

Тот же вопрос и про Zero-ETL

Все критические компоненты Impala (координатор и внутренний каталог) имеют HA конфигурацию, но у вас отмечено желтым. Trino к слову может иметь только один Coordinator-узел и это является большой проблемой. Поэтому там не то чтобы желтенько быть должно, там красненько.

Почему у вас в Impala нет ACID интересно, когда оно есть?

Почему у вас у Impala нет cloud-native масштабируемости, когда она есть?

К слову про Starrocks: до сих пор нет поддержки Update Delete Megre для Iceberg, поддержка обслуживания iceberg не полная, нет поддержка alter table операций для OTF, и местами доходит до смешного, например - невозможно сделать insert table overwrite над просто секционированной паркетной таблицей.

Не нужно писать материалы, изучая предмет статьи по интернету.

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

EvgenyVilkov 11 ноя 2025 в 14:48

Добрый день. Они доступны только клиентам Data Ocean Nova

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

EvgenyVilkov 11 ноя 2025 в 08:07

Позвольте объяснить вам свою позицию - На российском рынке присутствуют другие игроки-вендоры, разрабатывающие и продающие свои решения, которые утверждаю что умеют в Starrocks, умеют в Impala, Spark и Trino. У меня нет намерений обучать конкурентов. Это наше конкурентное преимущество - продемонстрировать клиенту не только доработками и улучшениями open source кода, но и уметь решать проблемы, настраивать систему (ПО, окружение, оборудование) на максимальную и стабильную пропускную способность для решения его (клиента) задач. При этом зрелый клиент не выбирает решение по публикациям в интернете, а приглашает всех участников продемонстрировать на практике.

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

EvgenyVilkov 25 окт 2025 в 18:17

ну вот именно поэтому платформа на одном движке - это проблема либо на старте либо отложенная. Не просто так же в среднем каждый клиент-заказчик использует больше 2х движков.

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

EvgenyVilkov 25 окт 2025 в 14:16

StarRocks поддерживает не только Select, но и Insert в Iceberg. Но не поддерживает Update, Merge, Delete.

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

EvgenyVilkov 25 окт 2025 в 11:08

В нашем решении StaкRocks используется как lakehouse-движок. Это означает что он использует только открытый табличный формат Iceberg и файловый формат хранения. Никаких "индексов starrocks" нет и в помине. Вы путаете Starrocks с использованием проприетарным закрытым родным форматов хранения. Поэтому, к сожалению, ваш комментарий не валидный на 100%.

Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

EvgenyVilkov 24 окт 2025 в 09:17

Владимир, конфигурация тестовых стендов, как и было обещано, указана.

Этого достаточно, чтобы проявив экспертизу и богатый опыт, изучив документацию, через несколько итераций тестирования, прийти к индивидуальным параметрам движков для оптимальной производительности.

Со списком "не ванильных" опций и изменений движков можно ознакомиться на сайте.

Как мы в Циане готовим Data Vault на GreenPlum

EvgenyVilkov 8 окт 2025 в 08:53

Задумывались ли о том чтобы не тащить данные в GP в процесить на озером? Все таки 32 сегмент хоста GP в облаке это дорого

2 3 ...

16 17

В рейтинге: Не участвует

Откуда: Москва, Москва и Московская обл., Россия

Работает в: GlowByte

Зарегистрирован: 29 января 2021

Активность: сегодня в 10:28

Архитектор баз данных

Ведущий

SQL

PostgreSQL

Базы данных

Microsoft SQL Server

Высоконагруженные системы

Oracle

Большие данные

ETL

Microsoft SQL

Информация

Специализация