Комментарии / Профиль kolegich / Хабр

Олег Кабанов@kolegich

Пользователь

Подписчики

Как мы ускорили заливку данных в YDB в 40 раз

kolegich 13 сен 2025 в 21:23

Тоже сначала так думали, поэтому и добавили вторичный индекс по customer_id при проектировании.
В структуре данных SSTable все партиции отсортированы по первичному ключу, в нашем случае это customer_id+tag, значит данные упорядочены сначала по customer_id, а если customer_id одинаковый, то по tag.
По части первичного ключа - по customer_id работает та же оптимизация как и по индексу первичного ключа (по полю tag уже так работать не будет). Поэтому вторичный индекс был излишним!

Кстати, в YDB вторичный индекс может быть async, это хорошо поднимает производительность, когда можно пожертвовать консистентностью. Но координация вставки всё-равно съедает CPU.

Как мы ускорили заливку данных в YDB в 40 раз

kolegich 13 сен 2025 в 12:39

Спасибо за вопрос! Вы правы, они могут попасть не в одну партицию, а в несколько - 2 или 3.

Мы пишем раз в N часов и данных накапливается за это время несколько десятков тысяч строк. Сортировка по первичному ключу (включающему ключ шардирования) группирует записи так, что в один батч попадают строки с близкими диапазонами ID.

YDB использует диапазонное шардирование. Это значит, что непрерывный диапазон ключей часто обслуживается одной таблеткой (процессом на узле). Поэтому отсортированный батч из 500 записей попадает не в 500 разных партиций, а всего в несколько (1-3).

Это снижает:

Сетевые издержки (батч летит на 1-2 узла, а не на 500)
Нагрузку на координатор (ему нужно управлять не сотней мелких транзакций, а одной-двумя)
Нагрузку на CPU

Как мы ускорили заливку данных в YDB в 40 раз

kolegich 13 сен 2025 в 12:26

Вы правы, сам факт того, что после удаления лишнего всё ускорилось, действительно ожидаем. Но ключевая неожиданность была не в «что делать», а в «почему именно это было проблемой».

Мы видели высокую утилизацию CPU и спайки латенси при записи, проблема оказалась архитектурная: когда в одном батче данные пишутся сразу во все партиции, это создает большую нагрузку на координатор (он должен атомарно управлять записью в каждую из них), это съедало все ресурсы CPU и не позволяло масштабироваться.

Пока координатор был загружен на 80-90% этими мелочами, он точно так же не мог быстро отвечать и на запросы на чтение — отсюда и спайки латенси на всех операциях. Убрав такой паттерн нагрузки (сортировкой данных перед вставкой), мы радикально разгрузили CPU.

Как помогла сортировка?
Если взять несколько десятков тысяч строк и сделать сквозную сортировку, то в каждом батче по 500 строк окажутся самые близкие значения PK. Поэтому они попадут в одну или две партиции (SSTable формат).

Как мы ускорили заливку данных в YDB в 40 раз

kolegich 13 сен 2025 в 12:11

Добрый день! Да, вы верно уловили подход.

Изначальный дизайн и тестирование дали нам хороший и ожидаемый на старте результат. Но когда данные существенно выросли (в 4 раза), мы столкнулись с повышенным потреблением CPU, которого не заметили при нагрузочном тестировании. Цифра 40x — это именно сравнение производительности до и после оптимизации под возросшие объемы, а не с самой первой реализацией.

Аварии как опыт #2. Как развалить Elasticsearch при переносе внутри Kubernetes

kolegich 29 янв 2021 в 05:11

Очень захватывающая и полезная статья, спасибо. Немного удивился увидев, что попадая в pod — сразу root, это намеренно оставлено?

Расследование: как обезличенные данные становятся персональными и продаются на сторону

kolegich 10 сен 2020 в 14:52

Согласен, когда мощность шифруемого множества небольшая — ничего не поможет

Расследование: как обезличенные данные становятся персональными и продаются на сторону

kolegich 10 сен 2020 в 13:19

Согласен и удивлен почему площадки типа яндекса не придумали схему асинхронным шифрованием, например rsa.

Расследование: как обезличенные данные становятся персональными и продаются на сторону

kolegich 10 сен 2020 в 10:05

Вы наверно не до конца поняли суть: хэшируется только номер телефона в формате, который указан Яндексом в открытом виде. Никаких джейсонов сервис Яндекса не поддерживает, только хэш от числа определенного формата, на сколько понял

Расследование: как обезличенные данные становятся персональными и продаются на сторону

kolegich 10 сен 2020 в 10:04

Наверняка, по такой же схеме работает и Мейл.ру и другие крупные IT организации?

В Облака на Zeppelin: опыт создания облачного сервиса Mail.Ru Group

kolegich 5 фев 2014 в 08:43

Кот важный просто, а вот у программиста волосы дыбом встали почему-то.

Делаем вебсокеты на PHP с нуля

kolegich 22 янв 2014 в 10:45

Автор не дремлет, уже не выполняется.

Асинхронный JavaScript (книга)

kolegich 29 дек 2013 в 08:25

Хром. Версия 29.0.1547.62 m

Асинхронный JavaScript (книга)

kolegich 29 дек 2013 в 08:19

Тест:


var obj = {};
console.log(obj);
obj.foo = 'bar';

Вывод в браузере


Object {}

Я пока не читал книгу, просто интересно было проверить знания. Почему он должен был вывести наполненный объект?
Книгу обязательно прочитаю.

Как заставить себя работать?

kolegich 23 дек 2013 в 06:49

Много буков, как заставить себя прочитать? /сарказм/

Хабр Inc. — Будущее здесь. Будущее это Мы!

kolegich 18 дек 2013 в 13:26

Считаю, что если такая площадка появится — она однозначно привлечёт много внимания и обязательно «выстрелит». Я бы однозначно в чём-нибудь поучаствовал в свободное время.

Зеленоглазый интернет

kolegich 12 дек 2013 в 14:37

Едва ли, вышка находится далековато от города, не должно там быть много пользователей. Причём я нахожусь в радиусе километра от неё.

Зеленоглазый интернет

kolegich 12 дек 2013 в 14:30

Подскажите, пожалуйста: у меня 3g/4g основной домашний интернет, других способов связи доступных поблизости нет. Если скорость днём достигает 3 мбит/с, то вечером в основном 20 кб/с, с адскими задержками, есть ли способы улучшить скорость путём улучшения качества сигнала (покупкой железки, допустим)? Опытным путём выявил, что от расположения модема: дом, улица, крыша — скорость не меняется.

Играем в программирование

kolegich 26 ноя 2013 в 08:34

А девочка: зато константы в интерфейсах можно создавать, забавно!

+41

Упал Github.com

kolegich 3 окт 2013 в 09:47

Чтобы нагрузка ещё возросла.

Поздравляем с Днём программиста!

kolegich 13 сен 2013 в 08:02

Ещё мне снилось, что я себя дописывал. Код был такой простой, интересный и я всё думал: вот, хорошо, что программист, могу себя дописать, сделать удобней.