SloNN May 2 2024 at 06:00

Как Яндекс создал свою шину данных, чтобы передавать сотни гигабайт в секунду

Easy

7 min

43K

Yandex Cloud & Yandex Infrastructure corporate blogYDB corporate blogHigh performance * Open source * IT Infrastructure *

Roadmap

✏️ Technotext 7

+70

Comments 25

yegreS May 2 2024 at 06:40

В рамках одной транзакции можно записать сообщение и в таблицу и в топик?

SloNN May 2 2024 at 07:56

Мы туда идем. Сделали транзакционное чтение из топиков и запись в таблицы (сценарий процессинга данных из топиков), сейчас пишем код по транзакционной записи в топики (сценарий стриминга изменений наружу).

А у вас в каком сценарии нужно писать и в таблицу и в топик в одной транзакции?

yegreS May 2 2024 at 08:31

Смотрю в сторону упрощения паттерна Transactional outbox.
Изменили сущность в БД, гарантировано отправили доменное событие в шину

alexfilus May 2 2024 at 16:32

Насколько я понял эти же топики используются для репликации, соответственно можно ваше приложение как реплику подключить и гарантировано получить доменное событие. Подключаться можно как по пропиетарному протоколу, так и используя kafka-клиент.

Andrey72 May 3 2024 at 11:09

CDC не рассматривали как вариант? Вроде бы делает то что вы ожидаете

elena_kalinina Feb 3 at 14:37

транзакции топики-таблицы полноценно поддержаны в YDB, и теперь можно упростить паттерн Transactional Outbox, пробуйте https://ydb.tech/docs/ru/concepts/transactions#topic-table-transactions

vadimr May 2 2024 at 07:11

2 HDD (система, логи);
4 NVME (данные).

А из каких соображений система находится на HDD, а не на NVME?

starik-2005 May 2 2024 at 07:44

Имха, система и софт грузятся один раз в память, потом это условно работает несколько миллиардов лет, пока не помрет или не перезагрузится. Зачем там НВМЕ? Для логов 100Мб/с (если это бюджетные диски, но что-то сомневаюсь) потоковой записи вполне должно хватить. Не?

В настоящее время скорость физических операций на дисках HDD достигает 200–300 МБ/с, а на дисках SSD — 600–700 МБ/с. Интерфейс имеет более высокую пропускную способность, что позволяет контроллеру кэшировать и буферизировать обрабатываемые данные. (гугл нарисовал на вопрос)

А рандом там особо не нужен...

vadimr May 2 2024 at 07:46

У меня есть сомнения, что линукс (если это он) грузится один раз в память. Если только они не разворачивают виртуальный ram-диск. Но вроде бы как память сервера можно использовать более производительно.

aozeritsky May 2 2024 at 08:39

Там нужно по сути ядро + один процесс. Уверен, что процесс лочится в памяти с помощью mlock и больше не выгружается на диск.

vadimr May 2 2024 at 08:43

Если ограничиться одним монолитным процессом, что трудно представимо для сложной системы. Скрипты, в частности, не использовать.

splav_asv May 2 2024 at 16:28

Скрипты в Яндексе тоже любят собирать в монобинарь(по крайней мере Питон).

Sap_ru May 2 2024 at 21:41

Линукс не дурак и отлично мапит в память все файлы, к которым обращался. И на самом деле система действительно грузится один раз, дальше могут какие-то вспомогательные скрипты или команды загружаться, но нет ничего страшного если они будут аж 100 мс грузиться. Самое главное, что HDD надёжнее NVME в таких сценариях, реже требует замены и сильно дешевле. В масштабах Яндекса должно прямо заметно выходить.

SloNN May 2 2024 at 07:57

Да, все так. Плюс технически не во все сервера возможна установка 6 NVME, а хочется работать плюс-минус на commodity серверах

onyxmaster May 2 2024 at 08:36

Я с посылом не спорю, но отмечу что 600-700МБ/сек для SSD это устаревшая информация. Диски для PCIe 5.0 умеют больше 13000МБ/сек.

starik-2005 May 2 2024 at 11:03

Ну в этой цитате гугла смысл был больше в том, что ХДД тоже не так уж и плохи при последовательном доступе. Они сильно проигрывают по IOPS, что для логов - текстовый поток данных - малоактуально.

onyxmaster May 2 2024 at 11:17

Я именно потому и написал, что с посылом не спорю, просто уточняю некоторые фактические неточности в самой цитате.

mynameco May 2 2024 at 08:46

Del

domix32 May 2 2024 at 09:12

А™зачем® так™ много® трейдмарок™? Вы же их не продаёте тут.

gurovofficial May 2 2024 at 18:02

У меня на прошлой работе, тоже гигантские обьемы были и я предлагал на митапе тоже самое - отдельную шину данных на аппаратном уровне, но меня никто не поддержал. Аргумент против - что не истратили полностью ресурсы оптимизации. И вот Яндекс это реализовал. А могли бы мы сами сделать и с Яндексом поделиться (уже готовой технологией). Почему никто не смотрит в будущее?

akakoychenko May 2 2024 at 21:32

А могли бы мы сами сделать и с Яндексом поделиться (уже готовой технологией)

Оно ему зачем? Или вы б сделали нечто, что 100500 звезд и форков на гитлабе имело бы? А, если нет, то, зачем брать чужой код, где ещё хз, сколько багов и сколько под себя допиливать?

Loggus66 May 3 2024 at 08:40

Если выпивать 50 грамм каждый раз, когда в тексте встречается

Kafka®

, то можно неплохо надраться.

xkb45bkc4 May 3 2024 at 17:40

750 грамм в одно лицо как никак.

unsweet May 3 2024 at 09:29

Зачастую в этой роли используется система типа Apache ZooKeeper™, которая отвечает за выбор лидера, а затем поступившие данные переносятся на узел хранения с помощью внутренних механизмов репликации.

ZooKeeper еще в версии 2.8 заменили на Metadata Quorum

barloc May 5 2024 at 18:54

20 петабайт на нвме? Богато живете