Распределённые системы *

Нюансы проектирования распределенных систем

Немезида для хаоса: как мы построили событийную архитектуру для 500+ интеграций

11 мин

6.3K

Блог компании ЯндексВысоконагруженные системы * Анализ и проектирование систем * Распределённые системы * Серверная оптимизация *

Когда у компании много сервисов и данных, то лучше всего иметь план Б на любую ситуацию, например когда нужно быстро оптимизировать ресурсы и работать в режиме «минус один дата‑центр» без просадок, в то время как утилизация серверов при этом стремится к 100%. Смертельный номер? Вполне посильная задача, с которой справилась команда Яндекс Go.

Мы провели аудит и поняли, что у нас очень много синхронных походов из критичных сервисов в некритичные, а ещё и поллинг. И это требовало внедрения событийной модели. Тысяча микросервисов, 150 команд разработки, несколько языков программирования, и у каждого разработчика своё представление о том, как правильно читать сообщения из Kafka. Библиотека, которую мы раздали командам, быстро бы обросла форками, заплатками и костылями.

За шесть месяцев командой из шести человек мы превратили эту библиотеку в централизованную платформу Немезида. Сейчас на ней крутится больше 500 интеграций, а новую можно запустить меньше чем за четыре часа.

Меня зовут Алексей Терентьев, я руководитель одной из служб отдела эффективности Яндекс Go. В этой статье я расскажу, как мы прошли путь от простого «прочитал — обработал — закоммитил» к по‑настоящему масштабной архитектуре: со всеми граблями, факапами и конкретными решениями.

+21

torkve 10 мар в 11:30

Платформа для 50000 приложений: как собрать инфраструктуру и выжить

17 мин

6.8K

Блог компании Yandex Cloud & Yandex InfrastructureБлог компании Конференции Олега Бунина (Онтико)Высоконагруженные системы * Распределённые системы *

Привет, Хабр! Я — Сева, разработчик в Yandex Infrastructure. Уже больше десяти лет я занимаюсь разработкой внутреннего облака Яндекса, которое охватывает около 150 000 физических хостов и поддерживает все сервисы платформы.

Сегодня я представлю вам практический кейс по обеспечению очень высокой надёжности комплексной системы на примере собственного облака Яндекса. Принципы обеспечения надёжности будут продемонстрированы на всех уровнях архитектуры системы, чтобы в итоге сложилась картина, как достичь наивысшей отказоустойчивости. Статья написана по мотивам моего доклада для HighLoad++.

+11

alizar 9 мар в 09:01

Децентрализованный ИИ и частные облака

Простой

6 мин

10K

Блог компании RUVDS.comИскусственный интеллектРаспределённые системы * Разработка публичных облаков * Облачные вычисления *

Мнение

В последнее время из общего ИИ-пузыря выделилось несколько хайповых тем:

• автономные ИИ-агенты и другие инструменты, которые якобы помогают человеку выполнять рутинные задачи и экономить время (это обман, на самом деле всё наоборот: загруженность человека с ИИ сильно возрастает — увеличивается интенсивность труда, усталость, риски выгорания и требования к производительности),
• частные облака для «локального» инференса,
• децентрализованный ИИ, который будет работать на компьютерах пользователей.

С агентами всё понятно, а вот частные облака и P2P-суперинтеллект можно рассмотреть внимательнее.

+36

danin 8 мар в 17:49

ЗОЖ 3.0: информационная архитектура здоровья, или Почему тело — это не железо, а распределённая система

23 мин

9.6K

Распределённые системы * Научно-популярноеМозгЛайфхаки для гиковЗдоровье

Допустим, вы — типичный обитатель этого ресурса. Сидите по 10 часов перед экраном, компенсируете магнием и омегой-3, мониторите HRV через Oura или Apple Watch, слушаете Хабермана, ходите в зал три раза в неделю, спите по трекеру. Вы, возможно, даже знаете, что такое глимфатическая система и зачем нужен глубокий сон. И всё равно — что-то не складывается. Может энергии не хватает, или шея хронически зажата, сон нестабилен, тревога фоновая, а последний ОРВИ длился три недели вместо пяти дней.

Знакомо? Тогда у меня для вас новость: вы дебажите симптомы, а не архитектуру.

Современный биохакинг — это попытка чинить систему перебором драйверов. Для обычного пользователя — нормальная стратегия. Но вы же не обычные пользователи. Вы — люди, которые умеют читать логи, понимают, что такое архитектура, и знают, что перебор драйверов без понимания, какая подсистема сбоит, — это не дебаг, а карго-культ. Так вот: у организма есть архитектура. И её можно описать.

Я потратил изрядное количество времени на то, чтобы собрать воедино результаты шести независимых областей нейронауки, которые последние 30 лет, каждая по-своему, приходят к одному и тому же выводу: информационные состояния высшего порядка реально, измеримо, через конкретные биохимические каскады влияют на физиологию. И написал научную статью (PDF на английском), в которой эти разрозненные наблюдения собраны в единый фреймворк.

Эта статья на Хабре — попытка рассказать о том же самом человеческим языком, с IT-аналогиями, практическими выводами и без единой мантры.

+14

aeremenok 5 мар в 09:31

Распил монолита в 2026: а может, не надо? Как AI переворачивает закон Конвея

Средний

14 мин

7.6K

Распределённые системы * Анализ и проектирование систем * Высоконагруженные системы * Микросервисы * Искусственный интеллект

Аналитика

«Значит, смотрите. Payment-service ходит в booking-service, но только через API gateway, который дёргает auth-service, а тот валидирует токен в Redis, который шарит с notification-service…» — вы, объясняя архитектуру новому разработчику.

Десять лет мы разматывали нитки между сервисами на доске, как Чарли из «В Филадельфии». 42% компаний уже тихо сворачивают микросервисы обратно. Istio не осилил микросервисную архитектуру собственного control plane. Бывший CTO GitHub называет это «главной архитектурной ошибкой десятилетия».

А потом пришёл AI, которому не нужны ни митинг на 15 человек, ни три года в проекте, чтобы понять, почему бронирование — это цепочка из 12 HTTP-вызовов вместо одного function call.

Разбираю шесть причин дробления монолитов. Спойлер: половину из них AI уже отменил.

+13

pmswga 27 фев в 12:08

Применяем TLA+ на практике

Средний

18 мин

6.8K

Блог компании InfoWatchИнформационная безопасность * Высоконагруженные системы * Алгоритмы * Распределённые системы *

Кейс

Привет, Хабр! Меня зовут Сергей, я работаю в компании InfoWatch разработчиком на продукте ARMA Стена (NGFW). Подробнее о том, что такое ARMA Стена, можно прочитать тут.

В этой статье я хочу поделиться опытом применения метода формальной верификации в решении практической бизнес-задачи.

Сразу оговорюсь, что в статье используется TLA+, без введения в инструмент, чтобы не увеличивать объём статьи. Подробнее про инструмент вы можете почитать на сайте создателя, тут и тут. Необходимые объяснения даются по ходу изложения.

Статья состоит из двух частей:

1) Что такое формальная верификация и где она применятся

2) Решение бизнес-задачи в NGFW

Верифицировать статью

+19

oleg-jukovec 18 фев в 13:13

От ручного конфига к автоматическому мониторингу: обзор новой библиотеки go-discovery для Tarantool 3.0

Средний

16 мин

8.5K

Блог компании VK TechБлог компании VKРаспределённые системы * Tarantool * Высоконагруженные системы *

Когда у вас 50+ узлов Tarantool в кластере, ручное управление соединениями превращается в боль. Узлы падают, реплики становятся мастерами, новые инстансы добавляются — и все это нужно отслеживать в реальном времени.

Рассказываем, как мы спроектировали go-discovery — библиотеку для автоматического обнаружения узлов кластера Tarantool 3.0.

+45

oleg-jukovec 9 фев в 10:00

Go: как получить до 5 млн RPS с одного экземпляра Tarantool

23 мин

8.7K

Блог компании VK TechБлог компании VKРаспределённые системы * Tarantool * Высоконагруженные системы *

Привет, Хабр. Меня зовут Олег Жуковец. Я руководитель команды «Экосистема» в Tarantool R&D компании VK Tech.

Многие разработчики сталкивались с ситуацией, когда запросы к базе данных выполняются быстро, индексы настроены, оборудование справляется с нагрузкой, но конечное приложение все равно работает медленно. Нередко проблема кроется не в самой базе данных, а в некорректно реализованном клиенте, который может стать «бутылочным горлышком» для всего ИТ-ландшафта. Именно поэтому оптимизация клиентов для работы с БД имеет важное значение.

В этой статье я на примере коннектора к Tarantool расскажу о доступных и простых оптимизациях клиента для БД, которые позволяют минимизировать аллокации и число горутин, чтобы выкрутить скорость обработки запросов (RPS) на максимум.

+58

ph_piter 27 янв в 08:57

Книга: «System Design II. Распределенные системы. Подготовка к сложному интервью»

2 мин

12K

Блог компании Издательский дом «Питер»ИнтервьюРаспределённые системы * Анализ и проектирование систем *

Привет, Хаброжители! «System Design. Распределенные системы. Подготовка к сложному интервью» — это практическое руководство для инженеров и архитекторов, которое поможет справиться с самыми трудными техническими заданиями. Алекс Сюй и Сан Лэм предлагают стратегию, проверенную на практике, пошаговые алгоритмы и реальные примеры, позволяющие научить вас проектировать масштабируемые системы — от новостной ленты до поисковых сервисов и чат-приложений.

+12

GrishinAlex 21 янв в 08:05

Memory wall: что это и почему важно для индустрии хранения данных

Средний

10 мин

9.1K

Блог компании SelectelОблачные сервисы * Хранение данных * Распределённые системы * Облачные вычисления *

Аналитика

Серверы становятся мощнее и больше каждый год. Количество ядер растет, векторные блоки для параллельной обработки массивов данных одной инструкцией расширяются, частоты давно уперлись в физические ограничения. Но вычислительная плотность продолжает увеличиваться. При этом производительность памяти и систем хранения растет существенно медленнее. В результате в реальных системах процессор все чаще простаивает, так как технически готов выполнять инструкции, но вынужден ждать, пока данные будут доставлены из хранилища.

Это явление давно известно в архитектуре вычислительных систем как разрыв между процессором и памятью (или Memory Wall). Сегодня он определяет производительность серверов, баз данных, платформ данных и AI/ML-платформ сильнее, чем выбор конкретной модели процессора или видеокарты. А в будущем определит то, какие продукты и решения индустрия будет использовать для решения задачи хранения данных.

Привет! Я Александр Гришин, руководитель по развитию продуктов хранения данных в Selectel. В этой статье я попробую подробно разобрать, что такое этот ваш разрыв между процессором и памятью, как он сформировался, как устроена иерархия памяти в сервере и почему эти ограничения подталкивают индустрию к новым архитектурам и решениям. Погнали!

+49

stepan-karpov 21 янв в 08:02

Когда математика встречает бэкенд, или Как рассчитать RPS на поллинговую ручку

10 мин

11K

Блог компании ЯндексМатематика * Высоконагруженные системы * Анализ и проектирование систем * Распределённые системы *

Загадка: во сколько раз увеличится RPS на ручку поллинга, если уменьшить интервал поллинга с 5 минут до 2?

Ответ: в 2,5 раза!

Привет! Меня зовут Стёпа, и я разработчик в Яндекс Go. Я хочу поделиться тем, как математика может встречаться в самых неожиданных местах — даже в такой рутинной задаче, как настройка интервала поллинга. В статье я рассмотрю модельный пример, который встречался каждому разработчику, и просчитаю его с математической точки зрения, использовав базовые факты из теории вероятностей и статистики.

+35

devozerov 19 янв в 07:30

Как мы переписали ядро Trino на Rust

20 мин

8.7K

Блог компании CedrusDataBig Data * Data Engineering * SQL * Распределённые системы *

CedrusData Engine — это lakehouse-движок, основанный на Trino. На реальных нагрузках наш продукт рутинно превосходит по производительности другие технологии (Trino, Doris, Dremio, StarRocks) в 1.5-3 раза, с еще более значительным отрывом от устаревших Greenplum и Impala. Эти результаты — следствие постоянных вложений в разработку новейших техник обработки больших данных. В этой статье я расскажу про проект Oxide — одну из наших ключевых инициатив прошлого года по переписыванию ядра Trino с Java на Rust.

+15

avovana7 12 янв в 12:17

Как микросервисы стали тормозом. И почему мы вернулись к монолиту

Простой

12 мин

35K

Микросервисы * Распределённые системы * Анализ и проектирование систем *

Кейс

Перевод

Изначально микросервисная архитектура решила реальную проблему - изолировала очереди и убрала “head-of-line blocking”, когда один упавший адресат тормозит всех.

Но дальше начался рост репозиториев, расхождение версий общих библиотек, рискованные обновления и операционная нагрузка. К тому же каждый сервис обладал своим профилем ресурсов и ручной настройки автоскейла.

В итоге команда объединила 140 сервисов в один монолит, собрала монорепо и стабилизировала тесты через запись/воспроизведение HTTP-трафика.

+10

fisher 24 дек 2025 в 10:53

Eventually-consistent СУБД — всё?

Средний

17 мин

24K

Облачные сервисы * DevOps * Распределённые системы * Базы данных * Программирование *

В начале 2010-х в профессиональном сообществе разработчиков и архитекторов распределенных систем широко обсуждалась идея, что мир баз данных вступает в новую эру. На фоне успехов крупных интернет-сервисов термин BASE начал использоваться как противопоставление классическому ACID. Хайп вокруг NoSQL, CAP-теоремы и масштабируемых систем породил лозунги вроде «SQL умер», «ACID — для банков, а мы делаем веб», «eventual consistency — это нормально».

Однако спустя полтора десятилетия крупные облачные и корпоративные платформы по-прежнему говорят языком транзакций, изолированных операций и строгой согласованности.

Что же произошло? Была ли «битва ACID и BASE» реальным технологическим разломом или лишь отражала ограничения своего времени?

В этой статье мы разберём, как возникли ACID и BASE, почему BASE быстро стал популярен и что на самом деле означает тезис «победил ACID» в 2020-е годы.

+92

a_savitskiy 17 дек 2025 в 07:48

Shrink кластера и Iceberg-коннектор. Что нового?

Средний

29 мин

5.4K

Блог компании GreengageOpen source * PostgreSQL * Высоконагруженные системы * Распределённые системы *

Обзор

В этой статье мы поделимся некоторыми подробностями работы над новыми функциями Greengage, такими как shrink и expand кластера, улучшение вставки для foreign-таблиц и подготовка к интеграции с Apache Iceberg.

+11

sbun 10 дек 2025 в 07:01

Не Кафкой единым: как наладить асинхронный обмен сообщениями между микросервисами

15 мин

10K

Блог компании ЯндексРаспределённые системы * Программирование * Базы данных * Клиентская оптимизация *

Всем привет! Меня зовут Сергей Бунатян, я руководитель службы в Техплатформе Городских сервисов Яндекса.

На сегодняшний день существует довольно много брокеров сообщений. Наиболее часто используемыми в индустрии, пожалуй, будут те, которые, реализуют парадигму очереди сообщений. Самых известных представителей вы наверняка знаете, — Apache Kafka и RabbitMQ, а внутри Яндекса широко используется Logbroker. И, тем не менее, как нетрудно догадаться из этого вступления, мы зачем‑то решили написать свой брокер сообщений.

Сегодня я расскажу про нашу систему, которая называется STQ — Sharded Tasks Queue. По названию системы можно было бы подумать, что это ещё один сервер очередей, однако это будет не совсем верно. STQ — это скорее message broker.

В этой статье я постараюсь рассказать о том, какие задачи перед нами стояли и как это нас привело к решению написать что‑то своё. А заодно поделюсь опытом эксплуатации нашей системы и расскажу про влияние STQ на опыт разработчиков.

+29

JCode_TV 8 дек 2025 в 11:10

Работаем быстро, храним экономно: в деталях о механизме охлаждения для Tarantool DB 3.0

Средний

7 мин

9.9K

Блог компании VK TechБлог компании VKРаспределённые системы * Tarantool * Хранение данных *

Кейс

Компании ежедневно генерируют большие объемы данных, но далеко не вся информация одинаково важна: со временем многие данные становятся менее востребованными, продолжая занимать дорогие и высокопроизводительные накопители (SSD, RAM). В результате хранение таких «холодных» данных обходится неоправданно дорого, поскольку потребность в постоянном доступе к ним минимальна.

Решение проблемы — технология охлаждения данных, которая предполагает перемещение редко используемой информации на более дешевые и емкие носители, то есть файлы остаются доступными, но перестают нагружать дорогие и быстрые устройства. Именно такой механизм охлаждения данных мы добавили в Tarantool DB 3.0.

Привет, Хабр. Меня зовут Сергей Фомин. Я старший менеджер продукта Tarantool DataBase. В этой статье я расскажу, как именно мы реализовали механизм охлаждения и какие бизнес-выгоды могут получить компании при его использовании.

+60

m03r 4 дек 2025 в 07:00

Как Temporal без боли решает привычную проблему распределённой бизнес-логики

Средний

13 мин

18K

Блог компании ЯндексРаспределённые системы * Проектирование и рефакторинг * Программирование * Go *

Меня зовут Миша, я бэкенд‑разработчик в платформе Яндекс Еды, и в этой статье я расскажу о принципах работы Temporal: почему мы его выбрали как основу нового процессинга, в чём его сильные стороны и как изменилась наша жизнь после перехода.

Раньше для такого требовались: стейт‑машина с полудюжиной состояний, очереди и воркеры, обработчики на каждое событие и блокировки от race conditions. Теперь всё это описано в одной функции, которая вообще выглядит как псевдокод.

Магия? Нет, Temporal.

С тех пор как мы перенесли процессинг на Temporal, разработка существенно упростилась. Пользователь оплачивает заказ, ресторан его подтверждает и готовит, курьер забирает и привозит — ровно это и отражено в коде. Ну разве не прелесть?

+69

milo 1 дек 2025 в 11:10

11 граблей распределенных систем: личный опыт backend-разработчика с практическими советами

Средний

11 мин

14K

Блог компании Cloud.ruРаспределённые системы * Облачные сервисы * Высоконагруженные системы *

Туториал

Всем привет! Меня зовут Сергей, я занимаюсь backend-разработкой уже больше 15 лет, а последние несколько лет разрабатываю объектное хранилище для ваших файлов в компании Сloud.ru. Мы пишем свое собственное распределенное хранилище данных с нуля.

В этой статье я хочу рассказать про грабли, которые часто вижу в проектах и на которые периодически наступаю сам. Рассказываю, как их избежать, чтобы сделать ваши сервисы более стабильными и предсказуемыми. Статья будет полезна junior- и middle-разработчикам.

Читать статью

+18

kmoseenk 19 ноя 2025 в 14:16

Паттерн Transactional Outbox: от теории до продакшена

Средний

11 мин

11K

Блог компании OTUSАнализ и проектирование систем * Распределённые системы * Микросервисы * Операционные системы

Обзор

Перевод

Transactional Outbox часто подаётся как простой рецепт: записали событие в отдельную таблицу, фоновый воркер разберётся. В реальности именно этот «временный костыль» неожиданно превращается во вторую очередь со своей конкуренцией за блокировки, дубликатами, нарушенным порядком и тихо растущими таблицами.

В статье разберемся, что именно начинает ломаться в outbox-паттерне под нагрузкой, как выбирать и блокировать события в разных СУБД, почему ретранслятор стоит отделить от API и какие гарантии доставки на самом деле получаются. А ещё — почему консюмеры должны быть идемпотентными, как следить за внутренней очередью в базе и не узнавать о проблемах уже после инцидента.

Разобрать outbox

+19

2 3 ...

20 21

Распределённые системы *

Немезида для хаоса: как мы построили событийную архитектуру для 500+ интеграций

Новости

Платформа для 50000 приложений: как собрать инфраструктуру и выжить

Децентрализованный ИИ и частные облака

ЗОЖ 3.0: информационная архитектура здоровья, или Почему тело — это не железо, а распределённая система

Распил монолита в 2026: а может, не надо? Как AI переворачивает закон Конвея

Применяем TLA+ на практике

От ручного конфига к автоматическому мониторингу: обзор новой библиотеки go-discovery для Tarantool 3.0

Go: как получить до 5 млн RPS с одного экземпляра Tarantool

Книга: «System Design II. Распределенные системы. Подготовка к сложному интервью»

Memory wall: что это и почему важно для индустрии хранения данных

Когда математика встречает бэкенд, или Как рассчитать RPS на поллинговую ручку

Как мы переписали ядро Trino на Rust

Как микросервисы стали тормозом. И почему мы вернулись к монолиту

Ближайшие события

Eventually-consistent СУБД — всё?

Shrink кластера и Iceberg-коннектор. Что нового?

Не Кафкой единым: как наладить асинхронный обмен сообщениями между микросервисами

Работаем быстро, храним экономно: в деталях о механизме охлаждения для Tarantool DB 3.0

Как Temporal без боли решает привычную проблему распределённой бизнес-логики

11 граблей распределенных систем: личный опыт backend-разработчика с практическими советами

Паттерн Transactional Outbox: от теории до продакшена