Распределённые системы *

Нюансы проектирования распределенных систем

Статьи Посты Новости Авторы Компании

Bright_Translate 30 окт 2023 в 16:00

О сложности и монолитах

Простой

18 мин

6.7K

Блог компании RUVDS.comАнализ и проектирование систем*Управление разработкой*Распределённые системы*Микросервисы*

Аналитика

Перевод

Изображение сгенерировано с помощью DALL·E. Запрос: a complex monolith in a server room, with the faces of IT consultants with suits engraved in it with twisted faces, mathematical formulations about complexity floating around, and with a mysterious malevolent godlike presence in the background (комплексный монолит в серверной с искажёнными лицами IT-консультантов. Вокруг витают сложные математические формулы, а на фоне присутствует мистическое злобное богоподобное существо).

Статья посвящена анализу и сравнению двух моделей построения систем — монолитной и с разделением на микросервисы. В ней мы с разных сторон оценим оба этих подхода и связанную с ними сложность, убедившись в превосходстве последнего. Представим микросервисы и прочие архитектуры в реалистичном свете, не воскрешая то, что должно оставаться мёртвым.

Читать дальше →

+33

Bright_Translate 29 окт 2023 в 13:00

Архитектура MMO: источник истины, потоки данных, узкие места I/O и их устранение

Простой

6 мин

7.5K

Блог компании RUVDS.comРазработка игр*Распределённые системы*

Обзор

Перевод

По воле абсудрных обстоятельств, которые сможет понять лишь тот, чьё хобби полностью совпадает с основной работой, недавно я оказался вовлечён в разработку MMO-игры.

Несмотря на то что это приложение идеально вписывается в концепцию «распределённых архитектур», конкретные детали (как большие, так и малые) превращают, казалось бы, простой для любого грамотного инженера процесс проектирования в невероятную головную боль.

Читать дальше →

+51

vaintrub 24 окт 2023 в 12:01

Отказоустойчивая архитектура: почему Tarantool не падает?

8 мин

6.7K

Блог компании VKВысокая производительность*Администрирование баз данных*Распределённые системы*Tarantool*

Туториал

Основная проблема в высоконагруженных приложениях — отказоустойчивость. Нагрузка с упавших узлов в кластере должна переключаться на живые. Это кажется несложной задачей, но на практике появляется много подводных камней. Мы с yngvar_antonsson потратили много времени на поддержку различных кластеров, построенных на Tarantool и наших кластерных фреймворках Cartridge и TDG, и сегодня расскажем вам, как обеспечивается отказоустойчивость в наших приложениях. Будет интересно всем, кто хочет подробнее узнать, как устроен фейловер в Cartridge, и тем, кто хочет узнать о нашем опыте создания автоматических фейловеров.

Читать дальше →

+41

panyukovnikolay 22 окт 2023 в 14:31

Распределённые транзакции

Средний

10 мин

31K

Java*Распределённые системы*Микросервисы*

Из песочницы

Перевод

На собеседованиях на позицию middle/senior разработчика часто задают вопросы по распределенным транзакциям в микросервисной архитектуре.

Мой коллега однажды посоветовал отличную статью со сравнением основных паттернов для решения проблем распределённых транзакций.

Я проработал статью и подготовил конспект простыми словами, местами дополнил информацией из других источников и полезными ссылками.

Перед тем как начать, делюсь ссылкой на мой блог в телеграм, где я раньше всего публикую материалы по java разработке и личной эффективности.

+20

PashaPodolsky 4 окт 2023 в 09:25

Неограниченный доступ к знаниям: библиотека Стандартных Шаблонных Конструкций

Средний

9 мин

21K

Поисковые технологии*Читальный залРаспределённые системы*Будущее здесьIPFS*

Обзор

Есть много причин почему доступ научным статьям и книгам должен быть свободным:

Во-первых, это прекрасно

Во-вторых...

+54

jirfag 27 сен 2023 в 10:00

Хороший ретрай, плохой ретрай, или История одного падения

Средний

17 мин

37K

Блог компании ЯндексВеб-разработка*Анализ и проектирование систем*Распределённые системы*Микросервисы*

✏️ Технотекст 2023

Порой простое и очевидное решение может потянуть за собой хвост проблем в будущем. Например, добавление ретраев.

Меня зовут Денис Исаев, и я работаю в Яндекс Go. Сегодня я поделюсь опытом решения проблем с отказоустойчивостью из-за ретраев. Основано на реальных инцидентах в системе из 800 микросервисов.

Этот пост — продолжение вымышленных историй о разработчике Васе, который несколько лет назад разбирался с идемпотентностью в распределённых системах. Теперь перед ним новые задачи — получится ли справиться с ними в этот раз? Давайте узнаем.

+152

Tuy4ik 25 сен 2023 в 09:01

Пробиваем дыры в NAT

Сложный

14 мин

24K

Децентрализованные сети*Анализ и проектирование систем*Сетевые технологии*Распределённые системы*Сетевое оборудование

Из песочницы

Перевод

NAT - механизм, создающий множество проблем для P2P коммуникации, в силу того, что нередко адрес пира может не иметь доступного из любой точки мира, "белого" адреса. Существует ряд способов обхода NAT, но их документация, равно как и данные об их надежности, достоинствах и недостатках оставляет желать лучшего, а потому мы рассмотрим наиболее простой, и в то же время надежный метод - "hole punching".

+26

NorthDragon 8 сен 2023 в 08:37

Распределённые снапшоты: определение глобального состояния распределённых систем

Сложный

19 мин

2.1K

Блог компании СберАдминистрирование баз данных*Распределённые системы*

Перевод

Наша команда продолжает развивать Platform V DataGrid — распределенную базу данных в оперативной памяти для высокопроизводительных вычислений. В последнем релизе мы реализовали инкрементальные снапшоты, которые быстро снимаются, сохраняют транзакционную целостность и ~~почти~~ не влияют на общую производительность системы.

В рамках работы над этой фичей мы изучили несколько классических статей по распределённым системам, перевода которых на русский ~~кажется~~ не существует. Всех, кому интересна тема распределённых систем, приглашаю под кат.

+12

GrishinAlex 29 авг 2023 в 14:17

Нужна ли вам Kafka? Разбираемся в технологии и собираем простое приложение на базе managed-решения

16 мин

21K

Блог компании SelectelPython*Администрирование баз данных*Хранение данных*Распределённые системы*

FAQ

✏️ Технотекст 2023

Kafka — стильная, модная, молодежная технология, которую разработала в 2011 году компания LinkedIn и значительно усовершенствовал Apache Software Foundation. Представляет собой надежный, масштабируемый и устойчивый инструмент для обработки и передачи данных в режиме реального времени — шину данных.

Но нужно ли внедрять технологию в угоду моде или амбициям вашего продуктового менеджера? Под катом расскажу про сильные стороны Kafka и задачи, в которых она раскрывается по максимуму. Также напишем быстрое приложение на базе Kafka-as-a-service, которую мы недавно релизнули в Selectel.

Читать дальше →

+65

Sivchenko_translate 19 авг 2023 в 13:34

Простые радости вертикального масштабирования

13 мин

3.5K

Программирование*Алгоритмы*Big Data*Распределённые системы*

Перевод

В последние 20 лет архитекторы программных и аппаратных систем перепробовали различные стратегии, которые позволили бы решать проблемы, связанные с большими данными. Пока программисты усердно переписывали код, приспосабливая его для горизонтального масштабирования на множество машин, железячники впихивали на каждый чип всё больше и больше транзисторов и ядер, чтобы увеличить объём работы, осуществимый на каждой машине.

Как подтвердит любой, кому когда-либо доводилось проходить собеседование по программированию, при наличии арифметической и геометрической прогрессии геометрическая всегда возобладает. При горизонтальном масштабировании расходы растут линейно (арифметически). Но по закону Мура вычислительные мощности со временем растут экспоненциально (геометрически). Это означает, что можно несколько лет ничего не делать, а затем масштабировать систему вертикально и получать улучшение на порядки. За двадцать лет плотность транзисторов возросла в 1000 раз. Это значит, что такая задача, для решения которой в 2002 году потребовались бы тысячи машин, сегодня выполнима всего на одной.

+11

Sivchenko_translate 13 авг 2023 в 23:01

S3 не сразу строилось

18 мин

6.7K

Программирование*Amazon Web Services*Big Data*Хранилища данных*Распределённые системы*

Перевод

Привет, Хабр. Вашему вниманию предлагается сокращённый перевод эпичного поста под авторством Энди Уорфилда, вице-президента и заслуженного инженера в компании Amazon, занятого разработкой S3. Пост основан на его пленарном выступлении с конференции USENIX FAST ‘23 и затрагивает три различных аспекта, касающихся выстраивания и эксплуатации такого огромного хранилища данных как S3. Если пост окажется интересным - рассмотрим вариант перевести и вторую часть

+18

neshkeev 11 авг 2023 в 02:07

Обработка больших и очень больших графов

Средний

18 мин

3.8K

Алгоритмы*Распределённые системы*

Однажды ко мне обратилась одна крупная ~~фруктовая~~ телефонная компания с просьбой подготовить для них курс по Apache Spark продвинутого уровня, и в нем обязательно должен быть раздел про обработку графов (Neo4j не предлагать). На тот момент я знал про классические алгоритмы обработки графов на базе DFS (поиск в глубину) и BFS (поиск в ширину). При этом неотъемлемым условием применения того или иного подхода является локальная поддержка стека (DFS) или очереди (BFS). Следовательно, классические алгоритмы можно применять для обработки графов, которые умещаются в память одной машины.

В современном мире данные накапливаются очень быстро, и классические подходы, ориентированные на обработку графов в рамках одной машины, перестают работать, а значит высока потребность в алгоритмах распределенной обработки графов. Интуитивно можно предположить, что необходимо разбивать граф на части, но каким образом и как потом их собирать вместе?

+12

asermilov 10 авг 2023 в 12:30

«Возьмите инициативу на себя»: готовимся к System Design Interview

5 мин

15K

Блог компании AvitoTechАнализ и проектирование систем*Распределённые системы*

Рассказываем, для чего в Авито проводят интервью по System Design, чего от него ожидать и что нужно знать, чтобы его успешно пройти.

+14

Dasfex 25 июл 2023 в 10:01

Три движка для одной Лавки: как эволюционировала система поиска в сервисе

Средний

12 мин

4.9K

Блог компании ЯндексПоисковые технологии*Программирование*Машинное обучение*Распределённые системы*

Кейс

Лавка — сервис быстрой доставки продуктов. Один из важнейших сценариев использования сервиса для покупателя — это поиск. Примерно 30% товаров добавляются в корзину именно из его результатов. А ещё, если в пользовательской сессии был успешный запрос в поиск, вероятность совершения заказа вырастает на 10–15%. То есть, если клиенту нужен конкретный продукт и он его быстро находит через поиск, вероятность совершения заказа становится выше.

Корректная и качественная организация поиска — нетривиальная задача, поэтому иногда приходится придумывать нестандартные решения, чтобы всё работало как нужно. В этой статье я расскажу историю развития поиска в Лавке от самого начала до текущего момента. Нам пришлось объединить всю силу и мощь целых трёх движков, чтобы пользователи получали точный и актуальный результат. Параллельно погрузимся в различные технические детали, проблемы и прочие нюансы.

Найти товары!

+14

sgjurano 20 июл 2023 в 15:13

Как построить систему, способную выдерживать нагрузку в 5 млн rps

Средний

12 мин

46K

Блог компании Ozon TechВысокая производительность*IT-инфраструктура*Go*Распределённые системы*

Кейс

✏️ Технотекст 2023

Всем привет!

Меня зовут Владимир Олохтонов, я руковожу командой разработки в отделе Message Bus, который является частью платформы Ozon. Мы занимаемся разработкой самых разных систем вокруг Kafka, etcd и Vault. В этой статье я расскажу о том, как мы строили линейно масштабируемую gRPC-прокси перед Kafka, способную обслуживать миллионы запросов в секунду, используя Go.

+108

Albert_Wesker 19 июл 2023 в 11:01

Верификация распределённых систем с применением Isabelle/HOL

Сложный

8 мин

1.4K

Блог компании Timeweb CloudАлгоритмы*Распределённые системы*

Обзор

Перевод

Мы ежедневно пользуемся распределёнными системами (в форме интернет-сервисов). Эти системы очень полезны, но и реализовывать их непросто, так как сети непредсказуемы. Всякий раз, когда вы передаёте сообщение по сети, предполагается, что оно прибудет очень быстро, но возможны и достаточно долгие задержки. Может случиться так, что сообщение не прибудет вообще, либо прибудет несколько раз. Когда вы отправляете запрос другому процессу и не получаете отклика, вы понятия не имеете, что произошло: потерялся ли запрос, либо тот другой процесс аварийно завершился, либо сам отклик потерялся? Или же на самом деле ничего не потерялось, сообщение просто задержалось и ещё может прибыть. Невозможно доподлинно узнать, что произошло, поскольку ненадёжный обмен сообщениями – единственный способ межпроцессной коммуникации.

Читать дальше →

+15

alexandergolovnya 12 июл 2023 в 22:23

Потоковая обработка данных с помощью Kafka Streams: архитектура и ключевые концепции

Средний

23 мин

24K

Программирование*Java*Apache*Распределённые системы*Data Engineering*

Из песочницы

При реализации потоковой обработки и анализа данных может возникнуть необходимость агрегирования записей для объединения нескольких независимых поток данных или обогащения какой-либо модели данных. Для этой цели может использоваться Kafka Streams, которая позволяет выполнять обработку данных в режиме реального времени.

В этой статье мы рассмотрим основные компоненты Kafka Streams и теоретические аспекты их использования. Мы будем использовать последние версии технологий, доступных на сегодня: Kafka 3.4.0 и Java 17 в качестве языка программированию. Для снижения входного порога мы будем использовать только нативные возможности Kafka и Kafka Streams, и не будем рассматривать решения с использованием различных фреймворков вроде Spring.

+13

koreandr94 10 июл 2023 в 17:05

System Design для самых маленьких. Reference к интервью

Простой

5 мин

17K

Анализ и проектирование систем*Распределённые системы*

Туториал

Из песочницы

Эта статья-инструкция по построению высоконагруженных распределенных систем. Описанный подход может быть полезен как reference при подготовке к интервью по system design в FAANG и не только.

+15

ph_piter 7 июл 2023 в 15:25

Балансировка нагрузки: простыми словами о всей мощи двух случайных вариантов

7 мин

6.6K

Блог компании Издательский дом «Питер»Программирование*Алгоритмы*Серверная оптимизация*Распределённые системы*

Перевод

В мире динамического выделения ресурсов и балансировки нагрузки есть много интересных алгоритмов, но один из самых известных и занимательных – так называемый «метод двух случайных выборов». Он привносит очень простое изменение в процедуру случайного выделения ресурсов, а качество результатов от этого улучшается экспоненциально. Мне посчастливилось реализовать именно эту технику в гигантском масштабе, чтобы оптимизировать использование ресурсов в AWS Lambda, но мне всё равно долго не удавалось «прочувствовать» этот метод интуитивно. В этом посте хочу познакомить вас с той метафорической картиной этого алгоритма, которую я для себя составил, и которая очень удобна для понимания других продвинутых техник в этой области.

Читать дальше →

+18

MaxRokatansky 4 июл 2023 в 17:03

Гарантии доставки и этика телепортации

7 мин

3.1K

Блог компании OTUSРаспределённые системы*

Перевод

Распределенным системам приходится решать вопрос о том, какие именно гарантии доставки поддерживать. У нас есть различные варианты, начиная от отсутствия гарантии и заканчивая гарантией exactly once (точно один раз). В зависимости от того, какой вариант мы выберем, это может повлиять на качество наших потоков данных. В этой статье мы рассмотрим различные гарантии доставки на примере телепортации.

"Корабль Тесея" — это мысленный эксперимент, в котором ставится вопрос: Если заменить все части корабля новыми компонентами, останется ли он тем же самым судном?

Этот вопрос часто возникает, когда люди обсуждают идею телепортации в научной фантастике. Однако, давайте уточним. Мы не говорим о телепортации, которая пробивает дыру в пространстве и времени, позволяя человеку просто шагнуть через нее. Вместо этого мы обсуждаем телепортацию, при которой человек дематериализуется атом за атомом, а затем вновь материализуется в новом месте.

+17

3 4 ...

16 17

Распределённые системы *

О сложности и монолитах

Архитектура MMO: источник истины, потоки данных, узкие места I/O и их устранение

Отказоустойчивая архитектура: почему Tarantool не падает?

Распределённые транзакции

Истории

Неограниченный доступ к знаниям: библиотека Стандартных Шаблонных Конструкций

Хороший ретрай, плохой ретрай, или История одного падения

Пробиваем дыры в NAT

Распределённые снапшоты: определение глобального состояния распределённых систем

Нужна ли вам Kafka? Разбираемся в технологии и собираем простое приложение на базе managed-решения

Простые радости вертикального масштабирования

S3 не сразу строилось

Обработка больших и очень больших графов

«Возьмите инициативу на себя»: готовимся к System Design Interview

Ближайшие события

Три движка для одной Лавки: как эволюционировала система поиска в сервисе

Как построить систему, способную выдерживать нагрузку в 5 млн rps

Верификация распределённых систем с применением Isabelle/HOL

Потоковая обработка данных с помощью Kafka Streams: архитектура и ключевые концепции

System Design для самых маленьких. Reference к интервью

Балансировка нагрузки: простыми словами о всей мощи двух случайных вариантов

Гарантии доставки и этика телепортации

Вклад авторов

Работа