Articles / Bookmarks / Profile of fessmage / Habr

Алексей Смирнов @fessmage

DevOps Engineer

ProfileArticlesPostsNewsComments502

alexyakovlev90 Nov 8 2019 at 09:24

Как распилить монолит на сервисы и сохранить производительность In-memory кэшей без потери консистентности

12 min

11K

Т-Банк corporate blogDistributed systems*Kubernetes*Java*

Всем привет. Меня зовут Александр, я Java-разработчик в группе компаний Tinkoff.

В данной статье хочу поделиться опытом решения проблем, связанных с синхронизацией состояния кэшей в распределенных системах. Мы столкнулись с ними, разбивая наше монолитное приложение на ~~микро~~сервисы. Очевидно, что речь здесь пойдет о кэшировании данных на уровне JVM, поскольку с внешними кэшами проблемы синхронизации решаются вне контекста приложения.

В статье я расскажу про наш опыт перехода на сервис-ориентированную архитектуру, сопровождающуюся переездом в Kubernetes, и про решение сопутствующих проблем. Будет рассмотрен подход к организации системы распределенного кэширования In-Memory Data Grid (IMDG), его преимущества и недостатки, из-за которых мы решили написать собственное решение.

В статье рассматривается проект, бэкэнд которого написан на Java. Поэтому речь также пойдет про стандарты в области временного In-memory-кэширования. Обсудим спецификацию JSR-107, несостоявшуюся спецификацию JSR-347, а также особенности кэширования в Spring. Добро пожаловать под кат!

Читать дальше →

+24

SelectVim Jun 27 2019 at 13:57

Как заглянуть контрагенту в исподнее

9 min

4.5K

Legislation in ITStart-up development

Проверка контрагента почему-то многими воспринимается как панацея. Хотя немалое количество представителей малого бизнеса этим даже не заморачивается, и в целом, не особо много испытывает проблем. Потому что часто решение входить или не входить в сделку принимается по неформальным критериям: знакомства, слово пацанское, интуиция и т. п.

Собственно, не вижу в этом ничего плохого. Оно ж работает, а любая проверка требует не только ресурсов, но и часто приводит к недоверию, что выливается в дополнительные требования к другой стороне, суровой правке договоров и прочее. Что иногда означает просто потерянного клиента. Некоторым проще такие «эксцессы» заложить в бизнес-модель и не вникать в бумажки. Потери всё равно будут, будут и неплательщики. Это на то и предпринимательская деятельность, потому как само её определение означает, что это деятельность, осуществляемая на свой риск.

Но иногда всё же проверка бывает полезной. К примеру, когда у вас обезличенный поток не самых мелких клиентов, которые пришли со стороны. Или когда намечается крупный контракт, проблемы с которым могут серьёзно пошатнуть вашу фирму. Для таких случаев и написана данная статья, чтобы и без юриста можно было бы хоть немного снизить риски.

Читать дальше →

+19

ramax Sep 29 2014 at 08:41

По городам и весям или как мы балансируем между узлами CDN

9 min

27K

Онлайн-кинотеатр Иви corporate blog

Когда вы выросли настолько, что появились узлы в разных городах, возникает задача распределения нагрузки между ними. Задачи такой балансировки могут быть разными, но цель, как правило, одна: сделать так, чтобы было хорошо. У меня дошли руки рассказать о том, как это делают обычно, и как это сделано в ivi.ru.

В предыдущей статье я рассказал, что CDN у нас свой, при этом тщательно избегал подробностей. Пришла пора поделиться. Рассказ будет в стиле поиска решения, каким он мог бы быть.

Читать дальше →

+40

ITSumma Aug 23 2019 at 09:05

Как Badoo добился возможности отдавать 200k фото в секунду

12 min

24K

ITSumma corporate blogBadoo corporate blogHigh performance*Nginx*Backup*

Современный веб практически немыслим без медиаконтента: смартфоны есть практически у каждой нашей бабушки, все сидят в соцсетях, и простои в обслуживании дорого обходятся компаниям. Вашему вниманию расшифровка рассказа компании Badoo о том, как она организовала отдачу фотографий с помощью аппаратного решения, с какими проблемами производительности столкнулась в процессе, чем они были вызваны, ну и как эти проблемы были решены с помощью софтового решения на основе Nginx, обеспечив при этом отказоустойчивость на всех уровнях (видео). Благодарим авторов рассказа Олега Sannis Ефимова и Александра Дымова, которые поделились своим опытом на конференции Uptime day 4.

— Начнем с небольшого введения о том, как мы храним и кэшируем фотографии. У нас есть слой, на котором мы их храним, и слой, где мы фотографии кэшируем. При этом, если мы хотим добиваться большого хитрейта и снижать нагрузку на стораджи, нам важно, чтобы каждая фотография отдельного пользователя лежала на одном кэширующем сервере. Иначе нам пришлось бы ставить во столько раз больше дисков, во сколько у нас больше серверов. Хитрейт у нас в районе 99%, то есть мы в 100 раз снижаем нагрузку на наши storage, и для того, чтобы это сделать, еще 10 лет назад, когда все это строилось, у нас было 50 серверов. Соответственно, для того, чтобы эти фотографии отдавать, нам нужно было по сути 50 внешних доменов, которые эти серверы обслуживают.

Естественно, сразу встал вопрос: а если у нас один сервер упадет, будет недоступен, какую часть трафика мы теряем? Мы посмотрели, что есть на рынке, и решили купить железку, чтобы она решила все наши проблемы. Выбор пал на решение компании F5-network (которая, кстати, не так давно купила NGINX, Inc): BIG-IP Local Traffic Manager.

Читать дальше →

+64

ramax Mar 13 2015 at 08:55

Лишние элементы или как мы балансируем между серверами

8 min

43K

Онлайн-кинотеатр Иви corporate blog

Привет, Хабр! Какое-то время назад люди осознали, что увеличивать мощность сервера в соответствии с ростом нагрузки просто невозможно. Тогда-то мы и узнали слово «кластер». Но как бы красиво это слово не звучало, всё равно приходится технически объединять разрозненные серверы в единое целое – тот самый кластер. По городам и весям мы добрались до наших узлов в моём предыдущем опусе. А сегодня мой рассказ пойдёт о том, как делят нагрузку между членами кластера системные интеграторы, и как это сделали мы.

Внутри публикации вас также ждёт бонус в виде трёх сертификатов на месячную подписку ivi+.

Читать дальше →

+27

AloneCoder Aug 10 2017 at 09:53

Load Average в Linux: разгадка тайны

18 min

242K

VK corporate blog*nix*DevOps*IT Infrastructure*Network technologies*

Translation

Средние значения нагрузки (Load averages) — это критически важная для индустрии метрика. Многие компании тратят миллионы долларов, автоматически масштабируя облачные инстансы на основании этой и ряда других метрик. Но на Linux она окутана некой тайной. Отслеживание средней нагрузки на Linux — это задача, работающая в непрерываемом состоянии сна (uninterruptible sleep state). Почему? Я никогда не встречал объяснений. В этой статье я хочу разгадать эту тайну, и создать референс по средним значениям нагрузки для всех, кто пытается их интерпретировать.

Читать дальше →

+123

alexxz Aug 27 2019 at 12:04

Как дебажить переменные окружения в Linux

4 min

30K

Badoo corporate blogDevOps*Configuring Linux*System administration*

Часто бывает так, что приходишь на машину и обнаруживаешь какой-то скрипт, запущенный под системным пользователем неделю назад. Кто его запустил? Где искать этот run.php? Или добавляешь запись в /etc/crontab, а скрипт там падает с ошибкой «command not found». Почему? И что делать?

У меня есть ответы на эти вопросы.

Читать дальше →

+84

olegbunin Aug 15 2019 at 12:40

TCP против UDP или будущее сетевых протоколов

27 min

178K

Конференции Олега Бунина (Онтико) corporate blogSystem Analysis and Design*High performance*Programming*Development of communication systems*

Перед каждым сервисом, генерирующим хотя бы 1 Мбит/сек трафика в интернете возникает вопрос: «Как? по TCP или по UDP?» В прикладных областях, в том числе и платформах доставки уже сложились предпочтения и традиции принятия подобных решений.

По идее, если бы, к примеру, однажды один ленивый разработчик не попробовал развернуть свой ML на Python (потому что только его и знал), мир скорее всего никогда не проникся бы такой любовью к презренному «супер-джава-кодерами» языку. А сегодня слабости этого языка в прошлом контексте применения безоговорочно обеспечивают ему первенство в развертывании и запуске многочисленных майнерских А/Б.

Сравнивать можно многое: ARM с Intel, iOS и Android, а Mortal Kombat с Injustice. И нарваться на космический холивар, поэтому вернемся к теме доставки огромных объемов разноформатного контента.

Десять лет назад все были абсолютно уверены, UDP — это что-то про негарантированную доставку. Если нужен надежный протокол — это TCP. И вопреки традициям в этой статье мы будем сравнивать такие, кажущиеся несравнимыми вещи, как TCP и UDP.

Осторожно, под катом 99 иллюстраций и схем и все важные.

+156

o6CuFl2Q Jul 8 2019 at 13:05

Анализ производительности запросов в ClickHouse. Доклад Яндекса

18 min

31K

Яндекс corporate blogBig Data*High performance*Open source*Server Administration*

Что делать, если ваш запрос к базе выполняется недостаточно быстро? Как узнать, оптимально ли запрос использует вычислительные ресурсы или его можно ускорить? На последней конференции HighLoad++ в Москве я рассказал об интроспекции производительности запросов — и о том, что даёт СУБД ClickHouse, и о возможностях ОС, которые должны быть известны каждому.

Каждый раз, когда я делаю запрос, меня волнует не только результат, но и то, что этот запрос делает. Например, он работает одну секунду. Много это или мало? Я всегда думаю: а почему не полсекунды? Потом что-нибудь оптимизирую, ускоряю, и он работает 10 мс. Обычно я доволен. Но все-таки я стараюсь в этом случае сделать недовольное выражение лица и спросить: «Почему не 5 мс?» Как можно выяснить, на что тратится время при обработке запроса? Можно ли его в принципе ускорить?

+53

olegbunin Sep 13 2018 at 10:03

Тонкая настройка балансировки нагрузки

22 min

52K

okmeter.io corporate blogКонференции Олега Бунина (Онтико) corporate blogNginx*High performance*System administration*

В этой статье речь пойдет о балансировке нагрузки в веб-проектах. Многие считают, что решение этой задачи в распределении нагрузки между серверами — чем точнее, тем лучше. Но мы же знаем, что это не совсем так. Стабильность работы системы куда важнее с точки зрения бизнеса.

Маленький минутрый пик в 84 RPS «пятисоток» — это пять тысяч ошибок, которые получили реальные пользователи. Это много и это очень важно. Необходимо искать причины, проводить работу над ошибками и стараться впредь не допускать подобных ситуаций.

Николай Сивко (NikolaySivko) в своем докладе на RootConf 2018 рассказал о тонких и пока не очень популярных аспектах балансировки нагрузки:

когда повторять запрос (retries);
как выбрать значения для таймаутов;
как не убить нижележащие серверы в момент аварии/перегрузки;
нужны ли health checks;
как обрабатывать «мерцающие» проблемы.

Под катом расшифровка этого доклада.

+47