DevOps *

Методология разработки программного обеспечения

СтатьиПостыНовостиАвторыКомпании

nikitakosatka 21 мая в 09:59

DHCP-сервер облачной сети MWS. Как мы одинаковые адреса на разные виртуалки раздаём

Средний

10 мин

3.1K

Блог компании MWSDevOps * Сетевые технологии * Облачные сервисы * Разработка публичных облаков *

Кейс

Привет! При построении overlay-сети MWS Cloud Platform мы столкнулись с задачей: автоматически раздавать сетевые настройки виртуальным машинам на основе VRF — с полной изоляцией и без конфликтов.

Меня зовут Никита Усатов, я занимаюсь разработкой сервисов облачной сети MWS Cloud Platform. В этой статье расскажу, как устроена наша сеть, зачем понадобился DHCP-сервер с поддержкой VRF, как через VPP реализован DHCP Proxy с Option 82, и какие изменения мы внесли в CoreDHCP. Покажу, как передаются настройки от Control Plane к Data Plane, и как CoreDHCP отслеживает конфигурации без перезапуска. В конце — реальные кейсы отладки и мониторинга.

+13

kvendingoldo 21 мая в 08:09

tenv — универсальный менеджер версий для Terraform-стека

Простой

9 мин

1.6K

DevOps * Open source *

Обзор

Сезон Open source

Когда в 2023 году появился OpenTofu, его моментально подхватило сообщество: идея полностью открытой альтернативы Terraform на тот момент выглядела свежо и многообещающе. Многие захотели попробовать его в деле — но очень быстро столкнулись с типичной проблемой: а как безболезненно переключаться между OpenTofu и Terraform?

На первый взгляд всё казалось простым: установи два бинарника через любой пакетный менеджер — и готово. Но уже через пару месяцев активного развития OpenTofu, когда компании начали массово делать внутренние POC по миграции, стало очевидно: различий между OpenTofu и Terraform с каждой версией становится всё больше (часть из них хорошо видна, например, на cani.tf) и управлять разными версиями разных инструментов становиться все сложнее.

Именно тогда мы увидели нишу: менеджер версий, заточенный не просто под Terraform, а под весь Terraform-стек, включая OpenTofu.

Drakorgaur 21 мая в 05:58

Миграция с legacy: как werf упростил переезд на Kubernetes и ускорил CI/CD

Простой

4 мин

2.6K

Блог компании ФлантСистемное администрирование * Open source * Kubernetes * DevOps *

Кейс

Статья о том, как werf помог упростить переход на Kubernetes, ускорить CI/CD и решить проблемы с кэшированием. Автор поделился опытом внедрения, первыми шагами и преимуществами, которые получила его команда.

+19

Magnit_OMNI 20 мая в 07:04

Как построить инфраструктуру, которая не подведет: главное с митапа по отказоустойчивости

Простой

2 мин

1.3K

Блог компании Magnit TechDevOps * Тестирование IT-систем * Облачные сервисы * IT-инфраструктура *

Репортаж

23 апреля на OMNI Infrastructure Meetup эксперты из Авито, Магнит OMNI, Лаборатории Касперского и Cloud.ru обсудили, как создавать системы, устойчивые к любым сбоям. Рассказываем о самых важных инсайтах.

В московском офисе Магнита и онлайн собрались DevOps-инженеры, платформенные специалисты и разработчики, чтобы разобрать реальные кейсы повышения отказоустойчивости. Гибридный формат позволил присоединиться участникам из разных городов — дискуссия получилась по-настоящему живой.

Делимся видео и презентациями докладов.

retab 19 мая в 16:16

От контейнеров до кода: инструменты для поиска уязвимостей на все случаи

Простой

15 мин

7.6K

DevOps * Информационная безопасность * Программирование * Open source *

Из песочницы

Всем привет

Меня зовут Сергей. Работаю в небольшой компании. Помимо прочих обязанностей, также анализирую код и docker-образы, написанные нашими разработчиками, на предмет различных уязвимостей. В этой статье хотел бы поделиться нашими подходами и open-source инструментами, которыми я использую в своей работе.

Быть может кто-то найдет что-то полезное или новое для себя.

Найти что-то полезное или новое для себя

gl-ko 19 мая в 11:07

Опыт внедрения Multus CNI в MWS

Средний

20 мин

1.9K

Блог компании MWSРазработка публичных облаков * Kubernetes * Сетевые технологии * DevOps *

Кейс

Привет, Хабр! Меня зовут Глеб Когтев, я руководитель команды VPC Host Components, которая занимается разработкой виртуальной облачной сети для MWS Cloud Platform. C этой статьёй мне помогал Юрий Кондратов — SRE в команде Kubernetes Operations, Research & Engineering (KORE).

Сегодня поговорим об устройстве сети в Kubernetes-кластере, немного о нашем подходе к обеспечению связности сервисов и чем нам был полезен Multus CNI. Статья будет полезна тем, кто использует Kubernetes в своих задачах и хочет разобраться в устройстве сети, а ещё во взаимодействии компонентов K8s с контейнерами.

+10

badcasedaily1 19 мая в 05:12

DLQ-first: учим Kafka-консьюмера падать красиво и поднимать поток за секунды

5 мин

4.3K

Блог компании OTUSDevOps * Системное администрирование * IT-инфраструктура *

Привет, Хабр!

Сегодня рассмотрим, как построить Kafka-консьюмер, который не падёт при первой же проблеме, а аккуратно сложит битые события в Dead Letter Queue (DLQ).

chemtech 19 мая в 04:13

Всегда используйте target_session_attrs=read-write (или primary) при подключении к кластеру PostgreSQL по FQDN в YC

Средний

60 мин

3.4K

Go * DevOps * Системное администрирование *

Туториал

При работе с кластерами PostgreSQL, особенно в конфигурациях с высокой доступностью (High Availability, HA), разработчики часто сталкиваются с ошибками типа "cannot execute INSERT in a read-only transaction". Эти ошибки возникают, когда приложение пытается выполнить операцию записи на узел, который в данный момент является репликой (read-only). Особенно остро эта проблема проявляется в моменты переключения мастера: пул соединений вашего приложения может все еще содержать коннекты к бывшему мастеру, ставшему репликой, или же балансировщик может направить новый запрос на запись к реплике.

К счастью, драйверы PostgreSQL предоставляют элегантное решение этой проблемы – параметр строки подключения target_session_attrs. В версии PostgreSQL 14 были добавлены новые значения для target_session_attrs: read-only, primary, standby и prefer-standby. Этот параметр позволяет указать, какого типа сессию ожидает ваше приложение. Наиболее полезным значением для приложений, выполняющих операции чтения и записи, является read-write. В этой статье мы подробно разберем, почему это так важно, продемонстрируем проблему на практике и покажем, как target_session_attrs=read-write спасает ситуацию. Использование target_session_attrs=primary, включая его специфические отличия от read-write, будет подробно рассмотрено далее в статье.

+11

randall 18 мая в 14:27

Хаос-инжиниринг — свежие научные работы и гайды

Простой

5 мин

1.7K

Блог компании MWSБлог компании МТССистемное администрирование * DevOps * Облачные сервисы *

Обзор

Chaos Engineering — это практика намеренного создания сбоев в системе для выявления её слабых мест. С её помощью можно обнаружить скрытые проблемы в проектировании, масштабируемости и отказоустойчивости.

Сегодня мы собрали статьи и научные работы, посвящённые фреймворкам и инструментам для хаос-инжиниринга. Рассказываем о решениях ChaosETH, ChaosEater, CHESS и паре других, предложенных специалистами ведущих исследовательских институтов и корпораций.

mflash123 17 мая в 13:51

Опыт работы с Serverless-архитектурой для Telegram-бота на Vercel и Timeweb Cloud

Простой

4 мин

2.9K

DevOps * Node.JS * Serverless *

Кейс

В последнее время активно занимаюсь разработкой Telegram-бота с использованием Serverless-подхода в Timeweb и Vercel сервисах.

aabzel 16 мая в 22:00

Основы по GNU Make

Простой

12 мин

8.4K

Программирование микроконтроллеров * DevOps * Системы сборки * Программирование * C *

Обзор

GNU Make - это консольная утилита, которая запускает другие консольные утилиты в желаемой последовательности согласно скрипту. Только и всего.

В этом тексте я показал, как можно организовать самостоятельно написанные make скрипты для микроконтроллерных проектов.

+24

Myskat_90 16 мая в 08:00

Распределённый инференс и шардирование LLM. Часть 3: настройка авторизации и интеграция с Open WebUI

Сложный

9 мин

4.7K

Блог компании ФлантБлог компании Московский кредитный банкИскусственный интеллектDevOps * IT-инфраструктура *

Туториал

Мы с вами подобрались к заключительной части статьи-инструкции об организации распределённого инференса и шардирования LLM в домашних условиях. Осталось совсем чуть-чуть — в финальной главе разберёмся, как развернуть Open WebUI через Helm и связать его с нашим Ray-кластером. Это даст возможность настроить авторизацию и удобный интерфейс для взаимодействия с нашей моделью.

В конце статьи попросим домашнюю LLM подвести итоги всей проделанной работы, а также поговорим о планах по развитию проекта.

+17

Yusmit 15 мая в 13:19

Как запилить годную ролюху в Ansible

Простой

10 мин

8.8K

Системное администрирование * IT-инфраструктура * DevOps *

Ретроспектива

В данной статье я попытаюсь структурировать все шишки полученные в рамках написания и эксплуатации ролей Ansible и рассказать о том как написать неплохую роль.

Преисполниться мудростью

+12

badcasedaily1 15 мая в 08:55

Управление отставанием lag в Kafka Consumers: как не просто замерить, а стабилизировать

Простой

6 мин

Блог компании OTUSApache * Big Data * DevOps * Data Engineering *

Обзор

Привет, Хабр!

Сегодня рассмотрим, почему отставание у Kafka-консьюмеров — это не просто строчка в kafka-consumer-groups, а метрика, от которой зависит SLA вашего сервиса. Рассмотрим, как её считать без самообмана, как соорудить собственный мониторинг на Python и Go, а главное — чем именно тушить всплески lag’а: throttle, autoscale и backpressure.

runity 15 мая в 08:21

Интервью без стресса: как в Рунити нанимают DevOps-инженеров

Простой

5 мин

3.3K

Блог компании РунитиDevOps * Карьера в IT-индустрииIT-компанииУправление персоналом *

Интервью

Привет, Хабр! Мы в Рунити верим, что собеседование — не гонка за правильными ответами, а диалог на равных. В этом интервью расскажем, как мы нанимаем DevOps-инженеров в команду. Внутри о том, что мы предлагаем кандидатам вместо стресс-интервью, замысловатых тестовых и бесконечных этапов отбора. От нас — внимание к глубине опыта и интерес к подходам кандидата.

Эксперты Рунити — Анна Попова, рекрутмент-партнер, и Тимур Парфенов, директор департамента эксплуатации, поделятся тем, как мы оцениваем инженеров, на что смотрим в резюме и какие навыки стоит подсветить. Приятного «разворачивания» статьи!

dbraincloud 15 мая в 07:07

Моя попытка №2. Как мы тестировали совместимость платформы контейнеризации с Astra Linux

Простой

3 мин

2.1K

Блог компании dBrainМикросервисы * DevOps * IT-инфраструктура * Kubernetes *

Кейс

В 2023 году мы впервые попытались запустить платформу dBrain.cloud на Astra Linux версии 1.7 Special Edition. Первая попытка оказалась неудачной.

DKolesnikov 14 мая в 12:03

Как Kubernetes управляет жизненным циклом подов

Средний

25 мин

6.2K

Блог компании ИТ-холдинг Т1DevOps * Системное администрирование * Kubernetes *

Туториал

Работая DevOps-инженером, я не раз сталкивался с необходимостью тонко управлять поведением подов в Kubernetes. Эти минимальные единицы развёртывания — на первый взгляд, простые объекты — на самом деле являются ключевым элементом всей архитектуры. Они создаются, масштабируются, перезапускаются и удаляются в ответ на изменения состояния кластера и заданные политики.

Однако особенно важно понимать, что завершение работы пода — это очень нетривиальный процесс. Это не просто «удаление контейнера», а целая процедура, включающая в себя механизмы graceful shutdown, взаимодействие с контроллерами, корректную работу с сервисами и многое другое.

В этой статье я подробно расскажу, как устроен процесс завершения работы пода в Kubernetes, что происходит «под капотом», какие подводные камни могут возникнуть и как обеспечить корректное поведение приложений при завершении их работы.

masikm 14 мая в 09:00

Terraform уже не тот? Как Pulumi меняет правила игры в Infrastructure as Code

6 мин

5.7K

Блог компании OkkoБлог компании Конференции Олега Бунина (Онтико)DevOps *

Привет, Хабр! Сегодня поговорим про инфраструктуру как код. Почему Terraform уже не единственный игрок в мире IaC, а Pulumi становится всё более актуальным. Я расскажу, как эти инструменты работают, чем отличаются, и почему стоит присмотреться к Pulumi, особенно, если вы хотите гибкости и мощи в управлении облаками.

+24

Myskat_90 14 мая в 08:00

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Сложный

14 мин

6.9K

Блог компании ФлантБлог компании Московский кредитный банкИскусственный интеллектDevOps * IT-инфраструктура *

Туториал

Продолжаем пошагово разбираться с ответом на вопрос о том, как эффективно работать с передовыми LLM, используя доступное оборудование и распределённые вычисления.

В первой части статьи мы подготовили всё необходимое для развёртывания распределённого инференса с Ray Serve и vLLM. Сегодня этим и займёмся. Мы напишем скрипт vLLM, используем Ray Serve, чтобы предоставить внешний HTTP API, а также настроим KubeRay Cluster и развернём в нём Gemma 3.

Вперёд!

+29

AppFox_Team 14 мая в 07:50

Kubernetes в продакшене: основные понятия и вопросы на собеседовании

Средний

9 мин

10K

Серверная оптимизация * Карьера в IT-индустрииKubernetes * DevOps * Системное администрирование *

Туториал

В этой статье мы рассмотрим, что такое Kubernetes, в каких случаях его использование оправдано, и разберем вопросы, которые вы можете встретить на собеседованиях.

1 2 ...

25 26

28 29 ...

245 246

DevOps *

DHCP-сервер облачной сети MWS. Как мы одинаковые адреса на разные виртуалки раздаём

tenv — универсальный менеджер версий для Terraform-стека

Миграция с legacy: как werf упростил переезд на Kubernetes и ускорил CI/CD

Как построить инфраструктуру, которая не подведет: главное с митапа по отказоустойчивости

От контейнеров до кода: инструменты для поиска уязвимостей на все случаи

Опыт внедрения Multus CNI в MWS

DLQ-first: учим Kafka-консьюмера падать красиво и поднимать поток за секунды

Всегда используйте target_session_attrs=read-write (или primary) при подключении к кластеру PostgreSQL по FQDN в YC

Хаос-инжиниринг — свежие научные работы и гайды

Опыт работы с Serverless-архитектурой для Telegram-бота на Vercel и Timeweb Cloud

Основы по GNU Make

Распределённый инференс и шардирование LLM. Часть 3: настройка авторизации и интеграция с Open WebUI

Как запилить годную ролюху в Ansible

Ближайшие события

Управление отставанием lag в Kafka Consumers: как не просто замерить, а стабилизировать

Интервью без стресса: как в Рунити нанимают DevOps-инженеров

Моя попытка №2. Как мы тестировали совместимость платформы контейнеризации с Astra Linux

Как Kubernetes управляет жизненным циклом подов

Terraform уже не тот? Как Pulumi меняет правила игры в Infrastructure as Code

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Kubernetes в продакшене: основные понятия и вопросы на собеседовании

Вклад авторов