DevOps *

Методология разработки программного обеспечения

317,48

Рейтинг

СтатьиПостыНовостиАвторыКомпании

Malagor031 8 мая в 14:15

Streamlit для внутренних GUI: быстрый и гибкий low-code инструмент

Простой

5 мин

9.5K

Python * DevOps * Прототипирование * Интерфейсы *

Кейс

Из песочницы

В эпоху вайбкодинга удивить кого‑то базовым веб‑интерфейсом сложно. Но сделать его понятным и простым в поддержке — другой вопрос. Если вы хотите обернуть свои скрипты\автоматизацию в красивую обертку, а также сделать это быстро и просто — я нашел для вас классную библиотеку на python.

Цель статьи — поделиться классным инструментом и замотивировать вас к созданию нового. Поехали!

DevCoder 8 мая в 07:35

Между нами SLA: как бизнесу и поддержке договориться до первого инцидента

8 мин

7.5K

Серверное администрирование * DevOps * Тестирование IT-систем * Управление разработкой *

Разбор SLA от человека, которого подключают, когда сайт недоступен, заказы не проходят, а в чатах уже ищут виноватых. Рассказываю, как SLA помогает без лишних споров переживать такие моменты.

sproshchaev 8 мая в 07:21

Self‑service деплой: как перестать ждать DevOps и ускорить команду

Средний

6 мин

7.4K

Блог компании OTUSDevOps * Карьера в IT-индустрииKubernetes *

Кейс

Когда деплой превращается в очередь к одному DevOps-инженеру, команда быстро теряет скорость: разработчики ждут стенды, релизы зависят от ручных операций, а инфраструктурные специалисты тонут в однотипных заявках.

В статье разбираем, как self-service подход и платформенная инженерия помогают убрать этот шлюз: автоматизировать деплой, выдачу окружений, базы данных и типовые операции так, чтобы разработчики получали автономию, а админы и DevOps занимались архитектурой, надёжностью и развитием платформы.

katerinacaplina 8 мая в 07:01

Как устроена ML-платформа Michelangelo и какие базовые принципы из неё важно усвоить

Средний

14 мин

6.8K

Блог компании Яндекс ПрактикумМашинное обучение * Data Engineering * DevOps * IT-инфраструктура *

Аналитика

Привет! Меня зовут Катерина Цаплина, я программный эксперт курса «MLOps для разработки и мониторинга моделей», и это вторая статья цикла о том, как компании реализуют MLOps. В предыдущей части мы разбирали, какие архитектурные подходы скрываются за MLOps: от workflow-фреймворков до managed-сервисов и внутренних платформ.

В этой статье хочу разобрать один из самых известных платформенных кейсов — Michelangelo компании Uber. Он ценен тем, что наглядно показывает, как ML-платформа вырастает из практических задач и затем эволюционирует вместе с изменением сценариев: от классического ML к deep learning и LLMOps.

Поговорим о том, как устроена платформа, какие сущности и слои в ней ключевые и почему этот пример остаётся полезным. Посмотрим на Michelangelo через призму российских реалий, порассуждаем о связи между зрелостью ML в компании и сложностью корпоративного ландшафта, а также о том, когда платформа действительно становится оправданной.

codementor 8 мая в 05:22

Как у клиента с восемью продуктовыми командами мы построили AI Kit

Средний

20 мин

Искусственный интеллектУправление разработкой * DevOps * Программирование *

Кейс

Привет, Хабр. Мы платформенная команда в продуктовой компании с восемью продуктовыми командами. У каждой свой микросервис, свой стек, свои нюансы. Есть общие конвенции, общий security baseline, общий подход к observability.

В начале прошлого года стало понятно: AI-инструменты разработки уже не эксперимент, а повседневная реальность. Claude Code, Cursor, Copilot, кто во что горазд. И при этом ровно ноль централизованного подхода. У одного разработчика в ~/.claude/CLAUDE.md свой набор правил, у другого .cursorrules с другими правилами. В одном репо команды лежал 400-строчный CLAUDE.md с дублирующимися общими конвенциями, в другом пустота. AI отвечал по-разному в одном и том же сервисе в зависимости от того, кто его спрашивал.

За полгода мы построили то, что внутри называем AI Kit. Это централизованный набор правил, skills, subagents и CI-инструментов для AI-ревью. В этой статье наш путь, грабли, цифры. И чего бы мы не делали, если бы начинали заново.

Если у вас несколько продуктовых команд и AI-инструменты уже есть, но дисциплины их использования нет, то статья для вас. Будет полезно тимлидам, CTO, инженерам платформенных команд и AI Champions.

MaksUnweb 8 мая в 02:54

Rust и Docker

Средний

5 мин

10K

Rust * DevOps *

Туториал

Привет, Хабр! Сегодня я хочу осветить тему работы с системой контейнеризации Docker прямиком из программы на Rust. Эта статья будет полезна тем, кто хочет разрабатывать различные программы для автоматизации рутинных действий Docker.

goodchal23 7 мая в 15:45

Вредоносный PyTorch Lightning сливал пароли через скрытый JavaScript

Простой

2 мин

14K

Информационная безопасность * Python * Open source * DevOps * Сетевые технологии *

Кейс

Перевод

30 апреля на PyPI обнаружили новую версию PyTorch Lightning, которая при импорте скачивала Bun и запускала 11,4 МБ опасного JavaScript-вора. Цель — браузеры, облачные API, GitHub-токены. Всего одна строчка импорта: import lightning — и все ваши API-ключи и данные будут скомпрометированы! Полный разбор инцидента внутри.

Разобрать инцидент

gtosss 7 мая в 13:24

Настройка self-hosted gitlab runner (CI/CD)

Простой

8 мин

12K

DevOps * Системное администрирование * Linux * Git * GitHub *

Туториал

DevOps и безопасность — одни из немногих профессий, устойчивых к кризису. Если изучаете DevOps или прокачиваетесь в безопасности — этот цикл статей для вас.

Часть 2 серии об осмысленном CI/CD: настраиваем self-hosted GitLab Runner. Пройдем от docker-compose.yml до работающего runner, попутно разбирая ошибки permissions, SELinux context и особенности rootless Podman. Все то же самое актуально и для Docker.

+20

leshoi 7 мая в 13:00

Два Kubernetes-кластера — одна сеть: объединяем через Mesh и межкластерный роутинг

Сложный

9 мин

8.5K

Блог компании АО «ГНИВЦ»DevOps * Системное администрирование * Kubernetes * Сетевые технологии *

Туториал

Когда Kubernetes-кластеров становится больше одного, инфраструктура начинает жить по новым правилам. Один кластер развёрнут в основном датацентре, второй — в резервной площадке. Сложности начинаются в тот момент, когда этим кластерам нужно взаимодействовать друг с другом. Сервисы в одном кластере должны обращаться к сервисам в другом, приложениям требуется нормальная маршрутизация, а инженерам хочется управлять этим без набора временных решений вроде iptables и ручных DNS-записей.

В качестве сетевого слоя будем использовать Calico, а для межкластерного взаимодействия сервисов — Istio. Первый даст маршрутизацию и связность, второй — discovery, балансировку и управление трафиком на уровне приложений.

yrkdaysnf 7 мая в 11:43

Как улучшить опыт работы с Zabbix: разбираем юзкейсы

Простой

5 мин

13K

Блог компании YADRODevOps * Open source *

Привет, Хабр! Меня зовут Ярослав Яковкин, я младший инженер по разработке ПО в YADRO, работаю в команде TATLIN.FLEX. Еще будучи стажером, я разбирался в инструментах, которыми пользуется моя команда, и обнаружил, что система мониторинга Zabbix допускает некоторые ошибки в работе. Они не влияют на производительность, но, если их исправить, всем станет лучше.

Я погрузился и узнал, как устроен инструмент и что сделать, чтобы устранить неисправности, а опыт собрал в этой статье. Материал будет полезен тем, кто недавно работает с Zabbix, — возможно, вы найдете решение своей проблемы под катом. А опытных девопсов приглашаем в комментарии — поделитесь лучшими практиками по оптимизации Zabbix.

+19

Cloud4Y 7 мая в 10:32

Декодируем трафик Zabbix Proxy для быстрого устранения неполадок

13 мин

7.4K

Блог компании Cloud4YСистемное администрирование * DevOps * Информационная безопасность * Сетевые технологии *

Туториал

Перевод

Обычно для базовой диагностики прокси достаточно просто заглянуть на страницу администрирования Zabbix proxy или посмотреть метрики состояния прокси. Однако бывают ситуации, когда требуется более глубокий анализ.

Сегодня мы разберём взаимодействие между Zabbix server ↔ proxy и научимся интерпретировать внутренний протокол обмена.

NicholasKuzya 7 мая в 10:26

Как сделать Maven build security-aware: AppSec-проверки без дрейфа CI/CD

Простой

8 мин

6.5K

DevOps * Java * Информационная безопасность * Git *

Туториал

Единый плагин для сканирования на безопасность Java проектов. Maven. Или как проверять кучу микросервисов на безопасность управляя этим в одном месте

Скачать плагин

Qwashy 7 мая в 09:12

Как развивалась виртуализация в Авито

Простой

7 мин

9.9K

Блог компании AvitoTechВиртуализация * История ITDevOps * Linux *

Обзор

Всем привет! Меня зовут Ярослав Покрепов, я DevOps-инженер в Авито.

Виртуализация — это технология создания изолированных и независимых виртуальных сред на базе физических ресурсов. Виртуализация в Авито — это неотъемлемая часть технического стека, как и во многих других IT-компаниях. На этапе основания Авито виртуализация уже была широко распространённой технологией. Проект нуждался в эффективных и гибких решениях для управления ресурсами, в возможности масштабироваться в будущем и в обеспечении стабильной работы при растущей нагрузке.

В этой статье попробую провести читателя от истоков виртуализации в Авито до современных решений и показать, как эти изменения повлияли на архитектуру и возможности компании. Описать общую хронологию развития виртуализации без полного погружения в технические детали — об этом расскажу подробнее в следующих частях.

Дисклеймер: ранняя история инфраструктуры компании восстановлена не по документации, а по воспоминаниям инженеров, которые работали в тот период. Это устная история — с допущениями, реконструкцией контекста и попыткой передать факты и логику решений.

+26

puzankov7 7 мая в 09:01

Утопали в дефектах, пока собирали «единое окно»

Средний

13 мин

9.2K

Блог компании БастионDevOps * Управление разработкой * Информационная безопасность * IT-компании

Мнение

«У нас было два пакета findings SAST’а, семьдесят пять CVE с критичностью — Critical, пять дублей одной и той же CVE в разных сервисах, пол солонки false positive и целая россыпь уязвимостей всех сортов и расцветок: SQLi, XSS, SSRF, RCE, IDOR, утекшие секреты, misconfigs в Kubernetes, написанные человеком, который явно не планировал дожить до аудита.

Кроме того, у нас были изменения, сгенерированные AI-ассистентами, забытые исключения в проверках доступа, временные обходные решения, давно ставшие частью архитектуры, два отчета пентеста, тысячи задач и дашборд, который краснел так, будто видел все наши будущие инциденты сразу.

Не то чтобы это был необходимый запас для управления безопасностью приложений, но если уж ты решил строить ASPM через агрегацию всего подряд, рано или поздно ты оказываешься именно в такой машине — на полной скорости, без карты, с разработчиками на заднем сидении, которые только и спрашивают: “Что из этого реально надо исправлять?”».

Всем привет! Меня зовут Артем Пузанков, я руководитель отдела консалтинга безопасной разработки в Бастионе. Сегодня хотелось бы порефлексировать с вами про управление состоянием безопасности приложений, ASPM, AI-generated код и AppSec.

Эта статья о том, почему будущее ASPM не в том, чтобы собрать все дефекты в «единое окно», а в том, чтобы сопоставить обнаруженные находки, проверить достижимость и отделить реальные угрозы от шума (читай технического долга).

+17

sword14 6 мая в 15:40

Повторный обзор курса «Стань DevOps-инженером с нуля» — или как всё стало только лучше

Простой

3 мин

13K

DevOps * Linux * *nix * Учебный процесс в IT

Обзор

Да, простите меня ребята, но ко мне пришел автор курса из прошлой статьи и сказал, что все понял, учел поправил и даже GUI навалил. Так как я ранее приобретал курс, обновление получил просто так. Учитывая, что прошлая статья для многих оказалась полезной, я решил дополнить обзор новой — полезных изменений достаточно много.

kmoseenk 6 мая в 10:10

Ваш Kafka lag врёт: как настроить алерты по реальной задержке, а не по числу сообщений

Средний

12 мин

7.7K

Блог компании OTUSApache * DevOps *

Туториал

Перевод

Алерт по Kafka lag выглядит убедительно, пока не приходится объяснять, что именно значат «50 000 сообщений отставания» для пользователей и SLA. В статье разбираем, почему offset lag часто создает ложное ощущение контроля, где ломаются популярные подходы к расчету задержки и как перейти к мониторингу по реальному time lag.

На примере klag-exporter покажем, как считать задержку через таймстемпы сообщений, настроить метрики для Prometheus и Grafana и сделать алерты, которые помогают дежурному инженеру понять критичность проблемы без гадания по дашборду.

Разобрать Kafka

+12

Panarik 6 мая в 09:23

Как собрать пайплайн с LLM агентом использующим эмуляторы Android девайсов

7 мин

Android * Java * DevOps * IT-инфраструктура * Тестирование мобильных приложений *

Туториал

LLM пока не может хорошо обращаться с Е2Е автотестами потому что для этого нужно провести целый комплекс мероприятий. Сложность возникает уже на этапе запуска такого автотеста. В отличии от юнит автотестов, Е2Е автотесты почти всегда PageObject и целый проект со своей архитектурой на базе Selenium Appium Espresso и тд.

Mag_reef 6 мая в 09:03

ИИ. ЦПУ против ГПУ — Данные и Выводы

Простой

5 мин

6.5K

GitHub * DevOps *

Обзор

Recovery Mode

Перевод

Для начала — просто гляньте на те фото и видео, которые я сгенерировал, вообще не прикасаясь к мышке или планшету. Конечно, до и после было проделано немало работы, но сам процесс создания цифрового арта не требовал ручного рисования. Так что скажем спасибо моим CPU и GPU — они реально тащили 💪

По ходу этого пути возникли интересные вопросы: когда вообще есть смысл использовать СPU, и как модели разного размера ведут себя при параллельных нагрузках? В целом, результаты получились довольно любопытными.

Жми чтоб узнать подробности!

-1

2malex 6 мая в 07:40

200 OK иногда = кома: почему API «работает», а приложение — нет (и как нам помог ИИ)

Средний

14 мин

8.4K

Блог компании Первая ФормаТестирование мобильных приложений * СофтDevOps * Разработка мобильных приложений *

Статус 200 OK коварен своей тривиальностью.

Бэкенд-тесты «зеленые», API честно отдает данные, а веб-клиент мгновенно подхватывает изменения. Кажется, что всё в порядке, но в это же время мобильные клиенты теряют работоспособность. Приложение не выдает сетевых ошибок, оно просто не может корректно обработать обновленный DTO: клиент ожидает одну структуру данных, а получает другую.

Это не баг логики сервера, а технический разрыв между живым API и замороженным артефактом — версией приложения, которая ничего не знает о правках в схеме данных, сделанных через полгода после его релиза.

В разработке нативных приложений этот рассинхрон неизбежно приводит к «генеральскому эффекту». Когда у руководства в дороге внезапно перестаёт работать ключевая функция или во время важной презентации интерфейс ведёт себя непредсказуемо на глазах у инвесторов, даже самая детальная диагностика превращается в посмертный эпиклиз.

Мониторинг здесь работает безупречно: мы видим алерты в реальном времени и получаем подробные стек-трейсы. Но толку от этой прозрачности мало, когда сделка под угрозой, а пользователь остался с нерабочим инструментом, катастрофа уже случилась.

Я Алексей Матвеев, директор по мобильным технологиям в «Первой Форме», и в нашей компании, к сожалению, такое тоже происходит. Чтобы ловить такие расхождения до релиза, нам же был нужен прогноз совместимости до того, как изменения на бэкенде затронут пользователей. Мы создали прозрачный конвейер самодиагностики, который подсвечивает нестыковки в данных еще на этапе тестирования бэкенда, гарантируя корректную работу тех версий приложения, которые уже живут на устройствах пользователей. В статье расскажу подробно, как устроено это решение.

+12

titov-tech 6 мая в 05:49

30 секунд вместо 30 минут: как мы автоматизировали генерирование конфигураций потоковой обработки с помощью RAG и A2A

Средний

23 мин

8.4K

Блог компании СберDevOps * Базы данных * Искусственный интеллект

Кейс

Привет, Хабр! Меня зовут Дмитрий Титов, я DevOps-инженер в команде интеграционных сервисов Platform V Synapse в СберТехе. Наша команда работает над продуктом Platform V Streaming Event Processing — программным решением для фильтрации и трансформации форматов событий, агрегирования и выявления аномалий и закономерностей.

В этой статье я расскажу, как мы создали систему автоматического генерирования конфигураций для одного из компонентов нашего продукта, используя RAG (Retrieval-Augmented Generation), векторные базы данных и межагентное взаимодействие по протоколу A2A.

1 2 3 4

6 7 ...

279 280