Комментарии / Профиль r3code / Хабр

Дмитрий Синявский@r3code

SRE

Рейтинг

Подписчики

Хабр Карьера Хабр Эксперты

ПрофильСтатьи38ПостыНовостиКомментарии502

От пожарных к продакшену: что IT-команды могут почерпнуть у профессионалов реагирования на инциденты

r3code 12 фев в 09:59

"Посему можно было видеть как лейтенант руководит тушением, а полковники тягают рукава. Не потому что лейтенант самый умный, просто он приехал первый и видел ситуацию в развитии, знает кто, где и что делает." - полезное замечание.

От пожарных к продакшену: что IT-команды могут почерпнуть у профессионалов реагирования на инциденты

r3code 12 фев в 09:56

Кстати в IT тоже такая практика, по крайней мере у нас это происходит естественным путем. Важно, только в данных по инциденту отразить кто руководит, чтобы все приходящие на инцидент знали от кого ждать инструкций.

От пожарных к продакшену: что IT-команды могут почерпнуть у профессионалов реагирования на инциденты

r3code 12 фев в 09:54

А можешь пояснить, что занит "любой пожарный изменивший распоряжение Руководителя тушения"? Читается, что будто любой пожарный может изменять распоряжения Руководителя тушения, что странно.

Как мы собрали фронт без фронтендера за неделю: AI-ассистент + дизайн-система

r3code 11 фев в 09:32

Вот кстати даже есть вспомогательне тулы для подобного же подхода https://github.com/github/spec-kit - набор инструментов для разработки Spec Driven Development: требования сначала формализуются, после чего AI помогает превратить их в план, задачи и затем уже реализовывать

Vector.dev: отравленные события — как всё сломать тихо и надолго

r3code 21 дек 2025 в 06:30

Свои менее крупные, но более частые заметки я веду в тг-канале https://t.me/letitkit, если вам интересна тема SRE, Observability и инженерные заметки, то приглашаю.

-1

Почему я выбрал Warp, а не Cursor или Claude Code: мои инструменты, MCP, подход и конкретные приёмы разработки с LLM

r3code 11 ноя 2025 в 18:46

А оно в ide типа vscode подключается или все в онлайне ?

CDN Плацебо: Когда сети доставки контента замедляют сайты

r3code 28 сен 2025 в 20:42

" Овerage-расходы:" - это что за винегрет из кирилицы и латиницы? Будто GPT криво написал

Как я перестал гнаться за 100% аптаймом

r3code 30 авг 2025 в 11:21

Как хорошо, что еще один человек понял, то что доносит SRE Workbook.

100% аптайм - это 100% надежность. А что это значит на бытовом уровне? То что вы ожидаете , что ваш сервис успешно будет работать после взрыва солнца и схлопывания его в чёрную дыру.

Есть отличный проект https://map.r9y.dev/beck/map.html - карата, которая показывает сколько всего вам нужно, чтобы держать выбранное количество девяток. А как мы знаем переход на следующую девятку, это затраты на порядок больше на поддержание такого сервиса в работе. Нужно ловить баланс. Ручей можно и на дырявой лодке переплыть, если даже после выхода на берег она утонула - для такой цели ее надежности хватило.

Если у вас появились еще вопросы про SLO и вам интересно узнать, как это работает у других - приглашаем в сообщество ALLSLO https://t.me/allslo_ru

SRE: паттерны Reliability

r3code 29 авг 2025 в 22:52

Если одна перегородка скомпрометирована, вода попадает только в эту перегородку, спасая корабль от затопления

Если в отсеке пробоина, то вода попадает только в этот отсек, а переборки спасают от проникновения воды в соседние отсеки.
В кораблях корпус разделяется переборками на отсеки.

Что такое Ansible и как применяется в DWH-проектах? Сравнение Ansible с Puppet, Chef, SaltStack

r3code 21 апр 2025 в 05:58

Возможно для людей из разработки DWH, тут открыли новый мир. Но это лишь инструмент автоматизации. И подбирать надо под задачу. Тут описаны лишь задачи развертывания и конфигурирования, а инструменту в принципе пофиг, что разворачивать.

Как просвящение для коллег - хорошо.

Telescope — web-based log viewer UI

r3code 16 мар 2025 в 19:33

Я подумал, что сортировка не сделана из-за issue ClickHose с order by и limit - он выбирает вообще все столбцы даже, те что в сортировке не нужны. Потому, если указать в запросе Attributes и Resources, то запрос очень долго будет отрабатывать или помрет, т.к. будет грузить гигабайты данных.

Мы это обходим или не используя order by, или с подзапросом.

Telescope — web-based log viewer UI

r3code 16 мар 2025 в 19:25

Вопрос: можно ли настроить кастомно поля для логов Otel? Они у себя имеют ResourceAttributes и LogAttributes, а у меня они Attributes и Resource.

Telescope — web-based log viewer UI

r3code 16 мар 2025 в 19:25

Честно говоря уже не помню.

FlyQL напомнил DataDog язык запросов.

Telescope — web-based log viewer UI

r3code 14 мар 2025 в 15:51

Я ваш проект видел пару недель назад. Только тогда не задалось с демкой, не пускало.
Выглядит приятно. Напоминает DataDog. Интересно сделано решение с добавлением фильтров по полям по выбранному сообщению.

FlyQL - это вы сами придумали DSL?

Сортировка логов жестко зашита?

Почему observability — это не только Grafana и Prometheus

r3code 1 мар 2025 в 11:03

Вообще стоит описывать, что конкретно вы считаете за Observability, т.к. люди могут наткнуться на разные толкования и будет разлад.

В моем словаре наблюдаемость (Observability) - это возможность по конечным сигналам (телеметрия) понять состояние системы в нужный момент времени.

Если сигналов недостаточно, то приходиться догадываться/домысливать, а не по фактам выстраивать картину.

Пайплайны записи своими руками: думали — велосипед, оказалось — паттерны

r3code 20 ноя 2024 в 13:28

@polRk можете дать ответ на вопросы выше?

Пайплайны записи своими руками: думали — велосипед, оказалось — паттерны

r3code 19 ноя 2024 в 19:32

Я правильно понимаю, что вы предлагаете хранить в YDB вообще все виды данных: логи, трейсы и метрки?
Вот эта фраза " И это явно работает быстрее и надежнее чем Kafka + VM" - на основе чего вы сделали данный ввод? Видимо располагаете бенчмарком? Можете показать?

Как ELK довел нас… до Vector.dev и Clickhouse

r3code 6 ноя 2024 в 07:52

Все упирается в налисияе мощностей и прогнозов роста. Есть пределы.

5-30% - это от чего замер?

Если ресурсы не проблема, то можно вообще трафик сохранять )) Но обычно это не так и есть реальные ограничения в которые надо уложиться.

Про OpenTelemetry - что за критические такие сбои? Это мол когда у тебя приложение внезапно крашнулось? Но оно тогда ничего и не успеет написать никуда. И ничто не мешает логи библиотекой otel плевать в stdout и оттуда собирать в коллектор.

Как ELK довел нас… до Vector.dev и Clickhouse

r3code 4 ноя 2024 в 15:51

обычно в больших проектах только выше уровня error сохраняют, ведь с debug/trace затраты будут мама не горюй.

Да на маленьких можно вообще все тело запроса/ответа сохранять )

Но на больший проектах постоянно такое делать - дорого.

Я вот завидую OpenTelemetry, если код передает трейсы и доги через него, тот при семплировпнии библиотека знает, что и лог надо сохранить с ним вместе. Обычно если спмплировпние 0.001% на нагруженном сервисе на трейсы и на логи, то трейс с логом редко найдешь.

Практики SRE: стандартизация логов

r3code 30 окт 2024 в 18:48

Да, мы развлекались с 1С ) )

Но можно решить кастрмным адаптером на агенте или на агрегаторе vector.

В схеме с моделью Opentelemetry log model можно вообще по началу без разбора всю строку сообщения как есть класть в поле Body. Мы так делали например, когда срочно надо было собрать логи с LinkerD, а они были еще в plaintext и на json быстро нельзя было перевести.

В нашем алгоритме мы сохраняем сообщение целиком в Body поле и в случае, когда распарсить не удалось.

2 3 ...

25 26

Информация

Специализация