Виктор Ягофаров @Nastradamus

DevOps, Kubernetes, Monitoring, Postgres, Golang

Профиль Публикации 9Комментарии 837Закладки 169

terranus 15 окт 2021 в 11:55

Партицирование таблиц в PostgreSQL: чек-лист для старта

13 мин

42K

PostgreSQL*SQL*Блог компании Skyeng

Часто возникает проблема: одна из таблиц в базе данных сильно выросла и время выполнения запросов к этой таблице увеличилось. Одним из вариантов решения подобной проблемы в PostgreSQL является партицирование. В статье затронем не только техническую реализацию, но и опишем этапы подготовки к партицированию.

Представим, что у нас есть батон хлеба. Порежем его на части. Каждый отрезанный кусочек — часть целого батона, но не сам батон. То есть мы поделили целое на части — это и есть партицирование. Батон как целое соответствует таблице, а кусочки батона как части — партициям этой таблицы.

+23

petr-korobeinikov 17 мая 2023 в 11:00

Несколько мыслей по подготовке к алгоритмической части собеседования

Простой

9 мин

8.2K

Алгоритмы*Блог компании CloudMTSGo*Карьера в IT-индустрииЛайфхаки для гиков

Роадмэп

Всем привет! На связи снова Петр Коробейников, техлид сервисов DBaaS for Redis и RabbitMQ (релиз скоро) в #CloudMTS. В этой статье хочу поделиться с вами некоторым опытом подготовки к прохождению алгоритмических интервью. Конечно, статья не про хардкорные алгоритмы. Это, скорее, эскиз к роадмапу по подготовке. Тем не менее, я надеюсь, он будет полезен новичкам (и даже некоторым «старичкам»).

Готовьтесь

Это первый и самый важный совет. Если вы думаете, что, ворочая базами в десятки терабайт, вывозя 50-100k RPS к фронту, обрабатывая десятки миллионов сообщений в Kafka, вы сможете перенести свой опыт на решение алгоритмических задач, то могу вас немного расстроить.

Двоичное дерево без подготовки вы сможете покрутить в лучшем случае только на неприличном месте. Это чем-то похоже на экзамен по математике или физике: вы не сможете вывести формулу, если не знакомы с теорией и не решали задачи заранее. И вас будет ждать обидный провал.

Читать дальше →

+19

Rast1234 30 сен 2022 в 09:05

Человеческим языком про метрики 3: перцентили для чайников

10 мин

92K

Анализ и проектирование систем*IT-инфраструктура*DevOps*Микросервисы*Блог компании Точка

Туториал

Это третья статья из цикла. В прошлой части мы разбирали типы метрик, и уже там начали встречаться перцентили. Это полезная штука, но для неподготовленного читателя она выглядит просто как математическая дичь. Эта статья поможет разобраться в перцентилях по-инженерному, не заканчивая профильный факультет.

+19

Rast1234 5 сен 2022 в 09:05

Человеческим языком про метрики 2: Prometheus

10 мин

69K

Анализ и проектирование систем*IT-инфраструктура*DevOps*Микросервисы*Блог компании Точка

Туториал

Это вторая статья из цикла. В первой, вводной, я рассказывал, как устроены метрики для сервисов, чем отличаются от логов, и какую задачу вообще решают. Теперь подробнее про то, как их готовить.

Под катом: формат данных, способы отправки, типы метрик и их применение, кардинальность.

+16

driveirk 2 ноя 2021 в 11:33

ElasticSearch: отказоустойчивый сервер отказал

8 мин

13K

Open source*Big Data*Хранилища данных*Блог компании DINSData Engineering*

Технотекст 2021

Всем привет, меня зовут Илья, я работаю в компании DINS на должности инженера отдела мониторинга. В этой статье расскажу о нашей боли при работе с ElasticSearch. Мне не удалось найти решение этой проблемы где-либо ещё, поэтому, думаю, этот туториал будет интересен всем, кто использует ElasticSearch.

Читать дальше →

+32

IDWarlock 15 июн 2021 в 10:00

Как оптимизировать ограничения ресурсов Kubernetes

5 мин

5.6K

Блог компании Timeweb CloudDevOps*Kubernetes*

Туториал

Перевод

Поиск оптимальных значений для ограничения ресурсов Kubernetes — непростая задача, поскольку вам нужно найти золотую середину между слишком жесткими и недостаточными ограничениями.

В этой статье, которая является продолжением серии статей о рациональном использовании ресурсов в Kubernetes, вы узнаете, как выбрать правильные ограничения ресурсов Kubernetes: от обнаружения контейнеров без каких-либо ограничений до определения оптимальных параметров, которые вы должны установить в своем кластере.

Prometheus — одно из самых популярных решений для мониторинга кластеров Kubernetes. Поэтому каждый шаг в этом руководстве содержит примеры запросов PromQL.

adterskov 13 мар 2021 в 13:59

Подборка телеграм-каналов для DevOps инженеров

3 мин

31K

DevOps*Kubernetes*

Из песочницы

Приветствую, братцы!

Задача получения актуальной информации и совета опытных коллег сегодня актуальна как никогда. С одной стороны, сложно превзойти крупнейшие ИТ-сообщества в Slack. С другой стороны, важно иметь контакт с коллегами в нашей стране, в своем городе. Телеграм за последние годы стал крупнейшей площадкой для русскоязычного ИТ-сообщества, присоединяйтесь, не отставайте :)

Подборка телеграм-каналов и чатов

+14

distol 16 июл 2019 в 14:19

Автомасштабирование и управление ресурсами в Kubernetes (обзор и видео доклада)

8 мин

18K

Системное администрирование*IT-инфраструктура*DevOps*Блог компании ФлантKubernetes*

27 апреля на конференции Стачка-2019, в рамках секции «DevOps», прозвучал доклад «Автомасштабирование и управление ресурсами в Kubernetes». В нём рассказывается о том, как с помощью K8s обеспечить высокую доступность приложений и гарантировать их максимальную производительность.

По традиции рады представить видео с докладом (44 минуты, гораздо информативнее статьи) и основную выжимку в текстовом виде. Поехали!

Читать дальше →

+42

RomanenkoDenys 28 сен 2020 в 18:00

Автоскейлинг приложений Kubernetes при помощи Prometheus и KEDA

9 мин

7.5K

Блог компании VKDevOps*Kubernetes*

Перевод

Balloon Man by Cimuanos

Масштабируемость — ключевое требование для облачных приложений. С Kubernetes масштабировать приложение так же просто, как и увеличить количество реплик для соответствующего развертывания или ReplicaSet — но это ручной процесс. Команда Kubernetes aaS от Mail.ru реализовала в своем сервисе автоматическое машстабирование на уровне кластеров. Ну а если вы хотите оптимизироваться на уровне подов — то следуйте рекомендациям этого перевода.

Kubernetes позволяет автоматически масштабировать приложения (то есть Pod в развертывании или ReplicaSet) декларативным образом с использованием спецификации Horizontal Pod Autoscaler. По умолчанию критерий для автоматического масштабирования — метрики использования CPU (метрики ресурсов), но можно интегрировать пользовательские метрики и метрики, предоставляемые извне.

Это статья о том, как использовать внешние метрики для автоматического масштабирования приложения Kubernetes. Чтобы показать, как все работает, автор использует метрики запросов HTTP-доступа, они собираются с помощью Prometheus.

Вместо горизонтального автомасштабирования подов, применяется Kubernetes Event Driven Autoscaling (KEDA) — оператор Kubernetes с открытым исходным кодом. Он изначально интегрируется с Horizontal Pod Autoscaler, чтобы обеспечить плавное автомасштабирование (в том числе до/от нуля) для управляемых событиями рабочих нагрузок. Код доступен на GitHub.

Читать дальше →

+27

IlyaArens 6 мар 2020 в 14:35

Kubernetes tips & tricks: особенности выполнения graceful shutdown в NGINX и PHP-FPM

8 мин

18K

Системное администрирование*DevOps*Блог компании ФлантKubernetes*

Типовое условие при реализации CI/CD в Kubernetes: приложение должно уметь перед полной остановкой не принимать новые клиентские запросы, а самое главное — успешно завершать уже существующие.

Соблюдение такого условия позволяет достичь нулевого простоя во время деплоя. Однако, даже при использовании очень популярных связок (вроде NGINX и PHP-FPM) можно столкнуться со сложностями, которые приведут к всплеску ошибок при каждом деплое…

Читать дальше →

+45

splarv 27 авг 2020 в 14:47

Моделирование отказоустойчивых кластеров на базе PostgreSQL и Pacemaker

12 мин

11K

Тестирование IT-систем*PostgreSQL*IT-инфраструктура*Администрирование баз данных*Блог компании Домклик

Введение

Некоторое время назад передо мной поставили задачу разработать отказоустойчивый кластер для PostgreSQL, работающий в нескольких дата-центрах, объединенных оптоволокном в рамках одного города, и способный выдержать отказ (например, обесточивание) одного дата-центра. В качестве софта, который отвечает за отказоустойчивость, выбрал Pacemaker, потому что это официальное решение от RedHat для создания отказоустойчивых кластеров. Оно хорошо тем, что RedHat обеспечивает его поддержку, и тем, что это решение универсальное (модульное). С его помощью можно будет обеспечить отказоустойчивость не только PostgreSQL, но и других сервисов, либо используя стандартные модули, либо создавая их под конкретные нужды.

К этому решению возник резонный вопрос: насколько отказоустойчивым будет отказоустойчивый кластер? Чтобы это исследовать, я разработал тестовый стенд, который имитирует различные отказы на узлах кластера, ожидает восстановления работоспособности, восстанавливает отказавший узел и продолжает тестирование в цикле. Изначально этот проект назывался hapgsql, но со временем мне наскучило название, в котором только одна гласная. Поэтому отказоустойчивые базы данных (и float IP, на них указывающие) я стал именовать krogan (персонаж из компьютерной игры, у которого все важные органы дублированы), а узлы, кластеры и сам проект — tuchanka (планета, где живут кроганы).

Сейчас руководство разрешило открыть проект для open source-сообщества под лицензией MIT. README в скором времени будет переведен на английский язык (потому что ожидается, что основными потребителями будут разработчики Pacemaker и PostgreSQL), а старый русский вариант README я решил оформить (частично) в виде этой статьи.

Krogan on Tuchanka

Читать дальше →

+25

PZ1 26 июн 2020 в 11:13

Хаос-инжиниринг и непрерывная проверка прода

24 мин

3.7K

Тестирование IT-систем*Accessibility*Промышленное программирование*Тестирование веб-сервисов*Блог компании Домклик

Перевод

Кейси Розенталь (Casey Rosenthal), CEO и сооснователь Verica.io, выступил на митапе Test in Production. Кейси развенчал некоторые мифы о надёжности и объяснил, что многие интуитивные действия по увеличению надёжности систем на самом деле контрпродуктивны. Более того, он объяснил, как концепция непрерывной проверки (Continuous Verification) помогает разработчикам избегать таких подводных камней.

Полное выступление Кейси:

Текст выступления для тех, кто предпочитает читать, а не смотреть

+32

fantomius 5 июн 2020 в 11:24

Как мы организовали анализ и обработку данных в ДомКлик

5 мин

4.5K

Машинное обучение*Управление проектами*Блог компании Домклик

Из песочницы

Анализ и обработка данных — одно из ключевых направлений любой современной компании. У нас в ДомКлике оно существует с 2016 года, когда был нанят первый data scient’ист. С тех пор утекло много воды, менялись задачи и приоритеты, мы развивались. Сегодня у нас в этой области работает около 40 специалистов. Одна половина разрабатывает модели машинного обучения, а другая — поддерживает контур данных: создает хранилище, проверяет качество и так далее.

Казалось бы — что сложного — организовать работу нескольких команд? Есть данные, есть специалисты по их обработке, по идее на выходе должен быть Profit? Однако, как показывает наш опыт, простая мысль «хорошо делать — хорошо, а плохо делать — плохо» работает как минимум не всегда. Нужно искать ответы на множество вопросов — как встраивать Data Science команды в уже сформировавшуюся организацию, как обеспечить высокое качество и скорость разработки моделей, как эффективно наполнять бэклог новыми задачами — все это вопросы, на которые мы искали ответы.

Меня зовут Алексей Кузьмин, я руковожу направлением Data Science и работы с данными в ДомКлике. И в этой статье я расскажу о том, как мы решаем эти проблемы и как поддерживаем работу такого большого коллектива.

Читать дальше →

+31

Nastradamus 18 мая 2020 в 16:31

Как собрать NGINX Ingress Controller старой версии и пропатчить его

2 мин

2.5K

Программирование*Go*Kubernetes*Блог компании Домклик

Туториал

В данной HOWTO мы исправим баг в древней версии nginx ingress controller v0.20.0 и научимся работать с зависимостями Go старых версий через dep + vendor.

simple

Читать дальше →

+16

AlexK23 15 мая 2020 в 16:18

Варим байткод на кухне JVM

8 мин

14K

Программирование*Java*Kotlin*Блог компании Домклик

Меня зовут Александр Коцюруба, я руковожу разработкой внутренних сервисов в компании ДомКлик. Многим разработчикам, пишущим на Java, с опытом приходит понимание внутреннего устройства JVM. Чтобы облегчить этот путь Java-самурая, я решил простым языком изложить основы виртуальной машины Java (JVM) и работы с байткодом.

Что такое таинственный байткод и где он обитает?

Постараюсь ответить на этот вопрос на примере приготовления солений.

Читать дальше →

+33

GennadyVasilkov 30 апр 2020 в 12:37

Почему мы выбрали Kotlin одним из целевых языков компании. Часть 2: Kotlin Multiplatform

9 мин

Разработка мобильных приложений*Kotlin*Блог компании Домклик

Продолжаем цикл статей о внедрении языка Котлин в наш процесс разработки. Первую часть ищите здесь.

В 2017 году увидел свет амбициозный проект от компании Jetbrains, предлагающий новый взгляд на кросс-платформенную разработку. Компиляция кода на kotlin в нативный код различных платформ! Мы же в Домклике в свою очередь всегда ищем способы для оптимизации процесса разработки. Что может быть лучше переиспользования кода, подумали мы? Правильно — не писать код вообще. И чтобы всё работало так, как хочется. Но пока так не бывает. И если есть решение, которое позволило бы нам, не затрачивая слишком больших усилий, использовать единую кодовую базу для разных платформ, почему бы не попробовать?

Итак, всем привет! Меня зовут Геннадий Васильков, я андроид разработчик в компании Домклик и сегодня я хочу поделиться с вами нашим опытом разработки на Kotlin Multiplatform для мобильных устройств, рассказать с какими трудностями мы столкнулись, как решали и к чему в итоге пришли. Тема наверняка будет интересна тем, кто хочет попробовать Kotlin MPP (Multiplatform projects), либо уже попробовал, но не довёл до продакшена. Либо довёл, но не так как хотелось бы. Я попробую донести наше видение того, как должен быть устроен процесс разработки и доставки разработанных библиотек (на примере одной из них расскажу начало нашего пути становления в Kotlin MPP).

Желаете историй как у нас всё получилось? Их есть у нас!

Поехали

+13

pasivash 24 апр 2020 в 10:57

Оперативная аналитика в микросервисной архитектуре: п̶о̶н̶я̶т̶ь̶ ̶и̶ ̶п̶р̶о̶с̶т̶и̶т̶ь̶ помочь и подсказать Postgres FDW

9 мин

5.1K

PostgreSQL*Хранение данных*Хранилища данных*Data Engineering*Блог компании Домклик

Микросервисная архитектура, как и все в этом мире, имеет свои плюсы и свои минусы. Одни процессы с ней становятся проще, другие — сложнее. И в угоду скорости изменений и лучшей масштабируемости нужно приносить свои жертвы. Одна из них — усложнение аналитики. Если в монолите всю оперативную аналитику можно свести к SQL запросам к аналитической реплике, то в мультисервисной архитектуре у каждого сервиса своя база и, кажется, что одним запросом не обойтись (а может обойтись?). Для тех, кому интересно, как мы решили проблему оперативной аналитики у себя в компании и как научились жить с этим решением — welcome.

Меня зовут Павел Сиваш, в ДомКлике я работаю в команде, которая отвечает за сопровождение аналитического хранилища данных. Условно нашу деятельность можно отнести к дата инженерии, но, на самом деле, спектр задач гораздо шире. Есть стандартные для дата инженерии ETL/ELT, поддержка и адаптация инструментов для анализа данных и разработка своих инструментов. В частности, для оперативной отчетности мы решили «притвориться», что у нас монолит и дать аналитикам одну базу, в которой будут все необходимые им данные.

Читать дальше →

+16

Svetlana_get-it 7 апр 2020 в 11:00

Коронавирус, кризис и последствия для IT

9 мин

15K

Управление проектами*Исследования и прогнозы в IT*IT-эмиграцияКарьера в IT-индустрии

Recovery Mode

По мнению Михаила Задорнова, председателя правления банка «Открытие», экономику ждёт рецессия. Каждый день из-за пандемии малый и средний бизнес, туристическая сфера, авиакомпании, сфера услуг и развлечений терпит убытки, это миллионы рублей. Всё это влияет и повлияет на IT в ближайшее время — будет меньше работы, меньше зарплаты и трудности с релокацией.

Коронавирус и кризис уже сказался на экономике, и, как следствие, затронет разработчиков, тестировщиков, DevOps и менеджеров. Я не врач и не экономист, а 10 лет занимаюсь рекрутингом в IT и и пандемия также повлияет на мою работу. В статье я собрала мнения нескольких руководителей IT-компаний, изучила немного статистики и материала по теме, и попробую дать частный прогноз развития ситуации. Как меняется рынок труда в IT и будет меняться из-за коронавируса и кризиса, что происходит с заказчиками, что делают и думают CTO о текущей ситуации, что у них с наймом, как это повлияет на разработчиков в ближайшее время.

Дисклеймер. Статья написана не для того, чтобы вас напугать. Это личное мнение, основанное на размышлениях, статистике, статьях (много ссылок в тексте) и попытке экстраполяции текущих событий на несколько месяцев или год вперед. Буду рада, если поделитесь своим мнением и видением ситуации.

Читать дальше →

+17

Rinck 3 апр 2020 в 13:20

Создание дополнительного kube-scheduler’a с кастомным набором правил планирования

14 мин

4.4K

Системное администрирование*Серверное администрирование*DevOps*Блог компании NixysKubernetes*

Kube-scheduler является неотъемлемым компонентом Kubernetes, который отвечает за планирование подов по нодам в соответствии с заданными политиками. Зачастую, в процессе эксплуатации Kubernetes-кластера нам не приходится задумываться о том, по каким именно политикам происходит планирование подов, так как набор политик дефолтного kube-scheduler’a подходит для большинства повседневных задач. Однако встречаются ситуации, когда нам важно тонко управлять процессом распределения подов, и для выполнения этой задачи есть два пути:

Читать дальше →

+11

Nastradamus 3 апр 2020 в 13:00

Отладка высоконагруженных Golang-приложений или как мы искали проблему в Kubernetes, которой не было

4 мин

8.4K

Системное администрирование*Системное программирование*Go*Kubernetes*Блог компании Домклик

В современном мире Kubernetes-облаков, так или иначе, приходится сталкиваться с ошибками в программном обеспечении, которые допустил не ты и не твой коллега, но решать их придется тебе. Данная статья, возможно, поможет новичку в мире Golang и Kubernetes понять некоторые способы отладки своего и чужого софта.

Меня зовут Виктор Ягофаров, я занимаюсь развитием Kubernetes-облака в компании ДомКлик, и сегодня хочу рассказать о том как мы решили проблему с одним из ключевых компонентов нашего production k8s (Kubernetes) кластера.

В нашем боевом кластере (на момент написания статьи):

запущено 1890 pod'ов и 577 сервисов (количество реальных микросервисов тоже в районе этой цифры)
Ingress-контроллеры обслуживают около 6k RPS и примерно столько же идёт мимо Ingress сразу в hostPort.

Читать дальше →

+30

2 3 ...

7 8