Articles / Bookmarks / Profile of sfw / Habr

How to become an author

User

ProfileArticles14PostsNewsComments26

nAbdullin Jan 15 2019 at 08:37

Kubernetes: сборка образов Docker в кластере

5 min

48K

Слёрм corporate blogSystem administration*Server Administration*Kubernetes*DevOps*

Translation

Чтобы собирать образы Docker в контейнере и при этом обойтись без Docker, можно использовать kaniko. Давайте узнаем, как запускать kaniko локально и в кластере Kubernetes.

Дальше будет многабукаф

Читать дальше →

+11

nAbdullin Jan 9 2019 at 15:08

Тестирование PostgreSQL с HugePages в Linux

4 min

17K

Слёрм corporate blogDevOps*Server Administration*System administration*

Translation

Ядро Linux предоставляет широкий спектр параметров конфигурации, которые могут повлиять на производительность. Главное — выбрать правильную конфигурацию для вашего приложения и рабочей нагрузки. Как и любой другой базе данных, PostgreSQL необходима оптимальная настройка ядра Linux. Неправильные настройки могут привести к снижению производительности. Важно проводить сравнительный анализ производительности базы данных после каждого сеанса настройки. В одном из своих предыдущих постов под названием "Tune Linux Kernel Parameters For PostgreSQL Optimization" я описал некоторые из наиболее полезных параметров ядра Linux и то, как они помогают повысить производительность базы данных. Теперь я поделюсь результатами сравнительного тестирования после настройки HugePages в Linux под различными нагрузками PostgreSQL. Я провел полный набор тестов под множеством различных нагрузок PostgreSQL с различным числом параллельных клиентов.

Читать дальше →

+24

nAbdullin Dec 29 2018 at 09:03

5 уроков, которые мы усвоили, написав более 300 000 строк инфраструктурного кода

5 min

11K

Слёрм corporate blogSystem administration*Server Administration*DevOps*

Translation

Краткий мастер-класс по разработке инфраструктурного кода

В октябре этого года я выступил с докладом на конференции HashiConf 2018, где рассказал о 5 ключевых уроках, которые я и мои коллеги из Gruntwork усвоили в процессе создания и поддержки библиотеки из более чем 300 000 строк инфраструктурного кода, используемой в производственных системах сотнями компаний. В этой публикации я поделюсь видео и слайдами с выступления, а также сокращенной текстовой версией описания 5 основных уроков.

Видео и слайды

Вступление: DevOps сейчас — в «каменном веке»

Несмотря на то, что индустрия полна модных прогрессивных слов: Kubernetes, микросервисы, сервисные сетки, неизменяемая инфраструктура, большие данные, озера данных и т. д., — реальность такова, что, когда ты с головой погружен в создание инфраструктуры, ты не чувствуешь себя таким уж модным и прогрессивным.

+12

nAbdullin Dec 26 2018 at 13:23

ChatOps в GitLab будет доступен всем

2 min

8.5K

Слёрм corporate blogDevOps*Server Administration*System administration*

Translation

ChatOps со всем своим функционалом станет бесплатным — это наш вам подарок на праздники.

Читать дальше →

+13

nAbdullin Dec 25 2018 at 17:55

Проверяем RBAC в Kubernetes

3 min

4.8K

Слёрм corporate blogDevOps*Kubernetes*Server Administration*System administration*

Translation

Одно дело обезопасить кластер Kubernetes, а вот поддерживать защиту — задачка та еще. Впрочем, в Kubernetes добавилось новых средств: теперь выполнять и то, и другое намного проще.

Читать дальше →

+14

aSkobin Dec 21 2018 at 15:04

Интенсив по Kubernetes: о работе саппортов

3 min

3.8K

Слёрм corporate blogSystem administration*Server Administration*Kubernetes*DevOps*

1-3 февраля пройдёт Слёрм-3, интенсив по Kubernetes. Анонс и программа тут.

Сегодня расскажу немного о внутренней кухне: как мы помогаем студентам справляться с практикой и что из этого получается. Заодно будущие участники поймут, чего ждать от поддержки.

Я сам 2-3 раза в год прохожу платные курсы, всегда беру варианты с практикой, и очень редко доделываю ее до конца. Для меня ситуация выглядит, как если бы я заказал в ресторане килограммовый стейк: съел, сколько мог, остальное оставил на тарелке. Но в тех, кто едет на Слёрм, хотелось бы запихнуть всю порцию.

На первом Слёрме мы отнеслись к практике спокойно, мол, мы даем задания, а участники справляются как могут. И это привело бы к катастрофе, если бы в аудитории не нашлось инициативных и талантливых парней: «15 минут назад я писал в чат о проблеме, я ее уже решил сам и помог еще пятерым».

Поэтому на втором Слёрме кроме трех спикеров со студентами работал десяток саппортов: системных администраторов из команды Southbridge.

Читать дальше →

+11

nAbdullin Dec 20 2018 at 12:34

Расширенные шаблоны многоэтапной сборки

6 min

4.4K

Слёрм corporate blogDevOps*Server Administration*System administration*

Translation

Функция многоэтапной сборки в файлах Dockerfile позволяет создавать небольшие образы контейнеров с более высоким уровнем кэширования и меньшим объемом защиты. В этой статье я покажу несколько расширенных шаблонов — нечто большее, чем копирование файлов между этапами сборки и выполнения. Они позволяют добиться максимальной эффективности функции. Однако, если Вы — новичок в сфере многоэтапной сборки, то сперва, наверное, не лишним будет прочесть руководство по использованию.

Читать дальше →

+8

nAbdullin Dec 17 2018 at 15:46

Проверки работоспособности и постепенная деградация распределенных систем

13 min

7.9K

Слёрм corporate blogDevOps*Server Administration*System administration*

Translation

Как всегда, спасибо Фреду Хеберту и Саргуну Дхиллону за то, что прочли черновик этой статьи и предложили нескольких бесценных советов.

В своем докладе о скорости Тамар Берковичи из Box подчеркнула важность проверок работоспособности при автоматическом аварийном переключении баз данных. В частности, она отметила, что мониторинг времени выполнения сквозных запросов, как метод определения работоспособности базы данных, — лучше, чем простое эхо-тестирование (пингирование).

... перебрасывая трафик на другую ноду (реплику), чтобы устранить бездействие, надо построить средства защиты от дребезга и других пограничных ситуаций. Это не сложно. Фокус при организации эффективной работы в том, чтобы знать, когда перевести базу данных в первую позицию, т.е. надо быть в состоянии правильно оценить работоспособность базы данных. Сейчас многие параметры, на которые мы привыкли обращать внимание, — например, загрузка процессора, время ожидания блокировки, частота ошибок, — являются вторичными сигналами. Ни один из этих параметров на самом деле не говорит о способности базы данных к обработке клиентского трафика. Поэтому, если используете их для принятия решения о переключении, можете получить как ложноположительные, так и ложноотрицательные результаты. Наше устройство проверки работоспособности фактически выполняет простые запросы к узлам базы данных и использует данные о выполненных и невыполненных запросах для более точной оценки работоспособности базы данных.

Я обсудила это с другом, и он предположил, что проверки работоспособности должны быть предельно простыми, и что реальный трафик — это лучший критерий для оценки работоспособности процесса.

Читать дальше →

+18

nAbdullin Dec 12 2018 at 11:44

Как мы две недели охотились на баг NFS в ядре Linux

11 min

17K

Слёрм corporate blogSystem administration*Server Administration*DevOps*

Translation

Подробное описание поисков бага из задачи GitLab, которые привели к патчу для ядра Linux

14 сентября служба поддержки GitLab сообщила о критической проблеме, которая возникла у одного из наших клиентов: сначала GitLab работает нормально, а потом у пользователей возникает ошибка. Они пытались клонировать некоторые репозитории через Git, и вдруг появлялось непонятное сообщение об устаревшем файле: Stale file error. Ошибка сохранялась надолго и не давала работать, пока системный администратор вручную не запускал ls в самом каталоге.

Пришлось изучать внутренние механизмы Git и сетевой файловой системы NFS. В итоге мы нашли баг в клиенте Linux v4.0 NFS, Тронд Мюклебуст (Trond Myklebust) написал патч для ядра, и с 26 октября этот патч входит в основное ядро Linux.

В этом посте я расскажу, как мы изучали проблему, в каком направлении думали и какие инструменты использовали, чтобы отследить баг. Мы вдохновлялись отличной детективной работой Олега Дашевского, описанной в посте «Как я две недели охотился за утечкой памяти в Ruby».

Читать дальше →

+35

nAbdullin Dec 10 2018 at 13:26

Секреты сборки и пересылка SSH в Docker 18.09

5 min

20K

Слёрм corporate blogDevOps*Server Administration*System administration*

Translation

Используя Dockerfile, всегда было сложно получить доступ к частным ресурсам. Хорошего решения просто не было. Использовать переменные среды или просто удалять секретные файлы после использования не годится: они остаются в метаданных образа. Пользователи порой шли на ухищрения: создавали многоступенчатые сборки, однако все равно приходилось соблюдать крайнюю осторожность, чтобы на финальном этапе не было секретных значений, а секретные файлы до отсечения хранились в локальном кэше сборки.

Команда сборки Docker 18.09 включает множество обновлений. Основная особенность — в том, что появился абсолютно новый вариант реализации серверной части, он предлагается в рамках проекта Moby BuildKit. Серверное приложение BuildKit обзавелось новыми функциями, среди которых — поддержка секретов сборки Dockerfile.

Читать дальше →

+19

nAbdullin Dec 7 2018 at 08:27

Высокодоступный и масштабируемый Elasticsearch в Kubernetes

13 min

18K

Слёрм corporate blogDevOps*Server Administration*System Programming*

Translation

В предыдущем посте мы масштабировали набор реплик MongoDB и познакомились со StatefulSet. Сейчас мы займемся оркестрацией кластера высокой доступности Elasticsearch (с другими мастер-нодами, нодами данных и клиентскими нодами) и задействуем ES-HQ и Kibana.

Вам понадобятся:

Базовое представление об Elasticsearch, его типах нод и их ролях.
Работающий кластер Kubernetes как минимум с тремя нодами (не меньше четырех ядер, 4 ГБ).
Умение работать с Kibana.

Читать дальше →

+12

aSkobin Dec 5 2018 at 06:37

Открыта регистрация на интенсив по Kubernetes 1-3 февраля в СПб

2 min

3K

Слёрм corporate blogDevOps*Server Administration*System administration*

Открыта регистрация на Слёрм-3.

Это трехдневный интенсив по Kubernetes для тех, кто ничего не знает о технологии или начал ее осваивать. Фишка интенсива в практике. Каждый участник сам создаст кластер в облаке Selectel, настроит его и развернет в нем приложение.

Слёрм-3 пройдет в Санкт-Петербурге 1–3 февраля 2019.

Зачем нужен Слёрм, если есть мануалы? Он экономит несколько месяцев, которые иначе вы потратили бы на чтение и самостоятельные эксперименты.

Краткая история вопроса.

Первый Слёрм прошел в августе 2018. Это был эксперимент, который удался, несмотря на кучу ошибок и проблем. Отчет.

Читать дальше →

+10

nAbdullin Dec 4 2018 at 17:10

Высокая доступность MySQL в GitHub

14 min

10K

Слёрм corporate blogSystem administration*Server Administration*DevOps*

Translation

GitHub использует MySQL в качестве основного хранилища данных для всего, что не связано с git, поэтому доступность MySQL имеет ключевое значение для нормальной работы GitHub. Сам сайт, интерфейс API на GitHub, система аутентификации и многие другие функции требуют доступа к базам данных. Мы используем несколько кластеров MySQL для обработки различных служб и задач. Они настроены по классической схеме с одним главным узлом, доступным для записи, и его репликами. Реплики (остальные узлы кластера) асинхронно воспроизводят изменения главного узла и обеспечивают доступ для чтения.

Доступность главных узлов критически важна. Без главного узла кластер не поддерживает запись, а это значит, что нельзя сохранить необходимые изменения. Фиксация транзакций, регистрация проблем, создание новых пользователей, репозиториев, обзоров и многое другое будет просто невозможно.

Для поддержки записи необходим соответствующий доступный узел – главный узел в кластере. Впрочем, не менее важна возможность определить или обнаружить такой узел.

В случае отказа текущего главного узла важно обеспечить оперативное появление нового сервера ему на замену, а также иметь возможность быстро оповестить об этом изменении все службы. Общее время простоя складывается из времени, уходящего на обнаружение сбоя, отработку отказа и оповещение о новом главном узле.

Читать дальше →

+21

nAbdullin Nov 26 2018 at 12:20

Grafana как еще один инструмент для технического мониторинга создаваемых нами программных продуктов

7 min

307K

Слёрм corporate blogDevOps*Server Administration*System administration*

Translation

Очередная статья в серии «Инструменты мониторинга Logicify» рассказывает о Grafana. Это программное средство мы используем для визуализации и анализа данных как внутренних, так и внешних проектов. Статья может быть полезна техническим директорам, разработчикам, DevOps, системным администраторам, менеджерам проектов, а также всем заинтересованным лицам.

Читать дальше →

+18

nAbdullin Nov 23 2018 at 13:11

Переход на облачную платформу Google Cloud (Google Cloud Platform – GCP)

7 min

9.4K

Слёрм corporate blogDevOps*Server Administration*System administration*

Translation

[часть 2 из 2]

[часть 1 из 2]

Как нам это удалось

Мы решили перейти на GCP, чтобы повысить производительность приложений — увеличив при этом масштаб, но без существенных затрат. Весь процесс занял более 2 месяцев. Для решения этой задачи мы сформировали специальную группу инженеров.

В этой публикации мы расскажем о выбранном подходе и его реализации, а также о том, как нам удалось достичь главной цели, — осуществить этот процесс максимально гладко и перенести всю инфраструктуру на облачную платформу Google Cloud Platform, не снижая качества обслуживания пользователей.

Читать дальше →

+16

vadimisakanov Nov 22 2018 at 08:27

Что делать, если «Черная пятница» завтра, а ваши серверы не готовы

5 min

5.3K

Слёрм corporate blogServer Administration*System administration*

Для тех, кто подсуетился с маркетингом или просто попал в струю, «Черная пятница» — это хайп, безумные заказы и толпы покупателей.

По-хорошему готовить инфраструктуру к наплыву нужно заранее, но кто у нас думает о таких вещах заранее? А бывает, решение об участии принимается накануне.

Итак, праздник консьюмеризма стартовал, серверы интернет-магазина начинают весело моргать, колл-центр перегревается, а службы доставки предлагают доставку где-нибудь в январе.
Что делать, расслабиться и смотреть на факапы философски, или отважно бороться?

Читать дальше →

+15

nAbdullin Nov 13 2018 at 19:17

Еще одна причина, почему тормозят Docker контейнеры

5 min

34K

Слёрм corporate blogDevOps*Server Administration*System administration*

Translation

В последнем посте я рассказывал о Kubernetes, о том, как ThoughtSpot использует его для собственных нужд по поддержке разработки. Сегодня хотелось бы продолжить разговор о короткой, но от того не менее интересной истории отладки, которая произошла совсем недавно. Статья базируется на том, что containerization != virtualization. К тому же наглядно показывается, как контейнеризированные процессы конкурируют за ресурсы даже при оптимальных ограничениях по cgroup и высокой производительности машины.

Читать дальше →

+50

nAbdullin Nov 9 2018 at 18:47

Дважды подумайте, прежде чем использовать Helm

4 min

19K

Слёрм corporate blogDevOps*Server Administration*System administration*

Translation

Helm без хайпа. Трезвый взгляд

Helm — это менеджер пакетов для Kubernetes.

На первый взгляд, неплохо. Этот инструмент значительно упрощает процесс релиза, но порой может и хлопот доставить, ничего не попишешь!

Читать дальше →

+8

aSkobin Nov 8 2018 at 15:00

Дорогие курсы: стоит ли оно того?

2 min

9.2K

Слёрм corporate blogDevOps*Server Administration*System administration*

В августе Southbridge провели интенсив по Кубернетес Слёрм-1.
В октябре мы его повторили (Слёрм-2) и добавили продвинутый курс (МегаСлёрм).

Удовольствие не из дешевых: Слёрм-2 стоил 35 000 ₽, МегаСлёрм — 75 000 ₽ (онлайн 15 и 35). Я общался с заказчиками, участниками и спикерами, проводил опросы и собирал статистику.

Вот мои наблюдения о том, кто что получил за свои деньги. Многие выводы можно экстраполировать на платные курсы в целом.

1. Слёрм помогает определиться по Кубернетес

Оказалось, понимание «нам подходит Кубернетес» ценнее, чем «мы можем в Кубернетес».

Руководители, отправляя своих инженеров (разработчиков, администраторов) на Слёрм, декларировали: «Пусть пощупает технологию и решит, подходит ли она для наших задач».

Участники Слёрма-1 рассказывали: «После интенсива мы внедрили Кубернетес, теперь я приехал на МегаСлёрм».

3 дня интенсива — в самый раз, чтобы увидеть технологию в полный рост, а не в режиме «Рабинович по мануалам установил». Тут даже вопросов нет, оно того стоит.

+14

nAbdullin Nov 4 2018 at 07:48

Легкое плавание с Kubernetes (комикс)

28K

Слёрм corporate blogDevOps*Server Administration*System administration*

Translation

Читать дальше →

+35

1 2 ...

21

22 23 ...