Articles / Bookmarks / Profile of LuckySB / Habr

@LuckySB

User

Profile Publications 16Comments 89Bookmarks 78

Finnix Sep 11 2020 at 23:00

Оценка производительности CNI для Kubernetes по 10G сети (август 2020)

5 min

7.4K

System administration*Server Administration*Слёрм corporate blogDevOps*Kubernetes*

Translation

TL;DR: Все CNI работают как надо, за исключением Kube-Router и Kube-OVN, Calico за исключением автоматического определения MTU — лучше всех.

Читать дальше →

+16

LuckySB Dec 10 2019 at 15:43

Kubernetes 1.17 — как обновиться и не потратить весь error budget

2 min

3.5K

Слёрм corporate blogDevOps*Kubernetes*

9 декабря вышла очередная версия Kubernetes — 1.17. Ее девиз — «Стабильность», множество фич получили статус GA, некоторое количество устаревших фич было удалено…

И, как всегда, наш любимый раздел Action Required файла CHANGELOG-1.17.md требует к себе внимания.

Поработаем руками…

Читать дальше →

+14

aSkobin Nov 29 2019 at 00:00

Слёрм: на онлайн-курсы скидка 50% в честь Черной пятницы

1 min

4.2K

System administration*Server Administration*Слёрм corporate blogDevOps*Kubernetes*

Лично я не люблю скидки. Большие скидки означают, что цена изначально была мощно заряжена.
Если есть резерв, лучше уменьшить цену. Первый Слёрм Мега стоил 75 тысяч, вторая Мега — 60, а третья стоит 50.

С другой стороны, мне нравится традиция Черной пятницы, пусть она и опошлена в России конским подъемом цен накануне.

Мы не можем скинуть цену на интенсивы (некуда), но можем нарушить принцип «единая цена на все формы обучения: зал, удаленка, онлайн».

29 ноября, ровно на сутки, Слёрм делает скидку 50% на все онлайн-курсы. Слёрм Kubernetes (Джуниор + База + Мега) можно купить за 32 500 рублей, а новый Слёрм Пром (Prometheus) за 7500 рублей. Не забывайте указывать промокод BF19.

Если прямо сейчас денег нет, или бюджет надо обсуждать с руководством, оставьте заявку, пока есть скидка, а по срокам оплаты договоримся.

+14

aSkobin Oct 22 2019 at 11:53

Заделываем дыры в кластере Kubernetes. Доклад и расшифровка с DevOpsConf

14 min

10K

System administration*Server Administration*Слёрм corporate blogDevOps*Kubernetes*

Павел Селиванов, архитектор решений Southbridge и преподаватель Слёрма, выступил с докладом на DevOpsConf 2019. Этот доклад — часть одной из тем углубленного курса по Kubernetes «Слёрм Мега».

Слёрм Базовый: введение в Kubernetes проходит в Москве 18-20 ноября.
Слёрм Мега: заглядываем под капот Kubernetes — Москва, 22-24 ноября.
Слёрм Онлайн: оба курса по Kubernetes доступен всегда.

Под катом — расшифровка доклада.

+27

Finnix Sep 19 2019 at 15:14

Моя вторая неделя с Haiku: множество скрытых алмазов и приятных сюрпризов, а также некоторые проблемы

8 min

8.8K

Open source*System administration*Слёрм corporate blogSoftware

Translation

Редактирование снимка экрана для этой статьи — в Haiku

TL;DR: Производительность намного лучше, чем изначально. Виноват был ACPI. Запуск в виртуальной машине работает прекрасно для показа экрана. Git и менеджер пакетов встроены в файловый менеджер. Публичные беспроводные сети не работают. Разочарование с python.

Читать дальше →

+21

JohnRico Sep 18 2019 at 21:06

Путешествие по ЦОД Selectel. Динозавр в огне, VMware, С2F5H и невидимый оборотень

13 min

12K

System administration*IT Infrastructure*Virtualization*Слёрм corporate blogData storages*

Работа сисадмина основана на вере, что инженеры ЦОДа знают свое дело. Мы создаем отказоустойчивые кластеры, но чего будет стоить эта отказоустойчивость, если отключится электричество? Какая разница, как быстро сервер обрабатывает запрос, если упал канал от ЦОДа до точки обмена трафиком? Как поднимать сервер, если он физически перегрелся?

А хотелось бы не верить, а знать, как именно создается отказоустойчивость на железном уровне. Откуда берутся те «девятки» надежности оборудования, о которых мы говорим, формулируя SLA Кубернетесов. Что происходит, когда проект горит в самом прямом смысле этого слова.

Нам повезло пройтись по ЦОД Selectel на третий день Слёрма DevOps, заглянуть в святая святых и даже кое-что сфотографировать на память. А также мы спросили о легендах компании, которые сотрудники Selectel никому никогда не рассказывают. Да и как выяснилось, сами уже не помнят.

Нашу компанию Southbridge связывают с Selectel давние партнёрские отношения. Сейчас мы поддерживаем 58 проектов, размещенных на серверах провайдера. Когда клиенту нужен сервер, расположенный в России, мы рекомендуем Selectel, потому что по опыту работы считаем его самым надежным и удобным провайдером IT-инфраструктуры.

Поехали!

Читать дальше →

+34

LuckySB Sep 18 2019 at 18:57

Kubernetes 1.16 — как обновиться и ничего не сломать

3 min

6.3K

Слёрм corporate blogDevOps*Kubernetes*

Сегодня, 18 сентября, выходит очередная версия Kubernetes — 1.16. Как всегда нас ждет много улучшений и новинок. Но я хотел бы обратить ваше внимание на разделы Action Required файла CHANGELOG-1.16.md. В этих разделах публикуются изменения, которые могут сломать работу вашего приложения, инструментов по обслуживанию кластера или требуют внесения изменений в файлы конфигурации.

В общем, требуют ручного вмешательства…

Читать дальше →

+30

nAbdullin Sep 18 2019 at 11:33

Разбор: ООМ на узле Kubernetes

5 min

10K

System administration*Server Administration*Слёрм corporate blogDevOps*

Translation

Проблемы в производственной среде — это всегда беда. Происходят именно тогда, когда уходишь домой, а причина всегда кажется глупой. Недавно у нас на узлах в кластере Kubernetes закончилась память, правда узел тут же восстановился, без видимых прерываний. Сегодня мы расскажем об этом случае, о том, какой урон мы понесли и как намерены избегать подобной проблемы в будущем.

Случай первый

Суббота, 15 июня 2019 г., 17:12

Читать дальше →

+24

nAbdullin Sep 12 2019 at 17:16

Лучшие практики для контейнеров Kubernetes: проверки работоспособности

7 min

8.6K

System administration*Server Administration*Слёрм corporate blogDevOps*

Translation

TL;DR

Чтобы добиться высокой наблюдаемости контейнеров и микросервисов, журналов и первичных метрик мало.
Для более быстрого восстановления и повышения отказоустойчивости приложения должны применять Принцип высокой наблюдаемости (HOP, High Observability Principle).
На уровне приложение для НОР требуется: должное журналирование, тщательный мониторинг, проверки работоспособности и трассировки производительности/переходов.
В качестве элемента НОР используйте проверки readinessProbe и livenessProbe Kubernetes.

Читать дальше →

+22

nAbdullin Sep 9 2019 at 13:03

Апгрейд для ленивых: как PostgreSQL 12 повышает производительность

5 min

31K

System administration*Server Administration*Слёрм corporate blogDevOps*

Translation

PostgreSQL 12, последняя версия «лучшей в мире реляционной базы данных с открытым исходным кодом», выходит через пару-тройку недель (если все пойдет по плану). Это соответствует обычному расписанию — новая версия с уймой новых возможностей выходит раз в год, и, честно говоря, это впечатляет. Поэтому я и стал активным членом сообщества PostgreSQL.

По-моему, в отличие от прошлых выпусков, PostgreSQL 12 не содержит одной-двух революционных функций (как, например, секционирование или параллелизм запросов). Я как-то пошутил, что главная фишка PostgreSQL 12 — в большей стабильности. А разве не это нужно, когда вы управляете критически важными данными вашего бизнеса?

Но PostgreSQL 12 этим не ограничивается: с новыми возможностями и усовершенствованиями приложения будут работать лучше, а от вас всего-навсего требуется сделать апгрейд!

(Ну, может, еще индексы перестроить, но в этом релизе это не так страшно, как мы привыкли.)

Читать дальше →

+44

LuckySB Sep 6 2019 at 09:50

Что делать, если протухли сертификаты и кластер превратился в тыкву?

5 min

36K

Слёрм corporate blogKubernetes*

Если в ответ на команду kubectl get pod вы получаете:

Unable to connect to the server: x509: certificate has expired or is not yet valid

то, скорее всего, прошел год, у сертификатов вашего kubernetes закончился срок действия, компоненты кластера перестали их использовать, взаимодействие между ними прекратилось и ваш кластер превратился в тыкву.

Читать дальше →

+19

nAbdullin Jul 5 2019 at 17:57

Развертывание приложений на нескольких кластерах Kubernetes с Helm

7 min

6.6K

System administration*Server Administration*Слёрм corporate blogDevOps*

Translation

Как Dailymotion использует Kubernetes: развертывание приложений

Мы в Dailymotion начали использовать Kubernetes в продакшене 3 года назад. Но развертывать приложения на нескольких кластерах то еще удовольствие, поэтому в последние несколько лет мы старались улучшить наши инструменты и рабочие процессы.

Читать дальше →

+21

aSkobin Jun 13 2019 at 15:36

Слёрм: гусеница превратилась в бабочку

4 min

4.5K

System administration*Server Administration*Слёрм corporate blogDevOps*Kubernetes*

<TL;DR>

Слёрм действительно позволяет войти в тему Kubernetes или подтянуть свои знания.
Участники довольны. Тех, кто ничего нового не узнал или не решил свои задачи, считанные единицы. Безусловным манибеком первого дня («Если вы чувствуете, что Слёрм вам не подходит, мы вернем полную цену билета») воспользовался всего один человек, обосновав тем, что переоценил свои силы.
Следующий Слёрм пройдет в начале сентября в Питере. Selectel, наш бессменный спонсор, предоставляет не только облако для стендов, но и свой конференц-зал.
Мы повторяем базовый Слёрм (9-11 сентября) и представляем новую программу: Слёрм DevOps (4-6 сентября).

Читать дальше →

+16

nAbdullin Jun 5 2019 at 12:44

Резервное копирование, часть 4: Обзор и тестирование zbackup, restic, borgbackup

7 min

19K

System administration*Server Administration*Слёрм corporate blogDevOps*

В данной статье будут рассматриваться программные средства для резервного копирования, которые путем разбиения потока данных на отдельные компоненты (chunks), формируют репозиторий.

Компоненты репозитория могут дополнительно сжиматься и шифроваться, а самое главное — при повторных процессах резервного копирования — переиспользоваться повторно.

Резервная копия в подобном репозитории — именованная цепочка связанных друг с другом компонентов, например, на основе различных hash-функций.

Есть несколько подобных решений, я остановлюсь на 3: zbackup, borgbackup и restic.

Читать дальше →

+26

Magvai69 Apr 29 2019 at 11:29

Docker: вредные советы

4 min

38K

System administration*Server Administration*Слёрм corporate blogDevOps*

Когда я учился водить машину, на первом же занятии инструктор выехал на перекресток задним ходом, а потом сказал, что делать так нельзя — вообще никогда. Это правило я запомнил сразу и на всю жизнь.

Читаешь детям «Вредные советы» Григория Остера, и видишь, как легко и непринужденно до них доходит, что так делать нельзя.

О том, как правильно писать Dockerfile, написана куча статей. Но мне не попадалось инструкций, как писать неправильные Dockerfile. Восполняю этот пробел. И, может быть, в проектах, которые я получаю на поддержку, таких докерфайлов станет меньше.

Читать дальше →

+32

nAbdullin Nov 26 2018 at 15:20

Grafana как еще один инструмент для технического мониторинга создаваемых нами программных продуктов

7 min

244K

System administration*Server Administration*Слёрм corporate blogDevOps*

Translation

Очередная статья в серии «Инструменты мониторинга Logicify» рассказывает о Grafana. Это программное средство мы используем для визуализации и анализа данных как внутренних, так и внешних проектов. Статья может быть полезна техническим директорам, разработчикам, DevOps, системным администраторам, менеджерам проектов, а также всем заинтересованным лицам.

Читать дальше →

+18

nAbdullin Nov 4 2018 at 10:48

Легкое плавание с Kubernetes (комикс)

28K

System administration*Server Administration*Слёрм corporate blogDevOps*

Translation

Читать дальше →

+35

vadimisakanov Sep 26 2018 at 19:05

Про дешевые датацентры, РКН и защиту от DDoS

4 min

15K

System administration*Server Administration*Слёрм corporate blog

Иногда проект живет в недорогом зарубежном датацентре, попадает под ковровые блокировки Роскомнадзора, периодически оказывается под DDoS атаками, но при этом имеет терабайты данных и трафика.

Как с этим жить?

Преамбула

У нас на поддержке есть небольшой фотобанк. Не будем называть имя и страну, только некоторые технические данные:
50 Тб данных для хранения, ежемесячно обновляется порядка 100 Гб, «горячие данные» (к ним идет 95% запросов) — 200 Гб.
Средний трафик — 50 Тб/мес.

Для размещения фотографий несколько лет назад выбрали несколько серверов SX серии от Hetzner с большими дисками (для хранения ПД пришлось придумывать более сложное решение, но об этом в другой раз).

В Southbridge сомневались, что Hetzner подходит для такого проекта, но требуемый уровень доступности и качества связности достигался.

Плюс для такого проекта использование CDN окажется на порядок дороже, чем раздача статики с серверов в недорогом датацентре.

Читать дальше →

+30

aSkobin Sep 20 2018 at 12:13

29-31 октября: создаем production-ready кластер Kubernetes

2 min

4.2K

System administration*Server Administration*Слёрм corporate blogDevOps*

Southbridge проводит живой и онлайн-интенсив по Кубернетес.

Материал рассчитан на тех, кто знает Linux, Docker, Kubernetes, Ansible, Helm и Git.

Интенсив — в первую очередь практика. Каждый участник создаст свой кластер в облаке Selectel.
Теоретическая часть — это не пересказ мануалов, а опыт и рекомендации спикеров.

Темы занятий:

aSkobin Sep 18 2018 at 09:59

Приезжайте изучать классическое администрирование: регламенты, инструменты, скрипты Southbridge

4 min

6.1K

System administration*Server Administration*Слёрм corporate blogDevOps*

За 10 лет Southbridge создал стандарт работы, который позволяет одному администратору поддерживать 150 серверов, быстро проводить первичную настройку, легко передавать проект между администраторами и группами, сразу видеть, что сделали ночные дежурные, быстро входить в курс дела после отпуска, и, естественно, обеспечить клиенту надежность и безопасность инфраструктуры.

C 22 по 24 октября Southbridge проводит интенсив для системных администраторов, где покажет свои подходы, регламенты, инструменты, инструкции и скрипты.

По сути РедСлёрм — это набор материалов для подготовки нового сотрудника Southbridge.

Осваивать подход к администрированию, основанный на унификации и стандартизации, полезно даже начинающему администратору.

Все, что можно, отрабатываем на практике.

Читать дальше →

+13

2 3 4