Molodoi 30 июн 2020 в 10:19

Как мы разгребаем зоопарк из 5 размещений в дата-центрах

9 мин

11K

Блог компании Туту.руIT-инфраструктура*Серверное администрирование*

+28

Комментарии 25

smart 30 июн 2020 в 12:42

Не совсем понял, как устроен failover для mysql. Интересно про это будет почитать подробнее.

Ну и можно неприличный вопрос? А почему mysql, а не postgres?

Molodoi 30 июн 2020 в 14:18

Первое:
Детали, как это работает, потянет на целую статью. Думаю, напишем и про это.
Если коротко. Есть много (под сотню) различных БД с четко ограниченной предметной областью, там используется с master — standby репликация. Еще есть одна большая БД, которую еще не растащили по небольшим базам. Эта БД собрана в «гирлянду», т.е. ветвистое дерево master-slave-slave… В случае падения мастера github orchestrator промоутит (снимает флаг read-only), на его место или единственный standby инстанс, или одну из реплик гирлянды (по хитрым правилам) и перестраивает остальные, чтобы те тянули данные с нового мастера. Proxysql ориентируются на флаг read-only на mysql и меняют состав своих хостгрупп. Сами proxySQL подняты с одним и тем же IP в разных локациях, поэтому при отказе одного, запросы начинают уходить к соседям.

Второе:
Наверное, правильный ответ “так исторически сложилось”. Когда-то давно выбрали MariaDb, с тех пор парк разросся, внутренняя экспертиза прокачалась, а с postgress практического опыта почти нет. Поэтому пока только аккуратно присматриваемся, но не переезжаем.

krids 30 июн 2020 в 17:02

Что такое «Dell на маршрутизаторах», c которым сравнивали гиперконвергентный Hyperflex?

Molodoi 30 июн 2020 в 17:26

Dell VxRail E560F + Dell S5248F-ON

krids 2 июл 2020 в 09:55

Понятно. Спасибо. Может тогда поправить в тексте? А то «мозг спотыкается» на этом месте.

Night_Snake 30 июн 2020 в 20:04

А какое сейчас количество серверов? завязываетесь ли на одного вендора или остановились на чём-то одном (Dell / Cisco)?

Molodoi 1 июл 2020 в 07:20

Именно свое железо это 4 стойки в ЦОДах и в офисе еще есть, но чуть поменьше. В основном пара вендоров, но бывали эксперименты с другими производителями, не зашло нам. В целом, строгих ограничений нет, но плодить зоопарк тоже нет желания — хочется без сюрпризов:)

Night_Snake 1 июл 2020 в 14:30

Про зоопарк прекрасно понимаю :)
А почему остановились именно на вендорском клауде? Почему не тот же opennebula/cloudstack/openstack/vmware поверх commodity железа?

Molodoi 1 июл 2020 в 14:50

Основное: уровень требуемой экспертизы для нормальной и надежной работы этих решений. Мы несколько лет назад игрались с кластеризацией поверх обычных серверов, все время что-то шло не так и не туда. Мы же все таки для себя решение строили, а не для зарабатывания на нем. Поставил, запустил и полетели (не так, конечно, получилось, но близко к этому). От начала проекта до выхода в прод 4-5 месяцев получилось, что очень неплохо.
Но как писал в комменте уже, сейчас в проработке проект OpenShift on Bare Metal. Хотим свое облако с микросервисами на обычном железе попробовать разместить.

Night_Snake 1 июл 2020 в 15:46

А не боитесь вендор-лока и/или необходимости платить существенные деньги за саппорт, который, к тому же, не всегда помогает?

Molodoi 1 июл 2020 в 15:50

Риск приемлемый :) кстати, саппорт нам понравился у циски, а вот у делла — нет. На это смотрели, да. В том числе по этой же причине почти сразу отмели Нутаникс.

Night_Snake 1 июл 2020 в 15:53

У Делла да, саппорт «специфический», к сожалению.
С Нутаниксом история немного другая — оно живёт, даже в Community edition вполне годно для небольшого продакшена, но всё равно нужны люди «на месте», которые умеют его готовить. Даже если это коммерческая версия.
Но комьюнити весьма хорошее

gecube 2 июл 2020 в 02:14

Опеншифт ради чего? Безопасность, поддержка редхата — или какая причина смотреть на него?
Или думаете брать бесплатный шифт?

Molodoi 2 июл 2020 в 11:37

Начинали мы с кубера в чистом виде. Но постоянно натыкались на сырость: как установить, как настроить, как заставить работать… в шифте же все эти проблемы решены, там все, что нам надо есть из коробки. Т.е. сэкономили время на старте. Пока используем бесплатную версию.

gecube 2 июл 2020 в 12:06

К сожалению, не могу согласиться. Мы с коллегами из того же Фланта обсуждали перспективы Шифта… И они топят все-таки за ваниль. Шифт очень opinionated. Хотя в нем и многие проблемы решены, но шифт не гибок.
Касательно того, с чем столкнетесь с шифтом:

в него прекрасно заезжают ваши самописные сервисы (в общем-то он для этого и предназначен)
засунуть в шифт что-то, что для него не предназначено — это отдельный секс. Любой гитлаб, постгрес, редис и пр. из официальных хельмов и докерхабов нужно умудриться поставить
опеншифт очень платен, как вы будете его масштабировать — я вообще не представляю. А бесплатный… Ну, такое себе.
ограниченный набор плагинов — из кубернетеса Вы действительно можете слепить что угодно (это же и проблема на самом деле). Опеншифт — это коробка. Т.е. Вы получаете ровно тот функционал, который там есть. Отклонения в сторону… ну, либо снимут с поддержки, либо будет отдельная боль с интеграцией доп модулей.
отсутствие понимание как опеншифт будет развиваться. Уже были примеры, когда функционал появлялся в шифте, потом в кубернетесе, но другой. Например, в шифте были Route, в куб затащили Ingress. В результате, в шифте все равно придется переезжать на Ингресс. С сетевыми политиками та же история.

Если уж Вы строите из себя энтерпрайз, то лучше посмотрите в сторону Vmware и Vmware Tanzu (у них свой менеджед кубер есть по сути в Вашем контуре) :-)

И прочее-прочее-прочее.

Molodoi 2 июл 2020 в 13:21

Мы на протяжении 2 лет успешно эксплуатируем бесплатный openshift командой из 4 человек, которые занимаются и разворачиванием кластеров, и разработкой нового функционала на основе шифта под нужды наших продуктовых команд. Последний год все наши новые продукты и сервисы запускаются в шифте. По опыту наши потребности он не ограничивает, а пользу приносит. Разработку своих операторов и CRD шифт никак не ограничивает, а нам нужна гибкость в первую очередь с точки зрения автоматизаций процессов. Про существование VMware Tanzu мы конечно знаем, мы как раз строим из себя ентерпрайз, умеющий считать деньги. Решения vmware бюджетными традиционно не бывают — это комбайны с кучей функционала, часто нами не востребованным. Нам эффективнее использовать бесплатные версии продуктов и небольшую команду экспертов, которая адаптирует их под наши потребности.

Night_Snake 1 июл 2020 в 14:32

И кстати, почему именно тёмная оптика, а не провайдерские VPN? задержка при размещении в пределах Мск не сильно вырастет, а надёжность и гибкость сильно выше

Molodoi 1 июл 2020 в 14:55

Во-первых, нужны гарантии по задержкам сети, что с публичными сетями бывает проблемой. А во-вторых, и это важнее, оптика дешевле выходит. У нас в одной из локаций был резерв по VPN (делали временно, пока второе плечо оптики вводили). Так вот в момент той самой аварии из статьи, когда в одном колодце пожар, а во втором «какой интересный коннектор», этот гигабитный канал не вытянул. По факту у нас 3-4 Гбит/с между локациями ходит. А такие аплинки дороже оптики получаются.

Night_Snake 1 июл 2020 в 15:45

Странно, конечно — обычно overlay каналы получаются дешевле (и уж точно гибче в эксплуатации). С другой стороны — если расстояния небольшие, и брать не волокно, а лямбду в нём, то получается не так дорого, согласен.

JamesJGoodwin 1 июл 2020 в 04:44

В сторону облачных контор а-ля AWS не смотрели из-за ФЗ, или какая-то своя причина была?

Яндекс.Облако также не рассматривали из-за финансовой невыгодности? И, на самом деле, была бы интересна арифметика — "на колокейшене со своим железом тратим столько-то, в облаке бы тратили вот столько-то", например.

Ещё любопытно почему на одном кластере есть мастер, на другом слейв, а на третьем нету ничего, но на всех есть приложение. Групповая репликация с хранением копии под каждой репликой приложения также не могла быть применена по каким-то причинам?

Molodoi 1 июл 2020 в 09:53

1. У нас было несколько экспериментов с AWS и Google Cloud — мы там брали PaaS решения для быстрых тестов. Но в массовое решение не пошло. В качестве IaaS не рассматриваем из-за наших требований к связности локаций. ФЗ-152 тут играет малую роль, поскольку он только про персональные данные. А кроме них есть еще очень много элементов системы.

2. К моменту появления Я.Облака у нас уже было два провайдера облаков, третий не нужен. Тратить ресурсы на «давайте еще попробуем вот это», когда с действующими поставщиками все нормально, нецелесообразно. Наш проект на своем HCI окупается примерно за год. Я считал NPV на 4 года, сравнивая одинаковые объемы ресурсов в облаке и у себя. Кстати, сейчас мы работаем над проектом OpenShift on Bare Metal: идея в том, чтобы развернуть OpenShift на самом обычном железе, а не на HCI или облаках. Просчитываем варианты, если получится, поделюсь.

3. Тут скорее вопрос целесообразности и экономики. Можно поднять и три, и четыре копии (на некоторых особо критически важных базах так и делаем). Все-таки вероятность одновременного отказа двух сильно ниже, а деньги на инфраструктуру надо выделять. Изначально так и хотели делать (по копии в каждой локации), однако известные события весны этого года скорректировали аппетиты :)

ntmy 1 июл 2020 в 09:54

В частности, производительность по факту не такая прикольная как в презентациях из-за оверхеда.

Можете прояснить, что не так с производительностью Делла? Это какая-то доступная информация или ваши наблюдения?

Molodoi 1 июл 2020 в 09:57

Мы проводили тесты, сравнивали. Конкретно здесь у нас такой опыт был (цитата из отчета наших инженеров): «Сетевая инфраструктура не утилизирует пропускную способность сети серверов, используя режимы active-backup, в связи с чем страдает как скорость подключения серверов, так и надежность.»
Наверняка есть способы это побороть, но мы искали решение, которое требует меньше танцев с бубном. Кроме того, мы остались не очень довольны уровнем технической поддержки Dell, а это тоже очень важно, когда покупаешь очень дорогое оборудование.

KorDen32 1 июл 2020 в 17:06

Не совсем понял, в том, что планируете в итоге, пришли к полностью своей инфраструктуре в трех ЦОДах, или всё-таки часть переменной пиковой нагрузки планируется обеспечивать облаками?

Molodoi 2 июл 2020 в 10:30

Гибридное решение в итоге. Не отказываемся от облаков

Зарегистрируйтесь на Хабре, чтобы оставить комментарий