Как стать автором
Обновить

Комментарии 25

Не совсем понял, как устроен failover для mysql. Интересно про это будет почитать подробнее.

Ну и можно неприличный вопрос? А почему mysql, а не postgres?
Первое:
Детали, как это работает, потянет на целую статью. Думаю, напишем и про это.
Если коротко. Есть много (под сотню) различных БД с четко ограниченной предметной областью, там используется с master — standby репликация. Еще есть одна большая БД, которую еще не растащили по небольшим базам. Эта БД собрана в «гирлянду», т.е. ветвистое дерево master-slave-slave… В случае падения мастера github orchestrator промоутит (снимает флаг read-only), на его место или единственный standby инстанс, или одну из реплик гирлянды (по хитрым правилам) и перестраивает остальные, чтобы те тянули данные с нового мастера. Proxysql ориентируются на флаг read-only на mysql и меняют состав своих хостгрупп. Сами proxySQL подняты с одним и тем же IP в разных локациях, поэтому при отказе одного, запросы начинают уходить к соседям.

Второе:
Наверное, правильный ответ “так исторически сложилось”. Когда-то давно выбрали MariaDb, с тех пор парк разросся, внутренняя экспертиза прокачалась, а с postgress практического опыта почти нет. Поэтому пока только аккуратно присматриваемся, но не переезжаем.
Что такое «Dell на маршрутизаторах», c которым сравнивали гиперконвергентный Hyperflex?
Dell VxRail E560F + Dell S5248F-ON
Понятно. Спасибо. Может тогда поправить в тексте? А то «мозг спотыкается» на этом месте.
А какое сейчас количество серверов? завязываетесь ли на одного вендора или остановились на чём-то одном (Dell / Cisco)?

Именно свое железо это 4 стойки в ЦОДах и в офисе еще есть, но чуть поменьше. В основном пара вендоров, но бывали эксперименты с другими производителями, не зашло нам. В целом, строгих ограничений нет, но плодить зоопарк тоже нет желания — хочется без сюрпризов:)

Про зоопарк прекрасно понимаю :)
А почему остановились именно на вендорском клауде? Почему не тот же opennebula/cloudstack/openstack/vmware поверх commodity железа?

Основное: уровень требуемой экспертизы для нормальной и надежной работы этих решений. Мы несколько лет назад игрались с кластеризацией поверх обычных серверов, все время что-то шло не так и не туда. Мы же все таки для себя решение строили, а не для зарабатывания на нем. Поставил, запустил и полетели (не так, конечно, получилось, но близко к этому). От начала проекта до выхода в прод 4-5 месяцев получилось, что очень неплохо.
Но как писал в комменте уже, сейчас в проработке проект OpenShift on Bare Metal. Хотим свое облако с микросервисами на обычном железе попробовать разместить.

А не боитесь вендор-лока и/или необходимости платить существенные деньги за саппорт, который, к тому же, не всегда помогает?

Риск приемлемый :) кстати, саппорт нам понравился у циски, а вот у делла — нет. На это смотрели, да. В том числе по этой же причине почти сразу отмели Нутаникс.

У Делла да, саппорт «специфический», к сожалению.
С Нутаниксом история немного другая — оно живёт, даже в Community edition вполне годно для небольшого продакшена, но всё равно нужны люди «на месте», которые умеют его готовить. Даже если это коммерческая версия.
Но комьюнити весьма хорошее

Опеншифт ради чего? Безопасность, поддержка редхата — или какая причина смотреть на него?
Или думаете брать бесплатный шифт?

Начинали мы с кубера в чистом виде. Но постоянно натыкались на сырость: как установить, как настроить, как заставить работать… в шифте же все эти проблемы решены, там все, что нам надо есть из коробки. Т.е. сэкономили время на старте. Пока используем бесплатную версию.

К сожалению, не могу согласиться. Мы с коллегами из того же Фланта обсуждали перспективы Шифта… И они топят все-таки за ваниль. Шифт очень opinionated. Хотя в нем и многие проблемы решены, но шифт не гибок.
Касательно того, с чем столкнетесь с шифтом:


  1. в него прекрасно заезжают ваши самописные сервисы (в общем-то он для этого и предназначен)
  2. засунуть в шифт что-то, что для него не предназначено — это отдельный секс. Любой гитлаб, постгрес, редис и пр. из официальных хельмов и докерхабов нужно умудриться поставить
  3. опеншифт очень платен, как вы будете его масштабировать — я вообще не представляю. А бесплатный… Ну, такое себе.
  4. ограниченный набор плагинов — из кубернетеса Вы действительно можете слепить что угодно (это же и проблема на самом деле). Опеншифт — это коробка. Т.е. Вы получаете ровно тот функционал, который там есть. Отклонения в сторону… ну, либо снимут с поддержки, либо будет отдельная боль с интеграцией доп модулей.
  5. отсутствие понимание как опеншифт будет развиваться. Уже были примеры, когда функционал появлялся в шифте, потом в кубернетесе, но другой. Например, в шифте были Route, в куб затащили Ingress. В результате, в шифте все равно придется переезжать на Ингресс. С сетевыми политиками та же история.

Если уж Вы строите из себя энтерпрайз, то лучше посмотрите в сторону Vmware и Vmware Tanzu (у них свой менеджед кубер есть по сути в Вашем контуре) :-)


И прочее-прочее-прочее.

Мы на протяжении 2 лет успешно эксплуатируем бесплатный openshift командой из 4 человек, которые занимаются и разворачиванием кластеров, и разработкой нового функционала на основе шифта под нужды наших продуктовых команд. Последний год все наши новые продукты и сервисы запускаются в шифте. По опыту наши потребности он не ограничивает, а пользу приносит. Разработку своих операторов и CRD шифт никак не ограничивает, а нам нужна гибкость в первую очередь с точки зрения автоматизаций процессов. Про существование VMware Tanzu мы конечно знаем, мы как раз строим из себя ентерпрайз, умеющий считать деньги. Решения vmware бюджетными традиционно не бывают — это комбайны с кучей функционала, часто нами не востребованным. Нам эффективнее использовать бесплатные версии продуктов и небольшую команду экспертов, которая адаптирует их под наши потребности.
И кстати, почему именно тёмная оптика, а не провайдерские VPN? задержка при размещении в пределах Мск не сильно вырастет, а надёжность и гибкость сильно выше

Во-первых, нужны гарантии по задержкам сети, что с публичными сетями бывает проблемой. А во-вторых, и это важнее, оптика дешевле выходит. У нас в одной из локаций был резерв по VPN (делали временно, пока второе плечо оптики вводили). Так вот в момент той самой аварии из статьи, когда в одном колодце пожар, а во втором «какой интересный коннектор», этот гигабитный канал не вытянул. По факту у нас 3-4 Гбит/с между локациями ходит. А такие аплинки дороже оптики получаются.

Странно, конечно — обычно overlay каналы получаются дешевле (и уж точно гибче в эксплуатации). С другой стороны — если расстояния небольшие, и брать не волокно, а лямбду в нём, то получается не так дорого, согласен.

В сторону облачных контор а-ля AWS не смотрели из-за ФЗ, или какая-то своя причина была?


Яндекс.Облако также не рассматривали из-за финансовой невыгодности? И, на самом деле, была бы интересна арифметика — "на колокейшене со своим железом тратим столько-то, в облаке бы тратили вот столько-то", например.


Ещё любопытно почему на одном кластере есть мастер, на другом слейв, а на третьем нету ничего, но на всех есть приложение. Групповая репликация с хранением копии под каждой репликой приложения также не могла быть применена по каким-то причинам?

1. У нас было несколько экспериментов с AWS и Google Cloud — мы там брали PaaS решения для быстрых тестов. Но в массовое решение не пошло. В качестве IaaS не рассматриваем из-за наших требований к связности локаций. ФЗ-152 тут играет малую роль, поскольку он только про персональные данные. А кроме них есть еще очень много элементов системы.

2. К моменту появления Я.Облака у нас уже было два провайдера облаков, третий не нужен. Тратить ресурсы на «давайте еще попробуем вот это», когда с действующими поставщиками все нормально, нецелесообразно. Наш проект на своем HCI окупается примерно за год. Я считал NPV на 4 года, сравнивая одинаковые объемы ресурсов в облаке и у себя. Кстати, сейчас мы работаем над проектом OpenShift on Bare Metal: идея в том, чтобы развернуть OpenShift на самом обычном железе, а не на HCI или облаках. Просчитываем варианты, если получится, поделюсь.

3. Тут скорее вопрос целесообразности и экономики. Можно поднять и три, и четыре копии (на некоторых особо критически важных базах так и делаем). Все-таки вероятность одновременного отказа двух сильно ниже, а деньги на инфраструктуру надо выделять. Изначально так и хотели делать (по копии в каждой локации), однако известные события весны этого года скорректировали аппетиты :)
В частности, производительность по факту не такая прикольная как в презентациях из-за оверхеда.

Можете прояснить, что не так с производительностью Делла? Это какая-то доступная информация или ваши наблюдения?
Мы проводили тесты, сравнивали. Конкретно здесь у нас такой опыт был (цитата из отчета наших инженеров): «Сетевая инфраструктура не утилизирует пропускную способность сети серверов, используя режимы active-backup, в связи с чем страдает как скорость подключения серверов, так и надежность.»
Наверняка есть способы это побороть, но мы искали решение, которое требует меньше танцев с бубном. Кроме того, мы остались не очень довольны уровнем технической поддержки Dell, а это тоже очень важно, когда покупаешь очень дорогое оборудование.
Не совсем понял, в том, что планируете в итоге, пришли к полностью своей инфраструктуре в трех ЦОДах, или всё-таки часть переменной пиковой нагрузки планируется обеспечивать облаками?
Гибридное решение в итоге. Не отказываемся от облаков
Зарегистрируйтесь на Хабре, чтобы оставить комментарий