Highload 2014, полный HA

    В рамках нового HL я буду рассказывать о максимально совершенном HA. Если вы думаете, что HA сводится к балансировке на фронте, ipvs, выводу и вводу нод в рамках ролей — вы очень сильно ошибаетесь. Полноценный HA — это труд огромного количества людей, это огромные ресурсы, и, что важнее — внимание в каждой мелочи. Данный пост был создан для того, чтобы стало понятно, как влияние людей проецируется на проекты. Я прошёл много проектов,. am.ru был финалом моего понятия о крутых и финалом о «как не надо».

    Очень хочется рассказать всё очень доступно и просто, если честно, меня немного мучают слова «Вы так много сделали ...» — мне просто дали случайно такую возможность — вот так будет намного правильнее. Кстати, это реально огромная проблема при устройстве на работу после таких проектов, тебе на резюме не отвечают не потому, что тебе много лет, а потому, что просто не знают ( как они думают ) как таким микроскопом забивать свои гвозди.

    Так вот: лет эдак 8 тому назад я задался вопросом отказоустойчивости. Было это во времена перманентного перехода с ядра 2.4 на 2.6, споров о сущности бытия и сорц-based gentoo, slackware и production-ready шапки, дебьяна и прочих вкусных, но частично рамочных систем, почему «рамочных», это не сегодня.

    Какие были у нас варианты? Был святой NAT, был haproxy, был nginx, который до сих пор может только проксировать веб и почту и был ipvs на который я потратил много времени и ничуть об этом не жалею, я имел возможность на мейлфоруме отловить Игоря и измучать его вопросами.

    Первый проект в рамках HL, который получился и вышел в продакшн — это был WebIndex в рамках компании TNS Russia ( Gallup ) — это был очень интересный проект, длинною в полтора года, с очень хорошим тестовым стендом, синтетикой на тестах, офигенным коллективом людей, которые там работают, это был реальный highload, с bigdata. Этот опыт стал основой начала изучения HA.

    И вот меня позвали с нуля построить целый дата центр. Ну и получилось. Вы будете смеяться, но такой огромный дата центр строили всего лишь несколько человек. Я прошу учитывать, что я говорю про IT. И не судите строго.
    • –3
    • 2.8k
    • 3
    SDN
    19.07
    Company
    Share post

    Comments 3

      0
      Можно попросить вас прокомментировать кусочек текста?)))
      был nginx, который до сих пор может только проксировать веб и почту

      И ещё хотелось бы узнать подробнее про стек технологий, который использовался при создании am.ru. Это же PHP? Какой фреймворк использовали при реализации и использовали ли его вообще?
        +4
        Я уже задавал вопросы в обсуждении доклада, где меня тщательно проигнорировали. Ничего, я перезадам их здесь в надежде что совесть помешает проигнорировать их на Хабре.

        1. Split brain
        Вводная: По вашим же рассказам у вас есть 2 ДЦ, репликация настроена, все работает.

        Допустим, в 11:00 МСК происходит авария в первом ДЦ и он становится недоступен. Система работает на втором ДЦ. В 13:00 аварию чинят и начинается репликация из второго ДЦ в первый всего того, что накопилось за 2 часа отсутствия связи. В 13:10 МСК отваливается второй ДЦ, ровно в тот момент, когда из ДЦ 2 в ДЦ 1 было отреплицировано 23% изменений.

        Вопросы:
        1.1) Что происходит с данными?
        1.2) Продолжает ли система работать?
        1.3) Какая вероятность в цифрах этого события?
        1.4) Проводилось ли моделирование таких аварий в лаборатории?
        1.5) Что произойдет, если оба два ДЦ отключить по питанию с промежутком 5 минут (недостаточным для перестройки маршрутов), сначала ДЦ1, потом ДЦ2, а потом включить их сначала ДЦ2, а потом ДЦ1?

        2. Технические вопросы, все в кучу.
        Какой трафик репликации между ДЦ?
        Что такое «переезд виртуалок» в контексте обещания максимума 12 секунд простоя? Горячий снапшот с отображением страниц памяти? Тогда почему так долго? Физическая репликация файлов и рестарт? Тогда слишком быстро. Какая технология за этим кроется? В каком состоянии будет ВМ после такого переезда? А гипервизор? Скажите, настройки сети, хранения и безопасности переедут вслед за машиной?
          +1
          О чем статья-то? Реклама?

          Only users with full accounts can post comments. Log in, please.