Как мы вылечили предприятие от вируса Petya

    Когда мы приехали в компанию, на проходной висел большой плакат «КОМПЬЮТЕРЫ НЕ ВКЛЮЧАТЬ!» Это было указанием департамента ИТ для всех работников. Вся техника была выключена из розеток. Ситуация с серверной инфраструктурой была аналогичной: многие серверы были поражены. Корпоративные базы данных вовремя бэкапились, но в целом это, конечно, была катастрофа.

    У предприятия есть ИТ-отдел, и сначала руководство хотело попытаться справиться своими силами. Каждый специалист тратил на один компьютер несколько часов, параллельно брался за несколько других. Один инженер мог переустановить максимум четыре компьютера в смену. Но как только их вводили в работу, Petya снова поражал их, распространяясь лавинообразно. Дело совсем не продвигалось, работа компании была парализована.

    image

    Напомню, что в прошлом году десятки российских предприятий попали под атаку шифровальщика-вымогателя Petya. В конкретном случае вирус был специально сконфигурирован под компанию и поразил всю ее ИТ-инфраструктуру, разбросанную территориально. Вернуть к жизни предприятие нам удалось за 20 дней силами специалистов по услугам AnyKey и компетенциям Microsoft в МТС и дочернего системного интегратора «Энвижн Груп».

    После того, как ИТ-отдел не смог самостоятельно справиться с вирусом, руководство осознало, что теряет время, и приняло решение обратиться за помощью к подрядчику. Помимо неудачного опыта самостоятельного деплоймента, была еще одна большая проблема – сроки. Никто из потенциальных подрядчиков не гарантировал, что работы будут выполнены в сжатый срок. Также у заказчика было требование сохранить данные, которые уцелели и не успели зашифроваться (их надо было спасать), именно поэтому одной переустановки Windows было недостаточно.

    Выбор в нашу пользу был сделан после того, как мы при первом обсуждении провели предварительную экспертизу и дали оценку, за какой срок мы сможем закончить всю работу – три недели. Плюсом было и то, что у нас уже был сервер, который мы могли бы привезти на объект и подключить его к местному, не привлекая со стороны заказчика какие-то дополнительные ресурсы. Мы купили билеты и на следующий день уже сидели в самолете с сервером под мышкой.

    Что мы сделали


    Основная идея, которую мы с самого начала обсуждали с заказчиком – такое количество рабочих мест за установленный срок можно развернуть только из образа. Нужно применять технологию массового деплоя – другими словами, брался эталонный образ, и этот образ разливался на машины.

    Сначала компьютер загружался в специальную оболочку, в которой выполнялись PowerShell scripts. Эти скрипты копировали на сетевое хранилище уцелевшие данные, потом устанавливалась новая чистая система из золотого образа, и уцелевшие данные возвращались на этот компьютер в определенную папку. Конечно, на сетевом хранилище стоял антивирус. Все файлы сканировались. Таким образом мы защищали их от повторного заражения.

    Плюс к этому мы разбили сеть на множество небольших выделенных сетей VLAN. Все операции мы проводили во VLAN-ах, изолированных друг от друга, это также было сделано, чтобы предотвратить повторное заражение.

    Уникальность этого решения была в двух фишках: во-первых, мы применили PowerShell scripts и все сохраняли на файловые ресурсы, которые проводили потоковое сканирование антивирусом, во-вторых, мы все сделали в небольших выделенных VLANax.

    image

    Несмотря на то, что у нас все процессы были максимально автоматизированы, у заказчика имелось много компьютеров и распределенная сеть в формате звезды – центральный офис, несколько региональных офисов и зависимые от последних удаленные рабочие места. Для решения задачи нужно было объехать все объекты – не меньше сотни. Были и небольшие офисы, на которых всего один-два компьютера. Их все нужно было забрать и довезти до ближайшего крупного офиса заказчика, где уже имелась на должном уровне ИТ-инфраструктура, позволяющая производить работы.

    Заказчик со своей стороны, конечно, максимально обеспечил нас транспортом, но кадровый ресурс был ограничен. Мы мобилизовали 25 ИТ-специалистов МТС с соседних регионов. Они работали без выходных и с перерывом только на сон, график работы был очень тяжелым, и нельзя было больше трех дней держать одного сотрудника на объекте – он просто бы выгорал. Поэтому у нас была непрерывная ротация кадров: сотрудник прилетает на три дня, улетает, вместо него прилетает другой. Так мы поддерживали большую интенсивность работы. Что важно, ребята, которые приезжали, быстро становились командой. Они знали, что делать, у них был четкий план, и их не надо было учить и вводить в курс дела. Отдельно у нас была команда, которая занималась восстановлением серверов.

    Мы с руководителем проекта также вылетели на объект и занимались административной работой. Для заказчика было важно произвести четкое планирование, защитить проект. Все, конечно, горело, но есть регламент, комплаенс внутри: мы сидели и день и ночь готовили документы: обоснования, почасовое планирование, сетевой график выхода инженеров, писали, сколько и каких инженеров выходит на разработку, на каких объектах, какие работы они будут выполнять – все это было очень муторно, но необходимо для того, чтобы выполнить работу в срок.

    Что получилось


    В результате весь проект занял 20 дней. Нам потребовалось сегментировать сеть на маленькие подсети, а это мы не имели права делать сами, без участия сетевого инженера заказчика. Это оказалось узким местом: сетевой инженер делал это не очень быстро. Но во время «простоя» по согласованию заказчика мы занимались проектными вещами, а не просто так сидели в гостинице.

    На выходе все данные на серверах были подняты из бэкапа, и никакие критичные системы в итоге не пострадали, данные из корпоративных информационных систем утеряны не были. Помимо того сервера, который мы привезли с собой, в процессе реализации проекта решили развернуть дополнительные серверы MS Deployment Services на инфраструктуре заказчика. Мы научили его инженеров работать с этой системой, провели мастер-классы, обучали и консультировали. Заказчик остался с полной документацией, знал, как ему дальше производить деплоймент, как теперь с этим сервером дальше жить и что делать при наступлении похожей ситуации.

    Проактивный мониторинг и спланированные заранее действия могут уберечь от возникновения такой ситуации. Но если она наступила, то придется спешно изыскивать дополнительный инженерный ресурс.

    Стоит отметить, что спрос на ИТ-услуги на аутсорсе в подобных ситуациях в будущем будет расти, и не только из-за увеличения количества атак и совершенствования навыков хакеров. У этой услуги определенный потребитель – это компании с высоким уровнем зрелости, которые уже достигли такого этапа развития, что начинают управлять ИТ как услугой. На этом этапе происходят изменения в мышлении ИТ-директора: он понимает, что при переходе на аутсорс можно не оглядываться на собственные ресурсы и возможности, не вникать в личные дела сотрудников. Можно просто ставить задачу, договариваться об уровне сервиса и поддерживать заданный уровень получаемой услуги. Таким образом, ИТ-директор может заниматься более высокоуровневым планированием и свои ресурсы перенаправлять на какие-то более критичные задачи.

    Сергей Гудков, руководитель отдела решений Майкрософт «Энвижн Груп».
    МТС 43,82
    Компания
    Поделиться публикацией
    Комментарии 35
      +5
      Прошло 11 месяцев с момента инцидента…
        +4
        Какое количество ПК было заражено? Сколько восстановлено за 20-ть дней? Почему, в принципе, на этом предприятии произошло заражение?

        Внесите больше технических деталей в статью, пожалуйста. Сейчас это скорее информационная заметка, чем полноценный пост.
          +6
          Ничего этого в статье не будет, никаких подробностей о скриптах или допиленном WDS. Только о том, какие мы, Энвижн (МТС), красавчики.
            0
            Во-первых, скрипты — наше ноу-хау, во-вторых, заточены под конкретную структуру и задачи клиента. И для другого случая они не актуальны.
            0
            Больше 5000 инфицировано, за 20 дней перезалили больше половины машин.
              0

              По вашим словам вы перезалили за 20 дней больше половины машин из 5000. Смею предположить что это 3000 машин. Получается — 150 машин в день 1 машина за 5минут при 12 часовом рабочем дне! Учитывая то, что все компьютеры не находятся в одном кабинете, как мне кажется, за это время, ваши сотрудники просто физически не успели пройти по всем компьютерам и просто настроить их на загрузку с сети. Сколько серверов wds вы использовали? Очевидно, что их было больше одного. Каким образом  балансировали нагрузку между серверами?

                0
                Ну так переустанавливаю системы не по цепочке. 15 специалистов.Каждому нужно переустановить в день (8 часов) всего 10 систем. 48 минут на каждую систему.
                  0
                  Постараюсь ответить развернуто на Ваш Комментарий:
                  1. Как только процедуры «пре-чека», копирования и «перезаливки» были нами полностью отлажены и протестированы, работы выполнялись параллельно…
                  2. Использовалось около 10 ПАКов с WDS, отдельной балансировки не было, для разных сегментов использовался свой ПАК, средний «слот» на перезаливку был от 50 до 100АРМ, время, затраченное на отдельную рабочую станцию, не собиралось.
                  3. Самым продолжительным этапом  была проверка локальных дисков и копирование данных, для ряда АРМ этот этап продолжался более 8-ми часов…
                  4. Специалисты заказчика активно помогали на этапе реализации…
                  5. Ряд перенастроенных «боксов» был передан заказчику, и на удаленных площадках их запускали специалисты заказчика уже самостоятельно…
                  Надеюсь у Вас в результате данных объяснений сформировалась общая картина этого проекта :)
              +1
              А МТС предоставляет услуги по поддержке сторонних IT-инфраструктур? Впервые об этом слышу. Есть сайт какой-нибудь, где можно про это почитать?
                0
                Наши процессы соответствуют стандарту ITSM. У нас есть собственная лаборатория для стендирования информационных систем (1000 единиц техники, 50 стоек оборудования). Собственная логистика. Работа 24*7. Ссылка вот эта: moskva.mts.ru/business/resheniya-i-produkti/it-resheniya/inzhenernie-sistemi
                0
                Да, как и все системные интеграторы.
                +5
                Что это за недоИТ отдел который включает свежевылеченный (или переустановленный) комп в сеть к которой подключены зараженные машины??? Разогнать
                  0
                  Возможно, не сразу выявили все источники заразы. Нельзя исключать, что мог быть злоумышленник во внутреннем контуре. Сейчас остается только догадываться.
                  –2
                  Linux? не, не слышали…
                    +2
                    А вы попробуйте используя линукс воспользоваться порталом гос закупок и удивитесь, ему винда нужна, а без этого портала многие никак не могут работать. Ну и он не единственный такой…
                      0
                      Вот есть уже опыт… ставится виртуальная винда на линукс… пробрасываються все рутокены и jacarta… Делаеться образ, на случай если винда как обычно умрет… то из готового виртуального образа за 15 минут новая винда.Да и винда «обернутая» в линукс намного устойчивее работает.
                        0
                        Немного не в теме с сайтом госуслуг, но предполагаю, что он по ГОСТ шифрованию работает. Если для рутокенов, виртуалка используется, почему не попробовать экспортировать ключи в файл и в linux настроить ГОСТ на openssl (ну или крипропро тоже работает) и скормить ему эти ключи?
                        У нас еще мудреней — есть один сайт, к которому доступ по ГОСТ нужен, в случае как предлагали владельцы портала — необходимо было на каждый комп (а их много) криптопро поставить.
                        В итоге сделали stunnel до гост сайта (openssl с gost engine и патченный stunnel), запись в локальном DNS и nginx во внутренней сети с адресом этого сайта, который уже проксировал на stunnel. В итоге пользователи из локалки ходят на сайт по самоподписанному RSA, без криптопро.
                          0
                          То о чем Вы пишите( итоге сделали stunnel до гост сайта (openssl с gost engine и патченный stunnel) или почему не попробовать экспортировать ключи в файл и в linux настроить ГОСТ на openssl), это довольно высокий класс админа… таковыми являются не все… и наверное не надо быть всем такого класса… а вот поднять виртуалку… и залить готовый уже настроенный образ винды с рутокенами(возможно с одинэсами, криптопро, клиентбанками и т.д)… может и «эникейщик»
                          +1
                          Да, но учтите тот факт что на многих гос предприятиях стоят слабенькие машины, которые висят и если на них попробовать работать в виртуальной машине… В общем не везде это применимо.
                        +1

                        Никто не может дать гарантии, что завтра в ядре linux не найдут уязвимость подобную EternalBlue. При должной настройке и своевременном обновлении ничего бы не случилось. Тут вопросы к Ит отделу в организации.

                          0

                          Ну сам по себе Linux это конечно сомнительно, но ChromeOS (ну или ChromiumOS, если хочется кастома) вполне жизнеспособен процентов на 80 типичных операций.

                          +3
                          Там в ит отделе уборщицы работали?
                          Или просто успешно освоили бюджет заказчика, это же такая сложнейшая работа винду с образа накатить, без аутсорса не справиться никак.
                            +2
                            В статье не нашёл никаких упоминаний об установке обновлений. Значит ли это, что они как не ставились, так и не и будет ставиться, так что всё это чудо-решение продержится до очередной крупной уязвимости?
                              0
                              Установка обновлений — не задача этой системы, система была развернута для критического восстановления инфраструктуры. Единоразово. Если произойдет аналогичная проблема или будет выявлена другая уязвимость, придется разливать образ еще раз. Для предотвращения аналогичных проблем имеет смысл использовать комплекс средств по мониторингу и анализу событий безопасности, одним из которых мы можем порекомендовать Microsoft Advanced Threat Analytics
                                0
                                Без обновлений против Пети никуда. От всех этих Аналитиксов толку ноль. При повальном заражении в консоли будет всё красное.
                              +1

                              Зачем нужно было разбивать сеть на vlan? Если я не ошибаюсь уже в первые сутки было известно как происходит заражение вирусом и каким образом его можно езбежать. Чтобы не терять время достаточно было развернуть образ со всеми установленными обновлениями. Хотя в россии все как обычно, чем больше проделано работы тем лучше. Складывается впечатление что специально был завышен обьем работ чтобы получить как можно больше денег с организации.

                                0
                                там вроде бы, специальный петя был. возможно, некогда было разбираться
                                  +1

                                  Остается только догадываться. Статья порождает больше вопросов чем ответов..

                                  0
                                  Страховка лишней не бывает, тем более когда уже всё плохо.
                                  +1
                                  Очень жаль, что в статье нет информации о том: какие на компьютерах использовались операционные системы, обновлялись ли они, был ли настроен сетевой экран, использовался ли антивирус и какой?
                                    +1
                                    В статье ни слова про патчи и уязвимости SMBv1.0
                                      –1
                                      Позволим себе не согласиться:).
                                      Необходимость правильно разработанной системы и, главное, регламента тестирования, установки и управления обновлениями в инфраструктуре не обсуждается, но наличие инструментов мониторинга и корреляции событий позволят на ранний стадиях обнаружить «нетипичное» поведение и предотвратить дальнейшее распространение «зловреда». Именно инструменты аналитики помогут на ранних стадиях помещать лавинообразному заражению инфраструктуры.
                                        0
                                        «наличие инструментов мониторинга и корреляции событий позволят на ранний стадиях обнаружить» В кейсе изначально не было подобных инструментов до «повального заражения», а значит и толку после заражения от них ноль. Поэтому сперва устраняем все инцеденты, ставим заплатки, расшифровываем документы, наблюдаем — не падает ли чего после наших действий, а уж потом выдыхаем и балуемся свителками-перделкамигуделками от всяких там мониторингов.
                                      0
                                      Интересна судьба руководителей ИТ-подразделений клиента. Их уволили всех? Потому как допустить такой масштаб бедствия — это надо умудриться.

                                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                      Самое читаемое