Как надо исправлять утечки маршрутов

    Стоит оговориться, что нижеследующая история во многом уникальна.

    И вот как она начиналась. В течение примерно одного часа, начиная с 19.28 UTC вчера, 1 апреля 2020 года, крупнейший российский интернет-провайдер — Ростелеком (AS12389) — начал анонсировать сетевые префиксы крупнейших игроков интернета: Akamai, Cloudflare, Hetzner, Digital Ocean, Amazon AWS и других известных имен. До того момента как проблема была решена, пути между крупнейшими облачными провайдерами планеты были нарушены — Интернет «моргнул».

    Данная утечка маршрута вполне успешно распространялась через провайдера Rascom (AS20764), откуда через Cogent (AS174) и, спустя еще несколько минут, через Level3 (AS3356) распространилась по всему миру. Утечка была настолько серьезной, что почти все Tier-1 операторы были задеты аномалией.

    Выглядело это так:

    image

    Поверх такого:

    image

    Эта утечка маршрутов задела 8870 сетевых префиксов, принадлежащих почти 200 автономным системам. С большим количеством некорректных анонсов — ни один из которых не был отброшен участниками, их принимающими. В конечном счете, наличие фильтров бы не изменило сам факт утечки маршрута, но сделало бы ее распространение несколько меньшим. Для того чтобы оценить динамику произошедшего, можно посмотреть на пример BGPlay для одного из префиксов Akamai: https://stat.ripe.net/widget/bgplay#w.resource=2.17.123.0/24

    Как мы писали вчера, все сетевые инженеры в настоящий момент должны отдавать себе стопроцентный отчет в корректности собственных действий, исключая возможность совершения критической ошибки. Ошибка, которую допустил Ростелеком, отлично иллюстрирует насколько хрупкой сущностью является стандартизированная IETF BGP-маршрутизация и, особенно — в такие стрессовые с точки зрения роста объема трафика времена, как сейчас.

    Но что на самом деле отличает данную ситуацию от любой другой, это то, что Ростелеком получил предупреждение от реал-тайм системы мониторинга Qrator.Radar, быстро обратившись к нам за помощью в исправлении последствий.

    Учитывая тривиальность ошибок в BGP, в течение текущей пандемии коронавируса допустить оную крайне легко. Но при наличии аналитических данных, можно быстро реагировать на изменение ситуации, что и было сделано — положив конец утечке и восстановив нормальную маршрутизацию.

    Мы всерьез рекомендуем всем интернет-провайдерам, не являющимся Ростелекомом, задуматься о мониторинге BGP-анонсов прямо сейчас, для предотвращения масштабных инцидентов в зародыше. И, конечно, RPKI Origin Validation это не фантастика — это то, чем нужно заниматься в настоящее время.
    Qrator Labs
    DDoS Attacks Mitigation & Continuous Availability

    Комментарии 10

      0

      Но как такое могло произойти? Я не думаю, что BGP в РТ админят студенты по примерам с SO.

        +10
        Этого легко добиться уволив всех инженеров и оставив в компании одних эффективных менеджеров
          +2
          Студенты не справились, нужны новые люди. Cегодня пришло письмо от Ростелекома с приглашением на собеседование.
            +1
            Хулиганство.
            Это прекратится только с практикой уголовной ответственности за подобные кибер-атаки.
            +1
            Yesterday at 18:17 (UTC+2) we accidentally deleted 4,100 RPKI Route Origin Authorisations (ROAs). These ROAs were related both to members' and sponsored resources. This happened while we were performing maintenance on our internal software.
            We are currently investigating and will update you when we know more.
            Apologies for the inconvenience.

            Kind regards

            Nathalie Trenaman
            Routing Security Programme Manager
            RIPE NCC

            А сейчас всё опять немножко рухнуло:
            Dear colleagues,

            We have now reinstated the deleted ROAs and everything is back to normal. If you created replacement ROAs in the meantime, you will not need to do anything — any changes will still be there.
              0
              Вот именно, их хваленая защита не сработала не фига. RIR прилег отдохнуть. Долбанутся, ещё совпадение-то какое.
              +11
              Перефразирую заголовок другой статьи: Ростелеком — рак рунета.
              Вот что пишет об этом Влад Здольников:
              Причины у этого могут быть следующие:
              — Банальные кривые руки.
              — Утечка из системы «радикальной» блокировки в определённый момент — например, во время протестов. Дело в том, что фейковые маршруты — это один из способов блокировки ресурсов, но в штатном режиме они не утекают за пределы сети оператора.

              Я почти уверен во втором варианте, и вот почему.
              Если бы это была случайность, то маршруты анонсировались бы оригинальными размерами, но они были разбиты на более мелкие подсети (https://radar.qrator.net/as12389/prefixes#startDate=2020-04-01&endDate=2020-04-01&tab=current), чем они анонсируются оригинальными AS.

              Очень похоже, что список анонсированных префиксов — результат работы скрипта, который сделал специальную таблицу маршрутизации исходя из ресурсов, которые необходимо заблокировать.
              Просто этот список из-за ошибки утёк из служебной таблицы маршрутизации — другим провайдерам.
                0
                deleted
                  +1

                  Так нечестно, давайте технические подробности.


                  Раньше вы не были замечены в тупом пиаре без полезного контента. Это скользкая дорожка.

                    –1

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                    Самое читаемое