Как стать автором
Обновить
103.42

ЧЕТЫРЕ РАЗРЫВА: как мы резервировали каналы связи в 39 вагоноремонтных депо

Время на прочтение5 мин
Количество просмотров2.5K
Когда управляющий директор собирал скайп-совещания, и некоторые депо просто не появлялись на совещании, вопросы сразу были к ИТ. Их потом спрашивали почему, а они говорили:

— Так у нас в тот день связи не было!

Звучит дико, но в той же Амурской области, например, это было нормой. Просто были дни, когда шёл дождь или снег. А когда идёт снег с дождём, радиомост иногда не дотягивается до депо. Это физика.

image

В этот момент нам прилетела задача разобраться с каналами связи. Мы сразу поняли, что это приключение примерно на год, и с криком «Ура!» бросились копать.

На самом деле, конечно, сначала надо было решить вопрос с костылями для отваливающихся депо, а потом придумать что-то системное и вечное, как у нас любят. И желательно без денег.

Так мы узнали много нового про депо. Например, что в какие-то из них тяжело или невозможно заводить оптику. В некоторых случаях мы с интересом рассматривали антенны радиомостов, сделанных с применением банок «Нескафе» по старой доброй технологии.

В 2019 году в ландшафт ОМК влилась вагоноремонтная компания ВРК-3 (отныне «Стальной путь»), состоявшая из 39 депо по всей стране. В 2020 году в ВРК-3 начали внедрять 1С, удалёнку и другие стрессы для ИТ-инфраструктуры.

image

Общая задача


Все наши депо соединены между собой через L3 VPN от провайдера. В Москве есть центральный хаб, где на серверах крутится разный софт, который всем нужен для работы. До 2020-го он был не очень централизован и не очень требовал реалтайм-связи.

Про 1С можно прочитать вот тут и тут. Если коротко — прям кровь из носа надо было заменить ERP. А новая система — очень требовательна к каналам и не только.

И вот тут-то мы, сетевики ОМК, пошли заниматься каналами только что вошедшей к нам в холдинг вагоноремонтной компании.

Итак, у нас есть 39 депо. Каждое из них должно быть в сети онлайн постоянно. Предыдущая итерация архитектуры подразумевала следующее:
  • В каждом депо свой провайдер последней мили, и они совершенно разнообразны. Форм жизни у них там много. Этот провайдер обеспечивает нам жилу оптики, проходящую где-то в магистрали.
  • От магистрали до депо наша жила, которая соединяет депо с большим миром, лежит в канализации (или висит на столбах, если это вечная мерзлота).
  • Но на территорию депо не всегда можно сделать проход оптики из-за особенностей согласований и особенностей застройки вокруг. Например, никто и никогда не разрешит копать под железнодорожными путями. Поэтому там, бывает, стоят радиомосты. Мосты тоже обеспечивают локальные формы жизни провайдеров, они же согласовывают частоты для них.
  • Всё это заканчивается мини-кроссовой, где медный кабель провайдера втыкается в наше сетевое устройство, через которое раздаётся доступ всему оборудованию депо.

image
Обычный мост

Там, где цивилизация близко и проблем нет, — достаточно было просто обновить оборудование кроссовой и иногда сами оптические линки. Это делается элементарно — надо взять и сказать провайдеру так сделать, а потом дать денег, которые он обязательно попросит. Геморрой там далеко не ИТ-специализированный, а, скорее, административный.

image
Обычная кроссовая до прихода ОМК

image
Типичный коммутационный узел провайдера

А вот там, где последней милей радиомост, всё куда интереснее.

В чём проблема радиомоста


В том, что когда он на 50 метров, всё хорошо, а вот когда он на 100–500 метров, начинаются сложности. Радио начинает капризничать просто так и от погоды на Марсе. Антенну может затопить, засыпать снегом или загадить голубями. Когда софт был асинхронный, проблемы никакой не было, потому что при падении скорости всё досинхронизировалось потом. С появлением 1С такой фокус перестал прокатывать, и связь нужна была постоянно. Плюс появились видеозвонки помимо почты, и там тоже были другие требования. А в дождь и в плохую погоду на Марсе видеозвонок не работал в некоторых депо от слова никак. Поэтому пришлось, где возможно, переводить каналы на оптику.

В чём проблема одного канала


Как вы, наверное, заметили, из-за физической природы соединения, у нас в каждом депо был ровно один канал связи. И если он падал, то депо просто уходило в офлайн, иногда на пару-тройку дней.

А каналы регулярно падали. Вы не представляете, сколько в стране бешеных экскаваторщиков и других проблем на пути оптики, а также атмосферных осадков.

Как ранее упоминалось, мы про эту задачу серьёзно узнали, когда одно из депо не смогло подключиться к общей видеоконференции, где обычно раздают «подарки» от руководства. В тот день там был дождь со снегом. На следующий день погода была хорошая, зато упал промежуточный узел в одном из городов по дороге, и они снова не смогли подключиться. Руководство не могло оставаться с нерозданными подарками.

Поэтому до системного и вечного улучшения каналов нам сначала надо было наладить какой-никакой, а резерв.

Централизованного мониторинга, кстати, тоже не было. Каждый провайдер выгружал (или не выгружал) свои логи с оборудования PE, плюс у нас было состояние нашего роутера, куда приходил аплинк. То есть мы могли нагрепать себе логов с локального сетевого оборудования и поделиться ими с провайдером.

image

Второй канал


Первым желанием было понавтыкать всем LTE-модемов в каждый комп и не париться. Но это было бы слишком дорого, а мы бережём деньги заказчика. Плюс это было бы не очень секьюрно.

К нашему огромному удивлению, удалось решить все проблемы сильно проще, чем казалось. Во-первых, безопасники быстро согласовали VPN-туннелирование в дополнение к физической оптике. Обсуждались, по сути, детали реализации, а не принципиальная возможность. Во-вторых, на тестах оказалось, что сигнал в нужных депо в большинстве своём — LTE. И это прямо в помещении с роутером, что давало возможность рассчитывать на 10 Мбит/с аплинка/даунлинка. Причём более-менее стабильно. В чём там были сложности — в том, что эти 10 Мбит/с были у другого оператора, который не совсем корпоративный для «Стального пути». Но зато у нас в большой ОМК был второй корпоративный сотовый оператор, поэтому чуть обновили стандарты и начали заводить того, кто даёт лучший канал.

Сама реализация была вот примерно такая для костыля:

image

image

И вот примерно уже такая для масштабирования, когда стало можно спокойно им заниматься чуть позже:

image

Сначала были роутеры TP-Link TL-MR6400, потом заменили на более качественные Keenetic Runner 4G, в итоге в роутеры Cisco поставили LTE-модули Cisco NIM-4G-LTE.

image

Почему Циска — потому что нам нужно, чтобы стабильно работало и можно было видеть устройство на мониторинге, а это оказалось самым промышленно подходящим вариантом. Нашли вот эти специальные модули. В них встроен LTE-модем, который работает с оператором сотовой связи, как сказал бы «капитан».

В каждом депо искали место, где лучше всего ловит сотовая связь. Тестировали пропускную способность через этот канал сотовой связи, чтобы понять, какой реально трафик можно прокачать. Если, кстати, вы думаете, что это было радиообследование, то разочарую, там просто инженер ходил с телефоном и мерил скорость через speedtest. Там, где ловило не очень, протягивали удлинитель антенны к окну.

В паре депо понадобился третий провайдер сотовой связи, уже не корпоративный, и это тоже удалось решить.

Получается, что на сотовом модеме в каждом депо у нас теперь есть второй канал до нашей базы в МСК.

image

Волшебное депо


В одном из депо каналы отключались одновременно. В смысле, когда падал основной наш провайдер уровня магистрали, падали и местные сотовые операторы тоже. Сотрудники депо приходят и говорят, что у них «ни единого разрыва» и вот опять, возникают проблемы в узловой точке по дороге, где сходятся все каналы связи. И нам сообщают, что есть подозрение, что все наши каналы завязаны на эту точку. Когда она выключается, то всё. И что подозрение перерастает в уверенность, что мы сделали эту реализацию через сотовый и через наземный канал связи немного зря.

Мы начали разбираться. Поставили всё это дело на мониторинг. Начали наблюдать за поведением работы каналов. Статистику накопили. В конечном итоге оказалось, что эта жалоба была несправедливая. У наземного проводного оператора, который предоставлял услугу, не совпадало время падения каналов. Что совпадало — так это когда пропадала сотовая связь, у них первый раз пошёл дождь, второй раз тоже проблемы совпали, и к этому моменту они сделали выводы, что везде всё плохо.

На деле оказалось, что провайдеры всё-таки отваливались независимо друг от друга.

image

Дальше всё шло спокойно


Мы раскатали свои вторые каналы, параллельно провайдеры последней мили меняли оборудование и расширяли каналы. В общем-то, больше говорить особо не о чем. В целом обычный проект, рабочая история.

Но мы обещали рассказать же. Вот, рассказали. Такая зарисовка из нашей жизни.
Теги:
Хабы:
+24
Комментарии9

Публикации

Информация

Сайт
omk-it.ru
Дата регистрации
Дата основания
Численность
501–1 000 человек
Местоположение
Россия