company_banner

Как мы эвакуировали дежурную смену Яндекса



    Когда работа умещается в одном ноутбуке и может выполняться автономно от других людей, то нет проблем перебраться на удалёнку — достаточно остаться утром дома. Но так повезло не всем.

    Дежурная смена — это команда специалистов по доступности сервисов (SRE). Она включает в себя дежурных администраторов, разработчиков, менеджеров, а также общую «приборную панель» из 26 ЖК-панелей по 55 дюймов каждая. От работы дежурной смены зависит стабильность сервисов компании и скорость решения проблем.

    Сегодня Дмитрий Меликов tal10n, руководитель дежурной смены, расскажет о том, как за считанные дни им удалось перевезти оборудование на дом и наладить новые процессы работы. Передаю ему слово.



    — Когда у вас бесконечный запас времени, то можно комфортно переехать с чем угодно куда угодно. Но стремительное распространение коронавируса поставило нас в совершенно другие условия. Сотрудники Яндекса перешли на удалённую работу одними из первых — ещё до введения режима самоизоляции. Происходило это так. В четверг 12 марта меня попросили оценить возможность перевести работу команды на дом. В пятницу 13-го появилась рекомендация перейти на удалённую работу. В ночь на вторник 17 марта у нас всё было готово: дежурные работают дома, оборудование перевезено, недостающий софт написан, процессы перенастроены. А сейчас я расскажу, как мы это провернули. Но для начала нужно вспомнить о тех задачах, которые решает дежурная смена.

    Кто мы такие


    Яндекс — большая компания с сотнями сервисов. Стабильность поиска, голосового помощника и всех остальных продуктов зависит не только от разработчиков. В дата-центре может нарушиться энергообеспечение. Рабочий во время замены асфальта может случайно повредить оптический кабель. Или может произойти всплеск активности пользователей, из-за чего потребуется срочно перераспределить мощности. Более того, мы все живём в большой, сложной инфраструктуре, и релиз одного из продуктов может случайно привести к деградации другого.

    26 панелей в нашем опенспейсе — это полторы тысячи алертов и более ста графиков и панелей наших сервисов. По сути, это огромная диагностическая панель. Опытный дежурный администратор, взглянув на неё, быстро понимает состояние важных узлов и может установить направление для расследования технологической проблемы. Это не значит, что человек должен постоянно смотреть на все приборы: автоматика сама привлечёт внимание, прислав уведомление на специальный интерфейс дежурного, но без наглядной панели решение проблемы может затянуться.

    Когда возникают неполадки, дежурный сперва оценивает их приоритет. Затем он изолирует проблему или минимизирует её воздействие на пользователей.

    Есть несколько стандартных способов изолировать проблему. Один из них — деградация сервисов, когда дежурный администратор отключает часть функций, которые пользователи меньше всего замечают. Это позволяет на время снизить нагрузку и разобраться, что случилось. Если возникает проблема с дата-центром, то дежурный связывается с командой эксплуатации, разбирается в проблеме, контролирует сроки её решения и при необходимости подключает профильные команды.

    Когда дежурный администратор не может сам изолировать проблему, возникшую из-за релиза, он сообщает о ней в команду сервиса — и разработчики ищут ошибки в новом коде. Если и им не удаётся разобраться, то администратор привлекает разработчиков из других продуктов или инженеров по доступности сервисов.

    Могу долго рассказывать о том, как всё у нас устроено, но думаю, что суть уже передал. Дежурная смена координирует работу всех сервисов и контролирует глобальные проблемы. Дежурному администратору важно иметь диагностическую панель перед глазами. Вот почему при переходе на удалённую работу нельзя просто взять и выдать каждому по ноутбуку. Графики и алерты не уместятся на экране. Что делать?

    Идея


    В офисе все десять дежурных администраторов работают посменно за одной приборной панелью, которая включает в себя 26 мониторов, два компьютера, четыре видеокарточки NVIDIA Quadro NVS 810, два стоечных блока бесперебойного питания и несколько независимых доступов в сеть. Нам же требовалось обеспечить каждому возможность работать у себя дома. Собрать такую стену в квартире просто не получится (моя жена будет особенно рада этому), так что решили создать портативный вариант, который можно привезти и собрать дома.

    Начали экспериментировать с конфигурацией. Нам нужно было уместить все приборы на меньшем количестве дисплеев, поэтому главным требованием к монитору стала высокая плотность пикселей. Из имеющихся в нашем окружении 4K-мониторов для тестов выбрали Lenovo P27u-10.

    Из ноутбуков взяли 16-дюймовый MacBook Pro. У него достаточно мощная графическая подсистема, необходимая для отрисовки картинки на нескольких 4K-дисплеях, и четыре универсальных Type-C разъёма. Вы можете спросить: почему не десктоп? Заменить ноутбук точно таким же со склада значительно проще и быстрее, чем собрать и настроить идентичный системник. Да и весит он меньше.

    Теперь нужно было понять, сколько мониторов мы реально сможем подключить к ноутбуку. И проблема тут не в количестве разъёмов, это мы могли узнать, только опробовав систему в сборе.



    Тестирование


    Мы достаточно комфортно разместили все графики и алерты на четырёх мониторах и даже подключили их к ноутбуку, но столкнулись с проблемой. Отрисовка 4×4K пикселей на подключённых мониторах настолько нагружала видеокарточку, что ноутбук разряжался даже во время зарядки. К счастью, проблема решилась с помощью док-станции Lenovo ThinkPad Thunderbolt 3 Dock Gen 2. К док-станции удалось подключить и монитор, и питание, и даже любимую мышку с клавиатурой.

    Но сразу же всплыла другая проблема: GPU пыхтел настолько, что ноутбук перегревался, а значит, перегревался ещё и аккумулятор, который в результате переходил в защитный режим и переставал принимать заряд. Вообще, это очень полезный режим, который защищает от опасных ситуаций. В ряде случаев проблему удалось решить с помощью высокотехнологичного приспособления — шариковой ручки, подкладываемой под ноутбук для улучшения вентиляции. Но помогало это не всем, поэтому мы ещё и выкрутили скорость работы штатного вентилятора.

    Оставалась ещё одна неприятная особенность. Все графики и алерты должны располагаться на строго определённом месте. Представьте, что вы пилотируете самолёт на посадку — и тут указатели скорости, высотомеры, вариометры, авиагоризонты, компасы и указатели положений начинают менять размер и скакать по разным местам. Так что решили сделать приложение, которое поможет с этим. За один вечер мы написали его на Electron.js, взяв готовый API по созданию окон и управлению ими. Добавили обработчик конфигураций и их периодическое обновление, а также поддержку ограниченного количества мониторов. Чуть позже ещё добавили поддержку разных сетапов.

    Сборка и доставка


    К понедельнику волшебники из хелпдеска добыли для нас 40 мониторов, десять ноутбуков и столько же док-станций. Не знаю, как им это удалось, но спасибо им большое.



    Оставалось развезти всё это по квартирам дежурных администраторов. А это десять адресов в разных уголках Москвы: юг, восток, центр, ещё и Балашиха, до которой от офиса 45 километров (кстати, позднее добавился ещё и стажёр из Серпухова). Нужно было как-то распределить всё это между людьми, выстроить логистику.

    Вбил все адреса на наших Картах, там ещё есть возможность оптимизировать маршрут между разными точками (воспользовался бесплатной бета-версией инструмента для курьеров). Разбили нашу команду на четыре независимые бригады по два человека, каждая получила свой маршрут. У меня машина оказалась наиболее вместительной, поэтому взял к себе оборудование сразу для четырёх сотрудников.



    На всю доставку ушли рекордные три часа. Выехали из офиса в десять вечера понедельника. В час ночи я уже был дома. Этой же ночью мы вышли на дежурство уже с новым оборудованием.

    Что в итоге


    Вместо одного большого диагностического пульта мы собрали десять относительно портативных в квартире у каждого дежурного. Конечно же, оставалось ещё утрясти некоторые мелочи. Например, раньше у нас был один «железный» телефон дежурного для уведомлений. В новых условиях это не работало, поэтому мы придумали «виртуальные телефоны» для дежурных (по сути, каналы в мессенджере). Были и другие изменения. Но главное, что в рекордные сроки нам удалось перевести не просто людей, снизив риск их заражения, а всю нашу работу на дом без вреда для процессов и стабильности продуктов. В таком режиме мы работаем уже месяц.

    Ниже вас ждут фотографии реальных рабочих мест наших дежурных.









    Яндекс
    Как мы делаем Яндекс

    Comments 149

      +12
      На последнем скриншоте, по всей видимости, рабочее место вышеупомянутого стажера :D
        +20
        В изоляции важно следить за моральным настроем в команде, в пятницу вечером мой домашний пункт управления яндексом выглядел вот так)
          +1
          Герои под мак? Научи!
            +4
            Тысячи сценариев, игру можно запустить в любой виртуалке или вайне — это подойдет для соло. Игра по сети стабильно и хорошо работает в паралелс.
              0
              Есть ещё герои hd (но ты наверное в курсе) они и под вайном прекрасно работают, как локально так и по сети (я играл в сапсане как-то)
              +2
              Есть open source проект VMCI github.com/vcmi/vcmi
              +1
              Интернет себе проведи и приходи со своими сотрудниками тимбилдиться по пятницам =) Без тройки страдаем.

              ЗЫ — хота?
                0
                я заходил в пост за этой картинкой)
                +6
                Вышеупомянутый стажер просил передать)image
                  0
                  Казума, Казума!
                    +2
                    Почему то первые три работают синхронно, а на четвёртом задержка ~200мс.
                      +1
                      Научным путем определил, что это зависит от фазы луны (и может самую малость от герцовки, но вот она-то точно от фазы луны).
                      Вообще, на самом деле у тех трех задержка, а четвертый без задержки, но время от времени начинают работать с одинаковой задержкой
                        0
                        А пробовали менять местами мониторы, оставив тот же порядок подключения проводов?
                  +7

                  Ой, чую, VR тут ой как пригодится. Гигантская панель мониторинга в VR с возможностью покрутить головой и присмотреться к "красненькому". Плюс, операторы перестанут отвлекаться на внешние раздражители.

                    +6
                    Но пока разрешение не особо для этого подходит. Нужно как минимум две 4к матрицы, чтобы не тыкаться носом в каждый текст/циферки/график.
                      +1
                      Сидеть в вр больше 3х часов подряд очень тяжело
                        +4

                        Оператору наблюдать за состоянием системы больше 3х часов тоже тяжело. Можно не наблюдать, а гонять чаи "пока не забибикает", но с VR всё ровно так же. Забибикало — смотришь. Либо смены короткие, чтобы внимание было.


                        Меня всегда удивляли рабочие места, где людям выдают 100500 мониторов и ожидают пристального их обозревания 24/7 (условная охрана). Разумеется, нет. Либо суперкороткие смены с перерывами, либо люди иногда поглядывают на монитор.

                          0
                          так вот просто поглядывать не выйдет, процесс надевания шлема занимает какое то время
                            0
                            Если нужно быстро глянуть, можно просто поднести очки к лицу, не надевая ремни. Это как в бинокль посмотреть.
                              0
                              на cv1 так не получится. Жёсткая часть в голову упрётся.
                                0
                                Новое поколение шлемов гораздо компактней и удобней. Их уже даже шлемом не назовёшь. Очки максимум.
                                Вот панасоник к примеру


                                Вот его краткие возможности от человека работающего в Varjo

                                Таймкод, если слетит: 3:10
                                  0
                                  про разрешение ничего не сказано. вангую шрифты всё так-же не читаемы.
                                  0
                                  а вы настоящий сварщик? (с) я этой хренью почти каждый день пользуюсь больше года, чтоб там появилась резкость их нужно плотно затянуть
                                    0
                                    Это зависит от индивидуальных особенностей. Для меня наоборот максимум резкости, когда шлем плохо затянут (но тогда он начинает съезжать при активном мотании головой)
                                    P.S. хрень cv1
                                0
                                Меня всегда удивляли рабочие места, где людям выдают 100500 мониторов и ожидают пристального их обозревания 24/7 (условная охрана).
                                Думаю никто не ожидает постоянного пристального наблюдения по всем мониторам, но в критической ситуации это поможет быстро отслеживать ситуацию.
                                То есть сигнал на охрану «Нарушение в точке А», и охранник видя экраны с разных камер на одной панели быстро увидит куда движется нарушитель, что и где происходит, отслеживая взглядом по какими мониторам где идет активность и координирует действия на периметре. Пробежать взглядом по мониторам можно за пару секунд, вместо того чтобы хаотично переключаться между ними, когда каждая секунда может быть ценна.
                                  0
                                  Некорректное сравнение. Камеры как раз таки требуют постоянного внимания каждая.
                                  Особенно если их много, чтобы не тыкаться каждые пять минут туда сюда.
                                    0
                                    Смотря куда эти камеры смотрят.
                                    Если это оживленный магазин — соглашусь.
                                    Если это охрана пустого периметра ночью, то зачем в них смотреть постоянно? — достаточно быстро среагировать на сигнал от датчиков движения и оперативно отследить ситуацию.

                                    Также и в примере статьи — если ситуация штатная и никаких экстренных сигналов не сработало, то что смотреть непрерывно в эти графики?
                                    А если случается проблема, можно быстро увидеть какие из показателей нарушены и насколько сильно, и исходя из общей картины предполагать реальные причины и что нужно предпринять для исправления.
                              0
                              Разрешение… Вы пробовали в VR читать? На шлемах первого поколения не то что в винде шрифты плохо читаются. Они плохо читаются даже в VR играх, где о проблеме явно знают.
                              Там нужен минимум 8kx или hp reverb шлем. А лучше что-то из бизнес сегмента за тысячи долларов.
                                0

                                Разумеется, я про hi-end устройства. Панель на 20 мониторов тоже не копеечку стоит (включая устройства, которые видеосигналом кормят). Да и пока софт напишут, к тому времени шлемы пару поколений сменят.

                                  –1
                                  20 мониторов сейчас куда лучше hi-end VR шлема.
                                  Я говорил про домашний 4-х мониторный вариант. А он стоит куда меньше.
                                    0
                                    Вот уж чего, а цена «видеокарты на 20 мониторов» довольно смешная, особенно если учесть, что в 3D она не может от слова совсем. Можете поискать решения от Silicon Motion, которые живут на USB.
                                      0
                                      что вам мешает использовать несколько видеокарт? Несколько лет назад натыкался на бюджетные однослотовые видеокарты AMD которые до 6 мониторов могли.
                                        0
                                        Габариты и цена. USB 3.0 SM карта стоит пардон 1000р.
                                          0
                                          упс, я думал это был сарказм.
                                    0
                                    Дык а решение в принципе существует? Пусть за пипсиллион долларов даже, но так чтобы купил — и работай-читай свою дисплейную стенку.
                                      +1
                                      В принципе для варианта минимум нужно:
                                      1)шлем pimax 8kx или hp reverb (для про рынка есть шлемы куда дороже и лучше, но хз как там с софтом)
                                      2)Куча мониторов… можно виртуальных. слышал что есть обманки для компа, но сам не пробовал. Софтовые решения тоже наверно есть.
                                      3)В шлеме включаем отображение рабочего стола (например через steam VR) Тут я вижу 2 потенциально возможные засады:
                                      а)по умолчанию монитор весит перед тобой. Да его можно закруглить. Но насколько можно будет закруглить всю стенку мониторов я не знаю.(какой будет угол мониторов перед тобой?)
                                      б)Покажет ли одновременно картинку с нескольких мониторов(можно сделать стенку из мониторов?) У меня с наскоку не получилось сделать отображение нескольких мониторов.
                                      Альтернатива)Но зато я заметил что размер и закругление виртуального экрана(того, что видишь в шлеме как рабочий стол) зависит от его разрешения(2560х1440 уже очень большой монитор, 4к будет огромным). Возможно, если заставить систему думать, что подключен какой-нибудь 8к монитор, то этого будет более чем достаточно. Но как это сделать я не знаю.
                                  0
                                  Обожаю «Яшу»… ((:
                                    +13
                                    Сразу видно ни у кого нет маленьких детей, очень смелая расстановка
                                      +4
                                      Моему ребенку 3 года, основная проблема это желание ребенка: — «поработать как папа». Приходится блокировать ноутбук или давать ребенку запасной. К мелочам вида дать поиграть с ручкой/телефоном/мышкой давно привык.
                                        0
                                        Да уж. Тут сильно помогуют беспроводные клава с мышью, их можно отключить и дать поработать «как папа». На системнике отключил все кнопки на передней панели, благо комп выключаю нечасто, а когда надо включить, есть спецовая штатная кнопка на матери внутри системника.
                                          0
                                          У меня в соседней комнате компьютер жены работает именно так(включается с тыла кнопкой на блоке питания, а на морде все кнопки отключены). Но тут есть нюанс, кнопки монитора не отключить) Ребенок обязательно все поднажимает.
                                            0
                                            Ну вообще, если монитор не на гарантии, а ребёнка к кнопкам тянет, отключить их легко, выдернув шлейф внутри. У меня при всей любви к кнопкам, на удивление, сын не замечает кнопок на мониторе. Так что я с этим не связывался. Ещё передаю респект Ленове за её защёлку крышки на ThinkPad'е, если бы ноут открывался так же легко, как какой-нибудь мак, пришлось бы его прятать.
                                              0
                                              ленова она вообще «интересная» ладно за то что внутрь залезаешь памяти добавить, гарантию снимают… но вот когда на ноут с freedos свою операционку ставишь — гарантию снимать перебор (ну осталась у меня лицензия с предыдущего умершего ноута)… сетевые накопители, он то купили, то продали… поддержка неполная сечас… удачные, на мой взгляд, модели сняли с производства…
                                                0
                                                Тоесть леново скурвилось окончательно? Во времена T61/T500 на мой звонок в техподдержку мне вообще сказали, что я ноут могу разобрать и прочистить от пыли(и по хорошему должен делать это раз в год или возить к ним) и хоть обдоставляться памятью и жесткими дисками, но в случае глюков первое, что от меня потребуют — вернуть родную конфигурацию.
                                            0
                                            Хм, поведение кнопки «ВКЛ/ВЫКЛ» же легко настраивается, у меня кнопка только будит ПК, но не выключает. Вот кнопку резет пришлось отключить, достать её провода из разъема платы.
                                              0
                                              Хм, долгое нажатие на кнопку «ВКЛ/ВЫКЛ» разве также легко отключить?)
                                                0
                                                Ребёнок ещё не догадался подержать кнопку?
                                                Я буду обновлять комментарии перед отправкой.
                                          +10
                                          Рабочее место на кухне — это ужас. Места мало, да еще и часто отвлекающие события.
                                            +2
                                            Это как со стаканом которой на половину полон. Из плюсов можно не тратить время на поход за едой)
                                              +1
                                              Рабочее место на кухне без двери в доме с маленьким ребёнком — вот это настоящий ужас. Кухня просторная, а в спальнях кроме кровати мало что помещается. Но проходной двор и бесконечные детские вопли на всё квартиру.
                                                0
                                                > бесконечные детские вопли на всё квартиру

                                                Не зависят от расположения рабочего места в доме и от площади квартиры :(
                                                0
                                                И отвлекающие запахи.
                                                0
                                                Как подключались мониторы? один hdmi, остальные Type C?
                                                  +2
                                                  схема выглядит как, мак а к нему:
                                                  — 3 монитора чез Type C
                                                  — док станция черезз Type C
                                                  ** дисплей порт через докстанцию(hdmi пробовали тоже но картинка была хуже)
                                                  ** езернет через докстанцию
                                                  ** мышки клавиатуры через докстанцию
                                                  ** накопители(диски флешки) через докстанцию

                                                  Можно использовать и переходник от мака и подключить монитор через передничек и hdmi но тогда не остается удобных свободных портов для другой перефирии. Часть парней у меня использует такой способ подключения.
                                                    0

                                                    А можно схему подключения?
                                                    Просто у меня DELL Precision 5530, у него один порт USB Type C. Док.станция DELL поддерживает два монитора + монитор лаптопа. Пробовал каскадом подключать еще одну док.станцию, но на второй не работал не один монитор =(
                                                    В лаптопе Quadro-P2000 и Intel UHGG 630.


                                                    В итоге третий монитор через внешнюю USB карту карту подключил (

                                                      0
                                                      У некоторых мониторов есть выход Display port, как раз для того, чтобы подключать каскадом второй монитор
                                                        0

                                                        т.е. до док.станции USB Type C, а от него DP каскадом?

                                                          0
                                                          Примерно так.
                                                          Важное уточнение — порт должен быть не просто USB-C, а Thunderbolt. К простому USB-C монитор подключить не получится.
                                                          Ну и нужно следить за пропускной способностью — если я не ошибаюсь, больше двух 4K мониторов каскадом подключить проблематично
                                                            0

                                                            Если у вас и мониторы Dell, то у всех последних бизнес серии есть каскадное подключение. Их подключает через Display port от дока, и кабелем DP между собой (на первом мониторе включите MST, в оконечном — выключите). Dell уверяет, что можно до трех мониторов подключить, но я не пробовал. Если третий не пойдёт, то включайте его напрямую в док через HDMI или второй Display port (если вас WD19)

                                                    +3
                                                    офф Завис на снимке с бананом. Не мог определиться это я уже доработался или это действительно банан.
                                                      –1
                                                      А что за мониторы? Какая модель?
                                                        +8

                                                        Когда смотришь это фото с телефона, то кажется, что ноутбук без экрана.
                                                        image

                                                          +3
                                                          оно высаживает даже если не с телефона смотреть)
                                                          0

                                                          А почему не вариант с внешней видеокартой, как стримеры делают, например? У нас в кампании на конфе требовало подключения 8 мониторов к xbox и если мне не изменяет память проворачивали это как раз через внешнюю видеокарту, но это не точно.

                                                            0
                                                            Для этого нужно раздобыть еще по 10 боксов и карточек. Док-станция будет подешевле.
                                                              +3
                                                              Верно. И ноутбуки с мониторами на складе найти проще, они стандартные. Карточки с боксами надо заказывать и ждать неизвестно сколько. После изоляции эти карточки с боксами будут бесполезны, а докстанции и мониторы можно будет переиспользовать в обычной жизни.
                                                            +1
                                                            В статье несколько раз упоминается 26 мониторов «приборной панели». Но на КДПВ их только 24. Где еще 2?
                                                              +2
                                                              Мы взяли старую фотку, вместо того чтобы гонять людей в офис за свежей.
                                                              0
                                                              Я один не досчитал 2х мониторов на панели?
                                                                0
                                                                Это старая фотография. Дмитрий чуть выше ответил.
                                                                +1
                                                                Да уж, господа. Алиса, адаптивные метрики, нейросети, искусственный интеллект, big data.
                                                                А для того, чтобы понять, что где-то возникает проблема, нужно 26 мониторов и опытный администратор. Хорошо, что не tail -f /var/log/messages. Но как так-то?
                                                                  +2
                                                                  Отличный вопрос. Помимо Алисы есть еще большое количество сервисов и эти сервисы могут влиять друг на друга. Есть еще инфраструктура, сети и внешние пользователи. Эти панели нужны не для того чтобы понять, что есть проблема у одного сервиса, а для того чтобы понимать, что происходит со всеми сервисами одновременно и иметь возможность скоординировать работу в случае глобальной проблемы. Имея такой прибор опытный специалист может оперативно перенаправить фокус команд или пользовательский трафик.
                                                                    0
                                                                    Хорошо, что нас, человеков, еще не заменить!
                                                                    Но как обычно происходит — что-то не работает или работает плохо. Смотрим на данные мониторинга, увязываем, появляется мысль. А после этого вторая мысль — почему не пришло автоматизированное уведомление? Можно ли написать проверку, чтобы больше не надо было проверять и искать «глазками». И у вас так происходит?
                                                                      0
                                                                      Все алерты которые есть на панели — дублируются и дежсмене и команде конкретного сервиса.
                                                                        0
                                                                        Все алерты которые у нас есть они дублируются и приходят всем заинтересованным. Про то как у нас устроена система нотификаций можно написать отдельную статью. Приведу пример, при потере датацента пострадает огромное количество сервисов и нотификации будут мало бесполезны. На одних алерта далеко не уехать нужно еще видеть запас по сервисам и тренды)
                                                                      0

                                                                      messages отключили, чтобы место не сжирал :)

                                                                      0
                                                                      Ого! Очень интересно выглядит всё. Жалко конечно, когда в квартире места мало, под такое количество мониторов :)
                                                                        0
                                                                        Маки можно настроить так, чтобы они не уходили в сон при закрытой крышке (работает только если подключена зарядка).
                                                                        И не стоит оставлять на маках статичную картинку надолго — на некоторых моделях пиксели «залипают» и потом требуется делать прогон скринсейверов, чтобы убрать ghost-эффект.
                                                                        У меня как-то раз мак не выключил матрицу при закрытой крышке (зарядка была подключена). Мак никто не трогал минимум месяц, и целый месяц он показывал статичную картинку. Знатно испугался, когда увидел артефакты от этой статики даже на полностью чёрном изображении. Прогон заставки на пару часов всё пофиксил, но нужно иметь в виду.
                                                                          +2
                                                                          С таким нагревом не выдержит он с закрытой крышкой…
                                                                            0

                                                                            У меня ноут HP после нескольких дней с закрытой крышкой под умеренной нагрузкой "порадовал" при открытии "южной ночью" битых пикселей (в основном зелёных), причём явно больше их было со стороны проца (где теплее всего).
                                                                            Правда, спустя несколько дней работы с открытой крышкой все до единого вернулись обратно в рабочее состояние.
                                                                            С тех пор крышку ноута закрываю только для транспортировки или после выключения.

                                                                            0
                                                                            … и несколько независимых доступов в сеть.
                                                                            Как теперь организован запасной канал? Какой-нибудь 3G-свисток?
                                                                              0
                                                                              Не знаю используют ли это ребята, но у меня как SRE подключен корпоративный тариф куда включён бесплатный интернет трафик.
                                                                                0
                                                                                Есть линк в офисную сеть и отдельная оптика через другой канал, никак не связанная с офисной. Свисток тоже) его только тестировали ниразу в бою не пригодился.
                                                                                  +2
                                                                                  Я думаю спрашивали про резервирование канала дома
                                                                                    +1
                                                                                    Дома у каждого бойца есть запасной модем с симкой, как у тебя)
                                                                                      0
                                                                                      Спасибо за ответ. Модем включается вручную или автоматически какой-то вундервафлей?

                                                                                      Также интересно по поводу питания. По предпоследнему фото кажется, что ИБП отсутствует. Для макбука это не страшно, у него есть своя батарея, а как насчет мониторов?
                                                                                        0
                                                                                        Модем включается руками, интернет пропадает не так часто. По ИБП, электричество еще не подводило. Про другие проблемы при работе у нас резервирование идет графиком, большую часть времени на «дежурстве» 2 человека, из расчета один координирует текущие работы/процессы/релизы а 2й спокойно пишет код. Если случилось страшное и пропало питание или интернет кричим коллеге в онлайн конференции что есть проблемы, передаем роль дежурного и спокойно чиним.
                                                                                0
                                                                                Из реальных фото ужаснули второе (4 монитора за кухонным столом) и третье (я правильно понимаю что это тот самый советский раздвижной стол, который был у каждого и за которым ужасно неудобно сидеть?). В таких условиях продуктивно работать можно, возможно, месяц-другой, пока есть ещё запал, но потом качество работы рухнет. Как аварийная мера, возможно и можно потерпеть, но если карантин затянется — нужно будет что-то делать, что бы обустраивать условия сотрудникам получше.
                                                                                  0
                                                                                  Да это внезапная проблема. У меня тоже нет физически места для рабочего компа, использую на работе два 21" монитора, а дома на «рабочем месте» еле 19" один влезает.
                                                                                  0
                                                                                  а сколько сия конструкция(в домашнем варианте) потребляет электроэнергии?
                                                                                    0
                                                                                    Стандартная 24-ка LED ест примерно 25 ватт.
                                                                                      0
                                                                                      Тоже интересно: компания компенсирует затраты электроэнергии?
                                                                                        +1
                                                                                        50*4+100=300вт, 0.3*8*20=48квч, по 5 рублей это 240 рублей максимум. Скорее всего около сотни будет. Вы серьезно про компенсацию?
                                                                                          0

                                                                                          А вы почему только мониторы считаете?

                                                                                            0
                                                                                            Вон 100вт на ноут. Там еще что-то есть?
                                                                                              0

                                                                                              Док-станция.

                                                                                                0
                                                                                                Думаю, она войдет в 100вт ноута: я ориентировался на блок питания, которых больше 100вт нет. Если у вас другая информация, покажите, интересно.
                                                                                                Но в целом, вряд ли она потребляет больше 30вт, это 5квч или 25 рублей/месяц дополнительно.
                                                                                                  0
                                                                                                  Если интересно, мониторы показывают 65W, а счет за электричество за месяц работы на удаленке увеличился на 1 килорубль. Но стоит еще учитывать, что я теперь постоянно дома.
                                                                                                    0
                                                                                                    Если интересно, мониторы показывают 65W

                                                                                                    Суммарно? А сколько они у вас работают часов в день, примерно?
                                                                                                      0
                                                                                                      Нет, каждый в своей менюшке. Где-то 9ч.
                                                                                                      Блок питания у дока на 135Вт. Но у меня мак медленно садится если питаться от дока(через него 2 монитора, интернет и мышь), так что я еще напрямую подключаю штатную зарядку мака.
                                                                                                        0
                                                                                                        Ну, можно оценить в (65*4+100+35)*9*20/1000*5=350р/месяц тогда. Но мне кажется, потребление ноутбука меньше.
                                                                                                          0
                                                                                                          У монитора вообще-то максимальное потребление 160 Вт, среднее 50: www.displayspecifications.com/en/model/f992147d
                                                                                                          MacBook Pro пашет на полную, его минимальное потребление — 100 Вт, плюс док-станция на 135: (65*4+100+135)*8*20*5,46/1000=432 р.
                                                                                                          И я почему-то уверен, что эту сборку никто не гасит, и работают они круглосуточно.
                                                                                      0
                                                                                      Что нужно знать для такой работы?
                                                                                      На весь яндекс 10 SRE?
                                                                                        0
                                                                                        Мы достаточно комфортно разместили все графики и алерты на четырёх мониторах и даже подключили их к ноутбуку, но столкнулись с проблемой. Отрисовка 4×4K пикселей на подключённых мониторах настолько нагружала видеокарточку, что ноутбук разряжался даже во время зарядки.

                                                                                        Пытались питать ноутбук от монитора? Монитор(Lenovo P27u-10) может отдавать только 45 Ватт, макбук про 16 на максимуме может потреблять под 100.
                                                                                          0
                                                                                          Мак заряжается только от одного источника, просто мониторов не хватает
                                                                                            0
                                                                                            На сколько я понял, они пытались использовать его не подключая внешний блок питания(в каждый порт по монитору воткнули), соответственно питания от монитора(45W у монитора, против 96W у родного блока питания) им не хватило для ноутбука, который может под 100W потреблять.
                                                                                              0
                                                                                              Вот как раз для решения этой проблемы и пригодился док. 2 монитора можно подключить через него, а родной блок питания в освободившийся слот.
                                                                                          0
                                                                                          Господа из дежурных смен, пересмотрите весь подход к мониторингу!
                                                                                          Большие табло (мониторы) красиво выглядят в ЦУП или у энергетиков (управление энергосетью).
                                                                                          Но малопригодны в ситуации, когда метрик на несколько (десятков) порядков больше.
                                                                                          Глаза устают и внимательность снижается.
                                                                                          Ваши глаза не предназначены для поиска одного красного пикселя.
                                                                                            0
                                                                                            Отвечу за Диму. Эти алерты и графики не для того, чтобы постоянно на них смотреть глазами (уведомления о проблемах поступят куда надо автоматически). Эти панели — это диагностическая приборная панель, которая помогает быстро понять общую ситуацию, направление для «раскопок» и координировать решение.
                                                                                              +2
                                                                                              Эти панели — это диагностическая приборная панель, которая помогает быстро понять общую ситуацию, направление для «раскопок» и координировать решение.

                                                                                              Раскройте побольше тему.
                                                                                              Не понимаю, как при дифиците времени такая «приборная» панель помогает.
                                                                                              На авацию, пожалуйста, не ссылайтесь. Там очень длинная и непростая ситуация с дублирование и троированием систем, чтоб летчикам хоть как-то помочь.
                                                                                                +1
                                                                                                Попробую расписать. Мы стараемся разделять алерты и панели на критические, диагностические, информационные.
                                                                                                Критические — говорят команд о том что пользователи прямо сейчас испытывают проблемы и стоит начинать выполнять регламентные действия по спасению(нет не дебаг, дебаг уже поздно, крутим ручки, включаем резервные мощности, отрабатываем заранее подготовленные факапные сценарии)
                                                                                                Диагностические — панель которая повторяет архитектуру сервиса и на которой видны основные места, обычно сверху по стеку:
                                                                                                — балансеры, коннекты, коды ошибок,
                                                                                                — показывающие слои, скорость отрисовки, ошибки верстки,
                                                                                                — арргегирующие или промежуточные слои, обход источников, неответившие источники, критически важные источники, доля неответов, персентили времен по аггрегации,
                                                                                                — базовые слои, базы данных, долгие запросы, количество запросов, емкость системы,
                                                                                                Информационные — запланированные работы или релизы.

                                                                                                Соответственно имея перед глазами пользовательские метрики и архитектуру сервиса с узким местом можно с большой точностью направить починку по правильному пути.
                                                                                                  0
                                                                                                  Наблюдатель сам выбирает нужные элементы для отображения у себя? И может ли он вообще «под себя» настроить? Или Алиса сама выбирает, что показывать? :)
                                                                                                    0
                                                                                                    Элементы для отображения выбирает команда конкретного сервиса, поскольку только она знает что важно, а что нет, она же разделяет уведомления на критические/не критические.

                                                                                                    Например у меня, как ответственного за эксплуатацию сервиса, настроено несколько тысяч алертов, уведомления по которым прилетят команде, если где-то какой-то подземный стук случится.

                                                                                                    У дежурной смены на монитор выведено порядка 30 ключевых алертов. Они смотрят за ними. Это алерты которые показывают, что проблема уже видна снаружи (или вот вот будет) и надо бы начать шевелить всех причастных или вообще в экстренном режиме снимать трафик с датацентра или ещё какие, предусмотренные регламентом, действия нужно сделать.
                                                                                                      0
                                                                                                      Не думали над тем, чтобы написать роботов, которые начнут самостоятельно, без дежурных, писать ответственным ну и дальше снимать трафик с датацентра или еще какие, предусмотренные регламентов действия?
                                                                                                        0
                                                                                                        Такой робот есть (который трафик снимает), но обычно проблемы не такого масштаба, чтобы он сработал.
                                                                                                    0
                                                                                                    Отличный кейс будет для вас, если уволится один из дежурных. Как обучать нового сотрудника для дежурной смены — вопрос большой и объемный. Чисто теоретически — возможно. Практически — в 2 раза больше времени чем offline. Итого — полгода примерно.
                                                                                                0
                                                                                                Выше в комментариях уже писал ответ на это. Мы не занимаемся пиксельхантингом и пользуемся панелью для диагностики в ситуации когда нам надо оперативно узнать состояние куска сервиса или инфраструктуры. Триггеры на метрики есть и успешно работают.
                                                                                                  0
                                                                                                  Можно ссылочки?
                                                                                                    0
                                                                                                    Ссылочки на что? На панель? Это же внутренний NDA ресурс.
                                                                                                      0
                                                                                                      Выше в комментариях уже писал ответ на это.
                                                                                                  0
                                                                                                  Вы думаете, в ЦУП меньше метрик? ))
                                                                                                    +1
                                                                                                    Я бы с удовольствием сходил-посмотрел для обмена опытом.
                                                                                                      +1
                                                                                                      habr.com/ru/post/483226 — ЦУП программы Apollo, очень подробно.

                                                                                                      Главное отличие, бросающееся в глаза — очень конкретное распределение ролей, у каждого только те индикаторы и контролы, за которые он отвечает. Судя по фото современных ЦУПов ситуация принципиально не изменилась.
                                                                                                        0
                                                                                                        Спасибо за ссылку!
                                                                                                  0
                                                                                                  Почему не используются системные блоки вместо ноутбуков? Проблем с перегревом и многих других проблем там нет.
                                                                                                    0
                                                                                                    В тексте есть ответ на это :)
                                                                                                    Ноутбук легко заменить на точно такой же со склада. А системник нужно ещё собрать. Ну и фактор портативности тоже имел значение.
                                                                                                      0
                                                                                                      Упоминание читал, но никак не могу привыкнуть, что с помощью ноутбуков можно решать такие задачи ) В статье написано про компактность больше и скорость развёртки системы.
                                                                                                      То есть с 17 марта система оправдала себя и проблем с железом не возникло? Доукомплектовывать рабочие места сис блоками или чем-то ещё не пришлось?
                                                                                                        0
                                                                                                        Нет, оказалось удачно подобрали, все оказалось удобно. Кроме выявленных в первый день с питанием и охлаждением. Из изменений только допиливаем инструмент автоматического разворачивания и конфигурирования панелей.
                                                                                                        0
                                                                                                        mini-ITX формат. Компактный и расширяемый.
                                                                                                          +1
                                                                                                          В mini-ITX тоже надо собирать, а при сравнимой мощности начнутся и сравнимые же проблемы с охлаждением.

                                                                                                          Ну то есть если эту практику с домашними «ЦУПами» сделать стандартом, то можно озадачить хелпдеск поддержанием должного запаса правильно собраных и сконфигурированных системников. Но для быстрого развёртывания ноут куда уместнее.
                                                                                                      0
                                                                                                      Можете рассказать про бета-версию инструмента для курьеров. Не слышал о такой. Очень интересна оптимизация маршрута.
                                                                                                        0
                                                                                                        На Картах можно оптимизировать маршрут, если выбрать несколько адресов. Если не путаю, это часть Яндекс.Маршрутизации. yandex.ru/routing. Можно поиграть с маршрутом в yandex.ru/maps если выбрать несколько(больше 3) адресов будет доступна кнопка оптимизировать.
                                                                                                        0

                                                                                                        Что я узнал из этого поста?
                                                                                                        Я узнал то, что в яндексе знали о надвигающейся «самоизоляция» ещё 13 марта.

                                                                                                          +1
                                                                                                          Мне кажется, в середине марта необходимость в профилактических мерах была уже всем очевидна. Как раз тогда многие компании начали переходить на удалённую работу.
                                                                                                            +2

                                                                                                            Люди подумали головой и подготовились заранее.
                                                                                                            У нас собрание про подготовку к удаленной работе было 11 марта. Я лично очень удивился.

                                                                                                              0
                                                                                                              Ну лично у нас примерно тогда же уже начали проводить опросы на тему «у кого нет токенов для удаленки?»
                                                                                                                +1
                                                                                                                В Яндексе самоизоляция по инициативе руководства началась раньше, безотносительно выступления нашего солнцеликого. На несколько дней раньше разрешили из дома работать ещё и группам риска. Первая неделя такой работы была названа «учениями».
                                                                                                                0
                                                                                                                А что используете для рисования графиков\метрик? Что-то свое?
                                                                                                                  0
                                                                                                                  image
                                                                                                                    0
                                                                                                                    А что если у человека дома кот или кошка, и так поставить мониторы физически опасно?
                                                                                                                      0
                                                                                                                      Прочитал статью, в очередной раз убеждаюсь что до Илона маска нам еще далеко, если даже в Яндексе люди сидят и следят за метриками в монитор!

                                                                                                                      А как же Алиса? Искусственный интеллект, не ужели она за этим не может следить? :)
                                                                                                                        +1
                                                                                                                        Вы точно прочитали? :)
                                                                                                                        Там же как раз и написано, что в них не смотрят глазами 24/7.
                                                                                                                        0
                                                                                                                        Написано что вместо системного блока проще ноутбук использовать, а дальше написано что он греется и решение выкрутить вентиляторы на максимум, я не знаю как вы, но я бы не смог целый день сидеть за macbook pro 16 в котором система охлаждения работает на максимум, это же самолет, потерпеть 5 минут можно, но не целый день. Так и что с системным блоком может случиться, он даже будет надежней из за того что работает в штатном режиме и тише.
                                                                                                                          +1
                                                                                                                          Спасибо за статью! Немного оффтоп от темы статьи — было очень интересно почитать про ваш мониторинг…
                                                                                                                          При том и с организационной стороны (служба мониторинга, как смены строятся, регламенты и тд), так и с технической (на чем построено, есть ли зонтик, корреляции события, сервисно-ресурсная модель, какие метрики снимаете итд).
                                                                                                                            0
                                                                                                                            А как решили вопрос с несколькими, независимыми подключениями в интернет?
                                                                                                                              0
                                                                                                                              аж в Яндексе захотелось поработать…
                                                                                                                                0

                                                                                                                                Всё-таки ноут lenovo в этой ситуации получше будет. Хотя бы потому что док-станции делают как раз они. Аналог для mac16 у них это X1 extreme или P1. Cтоит дешевле, но самое весёлое — у них можно в биосе отключить батарею. Берёте док-станцию повышенной мощности (230 Вт вместо 135), отключаете батарею и профит!.. Остаётся только решить проблему с охлаждением, но там вроде порядок с этим.

                                                                                                                                  0
                                                                                                                                  5ый слева монитор в верхнем ряду на КДПВ кого то бесит?
                                                                                                                                    0
                                                                                                                                    Это лампа так загородила) бесила, мы ее демонтировали.

                                                                                                                                  Only users with full accounts can post comments. Log in, please.