Интенсив по Kubernetes: о работе саппортов

    1-3 февраля пройдёт Слёрм-3, интенсив по Kubernetes. Анонс и программа тут.


    Сегодня расскажу немного о внутренней кухне: как мы помогаем студентам справляться с практикой и что из этого получается. Заодно будущие участники поймут, чего ждать от поддержки.



    Я сам 2-3 раза в год прохожу платные курсы, всегда беру варианты с практикой, и очень редко доделываю ее до конца. Для меня ситуация выглядит, как если бы я заказал в ресторане килограммовый стейк: съел, сколько мог, остальное оставил на тарелке. Но в тех, кто едет на Слёрм, хотелось бы запихнуть всю порцию.


    На первом Слёрме мы отнеслись к практике спокойно, мол, мы даем задания, а участники справляются как могут. И это привело бы к катастрофе, если бы в аудитории не нашлось инициативных и талантливых парней: «15 минут назад я писал в чат о проблеме, я ее уже решил сам и помог еще пятерым».


    Поэтому на втором Слёрме кроме трех спикеров со студентами работал десяток саппортов: системных администраторов из команды Southbridge.


    Откуда проблемы с практикой?


    Сам подход «Do It Yourself». Можно было бы сделать Walkthrough: «скопируйте конфиг, запустите плейбук, вуаля, ваш кластер готов». Это было бы очень быстро, очень просто и очень бессмысленно. Мы пошли сложным путем: чтобы выполнить задание, нужно понять тему и вручную поправить конфиги-настройки и т.д.


    Снежный ком. Все темы и задания связаны друг с другом. Если в первый день не развернул кластер, во второй не сможешь накатывать туда приложение. Самой важной и сложной темой оказался Ceph.


    Жесть и факапы


    Ceph — ключевая и сложная тема, а двигаться без нее дальше нельзя, поэтому массовый затык на Ceph по разрушительности был сравним с факапом. Тут саппорты легли костьми.


    Ошибка на слайде. Все мы человеки, спикеры тоже. Ошибки на слайдах были, и они означали, что все 87 студентов сейчас напишут в чат, как у них ничего не работает.


    Глюки трансляции. Мы купили выделенный канал у провайдера и держали резервный канал от мегафона, но по закону подлости это не спасло. В первый день Слёрма упал крупный магистральный провайдер, через которого проходил канал до сервиса трансляций Facecast. Мы запустили трансляцию на Ютубе, но за это время спикеры с очными студентами убежали вперед, и отставшие онлайн-студенты устроили скандал, вплоть до отключения от занятий. На следующий день Facecast изменил схему подключения провайдеров, но не у всех пользователей система сразу хорошо заработала. И вся волна возмущения обрушилась на наших саппортов.


    (Проблему из-за упавшего провайдера решили: остановили занятия, дождались полной работоспособности и повторили весь пропущенный материал. Лаги второго дня пришлось перетерпеть).


    Итак, студент просит помощи


    Саппорт должен выбрать линию поведения:
    — дать студенту самостоятельно позаниматься траблшутингом;
    — найти ошибку студента и объяснить ее;
    — сделать этап практики за студента.


    Есть необнаружимые ошибки: неправильный логин, буква I вместо l (большая i вместо маленькой L), в таком духе.


    Если произошел факап, к саппортам выстраивается очередь. Невозможно вдумчиво помочь сразу пятерым в условиях цейтнота.


    А цейтнот был серьёзным: во внутреннем чате техподдержки за день набегало несколько тысяч сообщений. Саппорты отключались заполночь, а начинали работать часов в 6 утра (благо и саппорты, и студенты разбросаны по разным часовым поясам).


    Поэтому иногда вместо разбора участники получали ответ: «Я все поправил, сейчас ваш кластер работает как надо, двигайтесь дальше». Да, «Do It Youself» похерен, но зато удалось избежать снежного кома.


    Маленькие простые радости


    Команда саппортов собирала вопросы из чата и специальной формы, сортировала, отвечала, сложные вопросы передавала спикерам. Поэтому подвисших вопросов не осталось.



    Выяснилось, что онлайн-участникам неудобно переключаться между трансляцией и консолью, а у нас нет текстового файла с командами, только презентация на ноутбуке спикера. Поэтому один из саппортов, сидящих в зале, набирал и отправлял в телеграмм команды со слайдов.


    В общем за спиной ярких спикеров стоит десяток работяг, благодаря которым подавляющее большинство участников дошло до конца практики. Благо Southbridge занимается поддержкой инфраструктуры, у нас каждый может помочь.


    Слёрм-3 будет лучше, чем Слёрм-2


    То, что на Слёрме-2 делалось стихийно, мы систематизируем и оптимизируем:
    — закрепляем за каждым саппортом свою группу, чтобы студенты знали своего саппорта в лицо;
    — пишем базу типовых ошибок и решений;
    — готовим шорткаты «Если вы не справились с практикой, но хотите двигаться дальше»;
    — готовим памятку участника с инструкцией по организации рабочего места и взаимодействию с саппортами.


    Слёрм-3: запускаем кластер Kubernetes

    Southbridge
    258,00
    Обеспечиваем стабильную работу серверов
    Поделиться публикацией

    Комментарии 0

    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

    Самое читаемое