Articles / Bookmarks / Profile of Sharapoff / Habr

Сергей @Sharapoff

Project Manager

Profile Publications 2Comments 11Bookmarks 3

shurik2533 Sep 6 2018 at 11:29

Процесс ревью кода в hh.ru

7 min

19K

hh.ru corporate blogProgramming*Perfect code*Git*GitHub*

Мне на глаза попался документ с правилами и рекомендациями по процессу ревью кода внутри компании. Я решил, что такой полезной информацией надо поделиться с внешним миром. С благословения автора я публикую работу.

Читать дальше →

+34

Sharapoff Feb 9 2017 at 12:07

SmartMonitoring — мониторинг бизнес-логики в Одноклассниках

10 min

14K

ОК corporate blogVK corporate blogIT Infrastructure*Server Administration*DevOps*

Сейчас у нас в Одноклассниках есть четыре географически распределённых дата-центра, 11 тыс. серверов, более 1 тыс. сетевых устройств, 180 сервисов. Под сервисами мы понимаем фото, видео, музыку, ленту и т. д. Ежедневно сайт посещают десятки миллионов уникальных пользователей. И за всем этим хозяйством необходимо следить, чем и занимаются:

команда инженеров, которая устанавливает оборудование, меняет диски, решает hardware-инциденты;
команда мониторинга, которая как раз ищет эти инциденты и отдаёт в работу другим командам;
сетевые администраторы, они работают с сетью, настраивают оборудование;
системные администраторы, они администрируют и настраивают портал;
разработчики.

Мы сами устанавливаем и настраиваем наши серверы, но так как их очень много, то неизбежно, что каждый день что-то ломается. И наша самая главная задача в таком случае — увидеть поломку быстрее пользователей. Поэтому за работу всего портала отвечает целая команда мониторинга. Они просматривают графики, ищут в них аномалии, заводят инциденты, распределяют «автоинциденты», которые создаются при помощи связки Zabbix + JIRA. Мы не просто мониторим бизнес-логику, но и автоматически её анализируем. Подробнее об этом я и расскажу далее.

Читать дальше →

+49

Sharapoff Oct 20 2016 at 15:44

Что случилось, когда мы устали смотреть на графики 5 000 серверов в мониторинге (и когда серверов стало более 10 000)

7 min

35K

ОК corporate blogVK corporate blogSystem administration*IT Infrastructure*Server Administration*

Мы в Одноклассниках занимаемся поиском узких мест в инфраструктуре, состоящей более чем из 10 тысяч серверов. Когда мы слегка задолбались мониторить 5000 серверов вручную, нам понадобилось автоматизированное решение.

Точнее, не так. Когда в седой древности появился примерно 20-й сервер, стали использовать Big Brother — простейший мониторинг, который просто собирает статистику и показывает её в виде мелких картинок. Всё очень, очень просто. Ни приблизить, ни как-то ввести диапазоны допустимых изменений нельзя. Только смотреть картинки. Вот такие:

Два инженера тратили по одному рабочему дню в неделю, просто отсматривая их и ставя тикеты там, где график показался «не таким». Понимаю, звучит реально странно, но началось это с нескольких машин, и потом как-то неожиданно доросло до 5000 инстансов.

Поэтому мы сделали новую систему мониторинга — и сейчас на работу с 10 тысячами серверов тратим по 1-2 часа в неделю на обработку алертов. Расскажу, как это устроено.

Читать дальше →

+72