Как стать автором
Обновить
227.13
ITSumma
Эксперты в производительности
Сначала показывать

Проблемы обеспечения 100% доступности проекта

Время на прочтение5 мин
Количество просмотров6K

Рассуждать о том, что сайт должен быть доступен всегда — моветон и банальность, но 100% доступность, хотя и является обязательным требованием, чаще всего по-прежнему недоступный идеал. Сейчас на рынке существует масса решений, которые обещают максимальный uptime или предлагают решения для его увеличения, но их применение мало того, что не всегда помогает, в некоторых случаях даже может привести к увеличению рисков и снижению доступности проекта. В этой статье мы пройдемся по классическим ошибкам, которые с которыми мы постоянно сталкиваемся. Большинство проблем — элементарные, однако люди допускают их вновь и вновь.


Читать дальше →
Всего голосов 29: ↑27 и ↓2+25
Комментарии6

RabbitMQ против Kafka: два разных подхода к обмену сообщениями

Время на прочтение18 мин
Количество просмотров303K

В прошлых двух статьях мы рассказывали об IIoT — индустриальном интернете вещей — строили архитектуру, чтобы принимать данные от сенсоров, паяли сами сенсоры. Краеугольным камнем архитектур IIoT да и вообще любых архитектур работающих с BigData является потоковая обработка данных. В ее основе лежит концепция передачи сообщений и очередей. Стандартом работы с рассылкой сообщений сейчас стала Apache Kafka. Однако, для того, чтобы разобраться в ее преимуществах (и понять ее недостатки) было бы хорошо разобраться в основах работы систем очередей в целом, механизмах их работы, шаблонах использования и основной функциональности.



Мы нашли отличную серию статей, которая сравнивает функциональность Apache Kafka и другого (незаслуженно игнорируемого) гиганта среди систем очередей — RabbitMQ. Эту серию статей мы перевели, снабдили своими комментариями и дополнили. Хотя серия и написана в декабре 2017 года, мир систем обмена сообщениями (и особенно Apache Kafka) меняется так быстро, что уже к лету 2018-го года некоторые вещи изменились.

Читать дальше →
Всего голосов 87: ↑82 и ↓5+77
Комментарии41

Как построить IIoT архитектуру своими руками. Часть 2: «Вещи»

Время на прочтение6 мин
Количество просмотров15K

В предыдущей статье мы достаточно кратко рассмотрели организацию и процессинг IoT данных с помощью проекта Apache NiFi. Этой статьей мы открываем серию, в которой детально расскажем о каждом этапе, начиная от самих устройств и заканчивая DataLake платформой аналитикой, машинным обучением, предсказанием аномалий и т.д.



Сейчас же начнем с самого первого уровня, непосредственно “вещей”, букве T из аббревиатуры IoT. С самого устройства, организации канала связи и использования протокола MQTT. Тренду IoT уже несколько лет, но по большей части представление о нем, как о лампочке и розетке, включающейся с телефона. Но на производстве, добыче, и в различных других индустриях десятками лет используются самые разнообразные сенсоры, значения с которых собираются в производственные SCADA. Всего-то подключить поток данных к интернету, и мы получаем тот самый IoT, точнее IIoT — индустриальный интернет вещей.

Читать дальше →
Всего голосов 27: ↑25 и ↓2+23
Комментарии14

Как построить IIoT архитектуру своими руками

Время на прочтение9 мин
Количество просмотров19K

За последний год мы спроектировали (и продолжаем поддерживать) несколько IIoT проектов. Возможно, вы слышали о IIoT, но, на всякий случай, мы попробуем максимально просто объяснить что это такое и почему это интересно разработчикам, архитекторам и администраторам высоконагруженных решений.



IoT — интернет вещей — подразумевает управление устройствами, предназначенными для выполнения простых бытовых задач (открыть ворота гаража, когда подъезжает машина, включить свет по датчику движения или по команде, следить за температурой в помещении), то под IIoT — индустриальным интернетом вещей — обычно имеется в виду “оцифровка” данных с производств, на основе которых можно провести экспертный анализ, часто при помощи машинного обучения.

Читать дальше →
Всего голосов 15: ↑15 и ↓0+15
Комментарии8

Организация системы мониторинга

Время на прочтение6 мин
Количество просмотров39K

Мониторинг — это главное, что есть у админа. Админы нужны для мониторинга, а мониторинг нужен для админов.



За последние несколько лет поменялась сама парадигма мониторинга. Новая эра уже наступила, и если сейчас вы мониторите инфраструктуру как набор серверов — вы не мониторите почти ничего. Потому что теперь "инфраструктура" — это многоуровневая архитектура, и для мониторинга каждого уровня есть свои инструменты.


Кроме проблем типа "упал сервер", "надо заменить винт в рейде", теперь надо понимать проблемы уровня приложения и уровня бизнеса: "взаимодействие с микросервисом таким-то замедлилось", "в очереди слишком мало сообщений для текущего времени", "время выполнения запросов к бд в приложении растет, запросы — такие-то".


У нас на поддержке около пяти тысяч серверов, в самых разных конфигурациях: от систем из трех серверов с кастомными докеровскими сетками, до больших проектов с сотнями серверов в Kubernetes. И за всем этим надо как-то следить, вовремя понимать, что что-то сломалось и быстро чинить. Для этого надо понять что такое мониторинг, как он строится в современных реалиях, как его проектировать и что он должен делать. Об этом и хотелось бы рассказать.

Читать дальше →
Всего голосов 34: ↑29 и ↓5+24
Комментарии25

Докер мертв

Время на прочтение4 мин
Количество просмотров88K

Сказать, что для Docker'а 2017 год выдался тяжёлым, было бы преуменьшением. Не могу вспомнить ни одного столь раскрученного и хорошо обеспеченного деньгами стартапа из Долины, кроме Uber'а, который бы провёл 2017 год так же невнятно, как Docker. 2017 стал тем годом, когда Docker, великолепный образчик программного обеспечения, был полностью уничтожен плохим бизнес-управлением. Эта заметка — сторонний взгляд на то, как и где Docker пошёл не туда, и как попытки что-либо исправить оказались слишком слабыми и запоздалыми.


Читать дальше →
Всего голосов 114: ↑92 и ↓22+70
Комментарии282

DDoS в обход Куратора: простые действия для спокойной жизни

Время на прочтение8 мин
Количество просмотров19K

Недавно в Москве прошла вторая конференция по эксплуатации и администрированию информационных систем Uptime.commuinty, на которой мы тоже поделились своим опытом. У нас, как обычно, о наболевшем — про DDoS.



DDoS-атаки на Хабр начались лет десять назад и до сих пор представляют для нас неприятную проблему. Сначала были робкие попытки чуть-чуть подзалить, а сейчас для нас обычный DDoS — это порядка 30 Гбит/с. Это и не удивительно, потому что сейчас у каждой бабушки в Москве есть 50Мб. Всё по классике: одна старушка — 50, 10 старушек — 500…

Читать дальше →
Всего голосов 61: ↑56 и ↓5+51
Комментарии18

Директор по здравому смыслу: как перестать все контролировать и начать работать в команде

Время на прочтение7 мин
Количество просмотров37K
Эта статья — вольный пересказ моего доклада на прошедшем Хайлоаде.

Я возглавляю компанию, в которой работает 75 человек, а начинали мы 10 лет назад впятером.


И я хотел бы рассказать как, со временем, и почему менялась система менеджмента, какие основные ошибки мы совершили, как их исправляли, и чему научились по этому поводу.


Читать дальше →
Всего голосов 88: ↑85 и ↓3+82
Комментарии55

Кибер-оракул: поиск аномалий в данных мониторинга с помощью нейросети

Время на прочтение8 мин
Количество просмотров20K

Количество данных, которые получает наш мониторинг выросло настолько, что для их обработки мощности только человеческого разума уже не хватает. Поэтому мы надрессировали искусственный интеллект помогать нам искать аномалии в полученных данных. И теперь у нас есть Кибер-Оракул.


Кибер-оракул, очевидно

Читать дальше →
Всего голосов 35: ↑33 и ↓2+31
Комментарии30

Про бэкапы, черную пятницу и коммуникации между людьми: как мы накосячили и научились больше так не делать

Время на прочтение9 мин
Количество просмотров22K

13 октября мы провели вторую конференцию сообщества Uptime. В этот раз дата проведения выпала на пятницу 13-е, поэтому основная тема — аварии, и как с ними справляться. Это первый из серии постов про доклады с прошедшей конференции.


У меня есть три страшные истории о том, как по нашей вине все сломалось, как мы это чинили, и что мы делаем теперь, чтобы это не повторилось.


Uptimeday2-Potapov

Читать дальше →
Всего голосов 51: ↑50 и ↓1+49
Комментарии36

23000 человек написали онлайн-диктант 8 апреля 2017. Как это получилось?

Время на прочтение4 мин
Количество просмотров6.3K
В этом году 200 тысяч человек из 858 городов мира приняли участие в образовательной акции «Тотальный диктант». Пишут диктант уже семь лет в основном на офлайн-площадках, возможность сделать это онлайн есть с 2014 года. Испытав все горести экстремальных нагрузок на сайт, в этом году организаторы акции привлекли целую команду ИТ-компаний. Сегодня мы рассказываем о своей части работы.

image
Читать дальше →
Всего голосов 24: ↑22 и ↓2+20
Комментарии2

Uptime day 2: российские ИТ-компании расскажут о том, как справляются с катастрофами

Время на прочтение2 мин
Количество просмотров4.2K
Через три недели, в пятницу, 13-го, в коворкинге Deworkacy в Москве пройдет уже вторая конференция сообщества Uptime, тема которой — аварии в ИТ-инфраструктуре. Мест всего 300, участие бесплатное — под катом есть ссылка на регистрацию.

image
Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии1

Ожидание длиной в 15 лет. Nginx Application Server

Время на прочтение5 мин
Количество просмотров58K
Начиная с момента появления Nginx в 2004 году, мы все задавались вопросом: когда же на nginx можно будет запускать приложения? Мы запускали PHP в php-fpm и на апаче, запускали Python через uWSGI, иногда жили с Apache, а если нам нужны были разные версии PHP — жили с зоопарком из FPM-ов.

image

Только что на конференции NginxConf в Портленде Nginx, Inc. объявил о запуске Nginx Application Platform. ITSumma тестировала один из его компонентов, собственно сам Application Server под названием Nginx Unit с закрытой версии. В этом посте мы расскажем о том, как выглядит Nginx Unit, и как на нем запускать приложения.
Читать дальше →
Всего голосов 131: ↑125 и ↓6+119
Комментарии119

Как звезда бразильских сериалов случайно помогла открыть IT-компанию в России

Время на прочтение3 мин
Количество просмотров11K
1 сентября 2008 года, ровно девять лет назад, у ITSumma появился первый офис в Иркутске. Мы считаем этот день одним из трех дней рождения компании — есть еще день официальной регистрации юрлица и день, когда звезда мыльных опер пришла на ток-шоу в прайм-тайм Бразилии и рассказала о сайте makemebabies.com, на который тут же устремился мощный поток посетителей и который поэтому стал одним из наших первых клиентов. На сайт можно было загрузить две фотографии, они смешивались, и выдавалась фотография ребенка, который получился бы у людей на фото.

image

В нашем блоге мы пишем о технологиях, своих разработках, интересных мыслях, но сегодня я хотел бы порассуждать о том, почему успех — это почти всегда случайность. В том числе и появление ITSumma — это случайное стечение обстоятельств. Под катом — мои мысли об этом и история создания компании.
Читать дальше →
Всего голосов 27: ↑23 и ↓4+19
Комментарии17

Резервное копирование не «для галочки». Часть первая: мониторинг, бэкапы баз данных и реплики

Время на прочтение6 мин
Количество просмотров23K
Создание скриптов резервного копирования всегда представляется простой, нудной и очень обычной задачей. Напиши скрипт, поставь его в крон, проверь, что он сработал — казалось бы все, да? Но это только верхушка айсберга, а под водой скрывается огромное количество проблем. Все помнят недавную проблему на gitlab, когда оказалось, что операция по удалению данных была проведена не на резервном, а на основном сервере БД, бэкапы оказались размером в 0 байт, бэкапы в S3 недоступны, но, на счастье, резервная копия оказалась на одном из других серверов.

image

Как быть уверенным, что резервное копирование действительно работает? И что даже если скрипты работают, то данные в архивах есть? Что бэкапится именно то, что нужно? По нашей статистике, проблемы с резервным копированием происходят раз в 21 день. Если вы не проверяли ваши бэкапы дольше этого времени — возможно, у вас есть проблемы. В посте мы расскажем о своем опыте по созданию системы резервного копирования в гетерогенной инфраструктуре из 2000 машин, 20 терабайт ежедневных бэкапов самых разных систем, проблемах, которые мы встречали на своем пути, и как мы их решаем.
Читать дальше →
Всего голосов 23: ↑23 и ↓0+23
Комментарии22

Кораблестроение 17 века и ваши неудачные проекты по разработке: найдите пять отличий

Время на прочтение3 мин
Количество просмотров36K
На конференции Monitorama Пит Чеслок из Threat Stack провел параллель между историей строительства шведского корабля «Васа» и провальными проектами по разработке. Делимся с вами отрывком его выступления.

image

Корабль «Васа» должен был стать главным боевым кораблем шведского флота, но затонул с порывом ветра при первом же выходе из гавани в 1628 году, 53 члена экипажа погибли. Выживший капитан был немедленно отправлен в тюрьму: на допросе он клялся, что пушки были надежно закреплены, и экипаж был трезв. После расследования никто не был наказан или признан виновным, и инцидент был классифицирован как «Воля Божья». Почему затонул корабль и причем тут управление проектами?
Читать дальше →
Всего голосов 99: ↑96 и ↓3+93
Комментарии40

Анонс второй конференции сообщества Uptime в Москве: поговорим о самом страшном

Время на прочтение1 мин
Количество просмотров2.7K
Второй Uptime day (первый прошёл в апреле) мы решили посвятить фатальным происшествиям в IT-инфраструктуре — такие рано или поздно случаются в жизни у каждого. Выбрать дату было несложно — встречайте «Uptime day: Пятница, 13-е» (кстати, в этом году осталась только одна такая пятница).

image

Про аварии не принято говорить публично. Есть IT-конференции про разработку, высокие нагрузки, но тем не менее, аварии — это часть жизни любого бизнеса и как их устранять, как сделать так, чтобы их не повторять, как научиться понимать, как их быстрее решать — это важнейшие вопросы в жизни любого проекта.
Читать дальше →
Всего голосов 14: ↑14 и ↓0+14
Комментарии0

Включайтесь в игру: the MAZE DevOps game от ITSumma

Время на прочтение3 мин
Количество просмотров12K
Мы уже немного рассказывали о том, как устраиваем квесты для участников ИТ-конференций. Сегодня запускаем онлайн-игру для админов (идея квеста была переработана и дополнена) — the Maze. Под катом — ее история. Включайтесь!

image
Читать дальше →
Всего голосов 31: ↑30 и ↓1+29
Комментарии16

Добавляем двухфакторную OTP аутентификацию в SSH за 10 минут

Время на прочтение3 мин
Количество просмотров17K
Ситуация: у вас парк Linux-серверов, куда вы регулярно заходите по SSH. Двухфакторная аутентификация для SSH по какому-либо железному ключу или Google Authenticator настраивается, может быть, и просто, но далеко не всегда удобно эту настройку производить на каждом сервере, их может быть слишком много, или просто страшно перезапускать sshd :)

Выходом из этой ситуации может быть промежуточный аутентификационный сервер. Мы уже писали про выкладку нашего решения (Isolate) в опенсорс, в этой же статье — инструкция по настройке аутентификационного сервера с двухфакторной аутентификацией по одноразовым ключам через Google Authenticator.

image
Читать дальше →
Всего голосов 18: ↑17 и ↓1+16
Комментарии15

Как настроить командную работу и сохранять спокойствие в чатах Телеграма, если всё горит, и все в аду

Время на прочтение4 мин
Количество просмотров22K
У нас беспокойная работа — с сайтами, которые мы поддерживаем, постоянно что-то происходит, и на любую аварию мы должны среагировать за 15 минут — все это в режиме 24/7, семь дней в неделю. Задачи для админов невозможно запланировать — сложно представить себе такой план на неделю: случится 25 аварий, и мы их устраним одну за другой. О том, как мы пытаемся с этим жить, я и хочу рассказать.

image
Читать дальше →
Всего голосов 39: ↑39 и ↓0+39
Комментарии28

Информация

Сайт
www.itsumma.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия
Представитель
ITSumma