Облако — что это и зачем?

    Недавно мы запустили сервис ABBYY Cloud OCR SDK, работающий на облаке Windows Azure и попутно набрали 100500 опыта. Например, узнали, что многие используют слово «облако» и слышали, что «облака – это модно», но очень немногие понимают, что такое облако и главное – зачем делать сервис именно в облаке. Слово «облако» повсеместно используется и, похоже, начало обрастать городскими легендами.

    Посмотрите, например, вот это видео:



    Не много потеряете, если просто сосредоточитесь на том, что блондинка хорошо выглядит и у нее приятный голос.

    Рассмотрим подробно, что такое публичное облако, зачем может иметь смысл использовать его для работы ПО и правда ли, что «скоро все будет в облаках».



    Невиданные возможности для ваших клиентов


    Для начала – чем для клиента сервис «в облаке» отличается от сервиса «не в облаке».

    Считается, что «облачный» сервис обладает уникальным свойством – доступностью для любых пользователей. Облака тут ни при чем. Наш сервис работает в облаке, выглядит для пользователя как обычный веб-сайт (часть запросов даже выдает обычные на вид веб-страницы), в нем, например, есть пользовательский кабинет, который выглядит как обычные веб-страницы.

    Для сравнения посмотрите на Stack Exchange (наиболее известен благодаря сайту Stack Overflow) или Яндекс.Почту – они для пользователя выглядят точно так же. Они тоже доступны любым пользователям и откуда угодно. Там тоже веб-сервер, который тоже принимает запросы по HTTP, там тоже все равно, какая операционная система у клиента, какая архитектура у его машины, на каком языке написаны его программы.

    Можно встретить утверждения, что благодаря облачности сервиса «данные пользователей доступны им откуда угодно». Да, пользователи сервиса могут закачивать изображения на наш сервис откуда угодно и получать результаты тоже откуда угодно. Кстати, пользователи Stack Exchange или Яндекс.Почты тоже могут работать с этими сервисами откуда угодно – задавать вопросы, получать ответы, отправлять и получать письма.

    Функционально облачный сервис не отличается для пользователя ничем. Что в облаке, что не в облаке, на каком-то IP-адресе стоит сервер (обычно веб-сервер), который принимает и обрабатывает запросы. Если нет настроек, ограничивающих доступ к серверу с конкретных диапазонов IP-адресов и клиент сам не сидит за параноидальным фаерволом, то сервис доступен откуда угодно и с какого угодно устройства. Облачность тут никак не сказывается.

    Облачные сервисы для облачных сервисов


    Также считается, что сервис в облаке делают для того, чтобы с ним могли взаимодействовать другие сервисы в облаке – что-то из серии «для использования разработчиками облачных сервисов», как недавно написали авторы одного пресс-релиза. В особо бредовых презентациях можно встретить картинки с утыканным колышками наивно схематичным облаком – это облако, в нем сервисы, и они там взаимодействуют.

    Посмотрим на это с точки зрения нашего сервиса. Цель разработки нашего сервиса – предоставить программно доступный из любой точки мира сервис – чтобы сторонние разработчики, которым в их программах не хватает оптического распознавания текста, могли разработать ПО, которое использует наш сервис для распознавания. Например, программу для смартфона, которая фотографирует чек, извлекает из него данные и сохраняет их в программу для бюджетирования на том же смартфоне. Капитан Очевидность подсказывает: смартфон не в облаке. Наш сервис не только для «разработчиков облачных сервисов», он для разработчиков любых программ, которые готовы использовать сторонний сервис для распознавания текста. В облаке те программы работают или нет – не имеет принципиального значения, а нашему сервису просто все равно.

    Считается, что облачный сервис – это обязательно сервис для обслуживания многочисленных внешних запросов. Обычно да, но не обязательно. Никто не мешает вам запустить на вашем сервисе разложение простых чисел на множители, исходные данные для него хранить где-нибудь снаружи, чтобы сервис их сам оттуда брал, а результаты заливал на внешний ftp-сервер.

    Облачная архитектура облачных сервисов


    Далее – считается, что сервис, работающий в облаке, принципиально по-другому устроен, его разработка требует принципиально другой архитектуры по сравнению с сервисом, работающим не в облаке. Некоторые отличия действительно есть, но они второстепенны.

    Представьте, что вам нужно сделать веб-сервис, который принимает от пользователя изображения, складывает их в очередь на обработку (потому что распознавание занимает некоторое время), обрабатывает, после обработки дает пользователю ссылку на скачивание результата. Как бы вы сделали его? Скорее всего, вы бы создавали во внутреннем хранилище (скорее всего, базе данных) «задание» для каждого принятого изображения, давали ему уникальный идентификатор, отдельным потоком или отдельным процессом распознавали изображение, потом на очередной запрос «как дела у задания такого-то» возвращали ссылку на результат. Это совершенно очевидная архитектура для такого сервиса, и облачность тут тоже ни при чем.

    Считается, что в облаке используется «облачная операционная система». Обычно это просто допиленная «обычная операционная система». В Windows Azure это Windows Server 2008 R2 со слегка перетянутыми гайками (например, временная папка очень маленькая). Вся «облачность» в такой среде создается дополнительными сервисами – например, долговременным хранилищем данных, не привязанным к машине, на которой работает пользовательский сервис.

    Некоторое время назад мы рассказывали, что теперь FineReader Engine поддерживает работу в Windows Azure. Эта доработка не потребовала полного переписывания всего FRE, просто учли ограничения платформы, немного под них доработали, протестировали, обновили документацию, взяли на себя обязательство дальше поддерживать. Кропотливая и важная работа, но не более того.

    Беспрецедентная надежность


    Еще считается, что облачный сервис непременно более надежен, потому что там же есть облачный провайдер облачного облака, предлагающий много девяток после запятой. Тут девятки отдельно, надежность отдельно.

    Прежде всего, нужно читать мелкий шрифт в соглашении о девятках (SLA – Service Level Agreement). Там указано точно, что эти девятки означают, какие конкретно свойства сервиса они затрагивают, какова ответственность провайдера.

    Обычно ответственность провайдера не больше, чем те относительно небольшие деньги, которые вы ему заплатили, а пока ваш сервис не работает, ваша компания может терять гораздо большие деньги и нести ущерб репутации. Да, провайдер ответит, но вам от этого может не полегчать.

    Похожий пример из жизни: в среднем раз в год в здании на секунду отключается электроснабжение, так что перезагружаются компьютеры. С точки зрения поставщика электроэнергии – это жалкая секунда в год (сколько там девяток?), а с вашей точки зрения – это потеря нескольких минут работы каждым сотрудником, потому что ему нужно будет ждать, пока загрузится ОС, запустятся все программы, потом вспоминать, на чем он остановился. Девяток много, а вам от этого не легче.

    Соглашение может гарантировать доступность каких-то конкретных сервисов (например, что виртуальные машины, на которых работает ваше ПО, будут работать и подключены к сети) – может возникнуть ситуация, когда надолго откажет, например, второстепенный с виду сервис управления этими виртуальными машинами – они будут продолжать работать, а запустить новые или перенастроить их вы не сможете. Вам-то как раз надо было увеличить пропускную способность сервиса в сто раз, чтобы принять пиковую нагрузку от очень важной и щедро оплаченной только что начавшейся рекламной кампании. Провайдер даже соглашение не нарушил, потому что в соглашении об этом второстепенном на вид сервисе ничего не говорится.

    От размещения в облаке сервис не становится гарантированно более или менее надежным. Риски никто не отменяет, просто риски становятся другими.

    Так что это?


    Теперь, когда мракобесия стало меньше, вернемся к вопросу, что такое публичное облако. Это сервис с дистанционным управлением, который предоставляет вам вычислительные мощности и хранилища данных с оплатой по мере использования. Вы используете мощности для работы вашего ПО (вашего сервиса), а хранилища – для хранения данных, с которыми это ПО (ваш сервис) работает.

    У вас может быть разный уровень контроля над предоставляемыми мощностями. Например, вам могут выделить виртуальную машину с конкретной ОС и закрепить ее за вами и дать вам к ней удаленный доступ, чтобы вы сами настроили ее как вам нужно и дальше оставить ее в вашем распоряжении. Или (как в Windows Azure) вы можете загрузить специальный архив с исполняемым кодом вашего сервиса и конфигурационный файл, в котором указано «запустить вот это на 5 машинах по 2 ядра каждая», служебная инфраструктура облака сама найдет подходящие виртуальные машины, развернет, запустит и настроит на них ОС, потом развернет там ваш архив и передаст управление в точку входа (фиксированная функция типа main()), и будет следить, не сломалось ли что, в случае чего перезапустит ваш сервис на той же или (при сбое машины) на другой машине. В первом случае вы больше контролируете, во втором у вас больше дополнительных плюшек.

    В чем прибыль?


    Прибыль в гибкости и делегировании обязанностей. Вам нужно увеличить число машин, на которых работает ваш сервис? Несколько щелчков мышью, ожидание в районе 10 минут – и вам уже нашли новые виртуальные машины, запустили на них ваш сервис. Надо убавить? То же самое.

    То же самое с хранилищем. Нужно хранилище – несколько щелчков мышью, и вам его предоставили и дали адрес и ключи доступа к нему. Хранилище обычно резиновое, оплата зависит от реально используемого объема.

    Провайдер может, например, предоставлять сервер баз данных – тоже «где-то» и тоже с оплатой по используемому объему. В Windows Azure это SQL Azure, основанный на специально настроенном и допиленном SQL Server 2008.

    Нужно попробовать новую фичу и есть риск сломать сервис? Можно сделать так. Создаете еще одно хранилище и еще одну базу данных. Настраиваете ваш сервис на новое хранилище и новую базу, разворачиваете на дополнительно выделенных виртуальных машинах. Попробовали, освободили машины, если в хранилище и базе много данных, можно их тоже удалить, чтобы не платить за них.

    У нас автоматическая сборка в конце разворачивает наш сервис прямо в облако на специально выделяемую для этого виртуальную машину и выполняет там тесты. При каждой сборке машина выделяется заново, после сборки освобождается, так что в выходные и ночью, когда правок кода нет, мы за нее не платим. Код тестируется в точно таком же окружении, в каком он будет потом работать.

    Такая гибкость очень удобна. Это светлая сторона облака, за которую оно в первую очередь и ценно. Надо – берете в аренду, не надо – прекращаете аренду, и то, и другое требует нескольких щелчков мышью (или программного запроса) и не очень долгого ожидания.

    Это удобно для компании любого размера. Не надо проводить через бухгалтерию закупку каждой железки, не надо закупать оборудование про запас, можно добиться гораздо меньшего простоя мощностей и гораздо большей гибкости в управлении.

    Плюс вы перекладываете часть обязанностей на провайдера. Сервера вы больше не покупаете, стойки не собираете, электрическим подключением не занимаетесь, место под оборудование вам не нужно, вы можете даже ОС не настраивать (зависит от облака). Обратите внимание, речь именно о перекладывании обязанностей, но не ответственности, об этом подробнее ниже.

    Как обычно, есть и темная сторона


    Темная сторона облака в том, что на многие вещи нельзя повлиять. Если верить блогу команды Stack Exchange, их сервис работает не в облаке, а на собственном оборудовании, именно потому, что их не устраивает уровень контроля, который предоставляется провайдерами облаков.

    Например, виртуальные машины стандартные и вы можете даже не знать характеристик реального железа. Скорее всего, когда в Windows Azure вы разворачиваете сервис на одном одноядерном узле, вам на самом деле дают виртуальную машину, которая работает в каком-нибудь 16-ядерном сервере под HyperV. Может быть, можно там что-нибудь подкрутить и на ровном месте получить 15-процентный прирост производительности, но вы ничего не можете с этим сделать.

    Если вы параноик или связаны жесткими требованиями закона или договора, вас может не устраивать, что вы вообще очень мало контролируете железо. Например, вы закачали туда документы с коммерческой тайной, они скопировались на кучу жестких дисков, вы никак не можете повлиять на их гарантированное удаление. Да, провайдер вам обещает, но вы не сможете это проверить.

    То же самое касается надежности. Вы не можете быть уверены, что стойки в один прекрасный момент, например, не зальет конденсатом из оторвавшейся трубки системы кондиционирования. Если бы ваш сервер был в офисе или в colocation, то вы могли бы сделать что-нибудь, пусть даже на вид безумное, типа отвода воды из пространства над вашим оборудованием. Здесь вы ничего сделать не сможете – вы не контролируете, где стоит оборудование, хорошо ли оно там закреплено и не бегают ли по нему мыши. Все безумные события, которые вы могли бы предусмотреть (или не предусмотреть и чувствовать угрызения по поводу плохо сделанной работы), теперь полностью вне вашего контроля.

    Безумные события бывают самые разные. Вот примеры реальных сбоев в датацентрах.

    FAIL. Автомобиль врезался в опору ЛЭП рядом с датацентром, оборвались и упали на землю провода высокого напряжения перед подстанцией, питающей датацентр. Начался переход на резервное питание. От проводов, лежавших на земле, ток стекал в землю, в датацентре защитные схемы среагировали на утечку тока в землю и отключили весь датацентр.

    Другой FAIL. Предположительно из-за удара молнии вышел из строя трансформатор, питающий датацентр, начался переход на резервное питание. По какой-то причине не удалось синхронизировать генераторы (скорее всего, не было питания на оборудовании, выполняющем синхронизацию), датацентр не смог перейти на резервное питание, все оборудование отключилось.

    Обратите внимание, мы знаем об этих случаях потому, что они затронули сотни и тысячи пользователей облаков. Сколько аналогичных событий происходит с серверами, стоящими в офисах, мы просто не знаем.

    Конечно, что-то подобное может произойти и с серверами в офисе, но в таком случае в этом будет доля вашей вины – могли предусмотреть, а не предусмотрели. Вам будет стыдно за плохо сделанную работу. В случае, когда оборудование стоит «где-то там», таких возможностей нет, вы вынуждены верить провайдеру.

    Это не плохо, просто нужно это четко понимать. Размещая сервис в облаке, вы передаете провайдеру значительную часть обязанностей, но не ответственность за жизнеспособность вашего сервиса. Облачный не значит автоматически более надежный и не значит автоматически менее надежный. Вам все равно нужна оценка рисков, для критически важных сервисов понадобится дублирование в разных датацентрах и перераспределение нагрузки. Очень может случиться, что когда вы учтете все расходы на дублирование и синхронизацию данных между датацентрами, ценник вас расстроит.

    Снова облачная архитектура облачных сервисов


    Напоследок – об особых требованиях к облачным сервисам. Такие требования есть – нужно быть готовым, что в любой момент что угодно может сломаться. Если вы любите крайности, то можете как Netflix сделать сервис, который в произвольные моменты ломает что-нибудь в вашем сервисе. Особенно нужно быть готовым к эпизодическим кратковременным сбоям. Например, иногда будет ненадолго пропадать связь с SQL Azure – ваш код должен не паниковать и не ломаться, а подождать немного и попробовать еще раз.

    Просто вспомните, что обычно раздражает пользователей в программах – всевозможные «не удалось найти сервер, вот 18 пунктов, которые стоит проверить» в распределенной системе абсолютно нормальны, ваш сервис должен пробовать сам с этим справиться, потом пробовать еще несколько раз. Пользователь после сообщения браузера «нет ответа сервера» обычно нажимает F5, так и ваш сервис должен просто попробовать повторить действие. Для этого важно, чтобы повторное выполнение любого действия не наносило вреда – это называется умным словом идемпотентность. Если вы не учтете эту особенность, то ваш сервис будет в самый неподходящий момент выходить из строя из-за какой-нибудь ерунды.

    Аналогично сервис должен быть готов к тому, что его могут в любой момент остановить – на всех узлах или на некоторых – и затем запустить снова, при этом не должно происходить повреждения данных, потеря самых новых данных должна быть минимальной, после перезапуска сервис должен быть в состоянии продолжить работу как будто ничего не произошло. Такое происходит, например, при автоматической установке обновлений ПО в Windows Azure – узлы по очереди останавливаются, затем сервис запускается на узле с уже обновленным ПО.

    Требования существенные, но выполнимые, просто Мерфи будет чаще приходить к вашему сервису. От вас зависит, превратится ли небольшой FAIL в былинный отказ.

    Облако – это не куча слов «масштабируемое», «доступность», «миграция», «производительность», «тенденция», употребленных в произвольном порядке в маркетинговом тексте. Это просто модель владения вычислительными мощностями. В определенных случаях эта модель очень удобна.

    Кстати, у нас есть сервис для разработчиков, работающий в облаке.

    Дмитрий Мещеряков,
    департамент продуктов для разработчиков
    ABBYY
    114.91
    Решения для интеллектуальной обработки информации
    Share post

    Comments 22

      +1
      Спасибо за промывку мозга! И за кучу аргументов в борьбе с мракобесием.
      Интересно у Вас есть какие-то данные/ соображения о стоимости владения для различных видов сервисов? T.е. что стоит размещать в облаке а что нет?
        0
        Без примеров сложно оценивать. Что это за различные виды? Очевидно, есть случаи, когда облако неприемлемо в принципе — например, требования к удалению данных, или необходимость использовать ПО, которое работает только на каком-то редком железе.
          0
          насколько я понимаю в облаке оплачивается время процессора, объем хранения и трафик? и судя по всему производить расчет ядерной реакции в облаке будет несколько накладно? или скажем обмен видео контентом?
          а что с удалением — только метит и хранит долго? тогда получается что ни под каким соусом в облаке не построить систему обработки персональных данных на законных основаниях? а это вводит ограничение на сферу услуг и интернет магазины.
            +1
            Оплачиваются «используемые ресурсы». Обычно это не процессорное время, а время, пока виртуальная машина вам выделена. При этом сколько процессорного времени потребляется — неважно, вам дают машину, например, с двумя сферическими процессорами в вакууме по 2 условных гигагерца каждый, у нее есть некоторая предельная производительность по вычислениям, можно из этой производительности использовать сколько удастся вашему ПО. Все, что не используете — простаивает за ваш счет.

            Может быть, есть провайдеры, которые учитывают реально использованное процессорное время, но довольно сложно так организовать разделение ресурсов, чтобы и минимизировать простой мощностей, и обеспечить всем какую-то гарантированную производительность.

            Сколько будет стоить «расчет ядерной реакции» — надо считать, исходя из конкретных потребностей и конкретного облака. Не забывайте, что закупить много своего железо и ПО для него довольно дорого, под него нужно место, его нужно обслуживать, неплохо его обеспечить надежным электропитанием, а это при большой мощности дорогое удовольствие. Ладно, если круглые сутки считаете, а бывает, что нужно считать иногда, но быстро и на большом числе узлов.

            Для обмена видеоконтентом — тоже надо считать. Здесь хорошо, что можно по мере надобности увеличить объем хранилища, а не закупать его заранее.

            С удалением сложно. Для пользователя облака (владельца приложения) это выглядит как необратимое удаление. На самом деле вряд ли при этом занимаемое место перезаписывается случайными данными много раз, но найти потом эти данные практически невозможно. Если вам нужно гарантировать перезапись, это нужно уточнять.
        0
        Сколько раз я уже спрашивал у пропагандистов облачных сервисов (супермодная фишка, стартапы создаются сотнями!), чем они принципиально отличаются от веб-сервисов, распределенных БД, серверов приложений и т.п. — никто внятно не мог ответить. Спасибо большое за то, что «сняли покровы» и внятно ответили на вопрос «что такое облако?».
          0
          Как раз «стартапы создаются сотнями» благодаря низким начальным затратам, которые присущи этой модели владения.
            0
            Я все-таки скорее склонен «винить» моду. Были волны популярности стартапов-«социальных сетей», геотаргетинг и скидочных сервисов, сейчас вот — облака в моде. Будучи «в тренде» — проще получить инвестиции.
        • UFO just landed and posted this here
            0
            Во-первых, интерфейс. У MentalRay графический интерфейс как у MS Word или Adobe Photoshop? Если да, то можно, конечно, поставить программу на виртуальную машину и сделать туда Remote Desktop. Все же оптимально, чтобы либо там был специальный машинный интерфейс, принимающий запрос «обсчитать вот такую модель» и выдающий после долгих раздумий результат, или веб-интерфейс.

            Во-вторых, организация распределенных вычислений. Самая большая виртуальная машина в Windows Azure — 8 ядер, дальше нужно, чтобы программы на разных виртуальных машинах умели узнавать друг о друге и общаться друг с другом. Если умеют — хорошо.

            В-третьих, работа с данными. например, в Windows Azure, если виртуальная машина сбоит и перезапускается, все данные в ее файловой системе могут потеряться. Так что все данные, требующие длительного хранения, нужно хранить не на диске, а в долговременном хранилище, а на диск подкачивать по мере надобности. В разных облаках для этого разные механизмы.

            Далеко не каждая программа заработает в облаке «из коробки». Хорошо, когда у программы клиент-серверная арихитектура, тогда серверную часть может быть относительно просто доработать для работы в облаке.
            • UFO just landed and posted this here
                0
                Если приложение консольное, то не должно быть сложно поднять на виртуальной машине веб-сервер и через него ей управлять.

                С лицензиями — да, могут быть проблемы, например, в Windows Azure естественно, что MAC-адреса будут в произвольный момент при перезапуске меняться. Если программа поддерживает выделенный сервер лицензирования, то можно его запустить, например, на своем сервере вне облака.

                Нужно, чтобы программа умела распараллеливаться кроме как запуском дополнительных потоков или процессовна той же машине. Если не умеет, то предел распараллеливания — число ядер на одной машине.
                • UFO just landed and posted this here
                    0
                    У восьмиядерной машины в Azure ожидается примерно гигабитный сетевой адаптер. Если на Gigabit Ethernet такое замедление, как вы указали, то сложно что-то сделать без доработки программы.
              0
              Если Pixar используют Windows Azure для того, чтобы раздавать RenderMan, то и у вас все может получиться
              microgeek.ru/blogs/partners/856/
              • UFO just landed and posted this here
              +1
              Неплохой ликбез для тех, что не в теме. Я бы даже сказал, ликбез, адаптированный для нетехнарей (маркетологов и руководителей).
                0
                Больше иллюстраций бы
                  0
                  Чего конкретно иллюстраций вам недостает в этом посте?
                  0
                  Описанных процессов. Вы с точки зрения новичка описываете, познавательный материал. Однако вы пощупать его можете — абстракции на реальные вещи отображаются. Мы же этого не видим.
                    +2
                    Конкретных технических деталей по Azure и другим облакам в открытом доступе много и найти их совсем несложно при условии, что вы понимаете, какие вопросы задавать.

                    Например, если вас интересует, может ли в Windows Azure код другого приложения запуститься на «отобранной» у вас (обычно — просто освобожденной вами) виртуальной машине и прочитать временные файлы, оставленные вашим приложением, то можно просто пойти на Stack Overflow и там спросить и получить ответ (спойлер: нет, не может).

                    Пост был написан как раз потому, что очень многие люди что-то слышали, но даже примерно не представляют себе, о чем идет речь и какие конкретные вопросы им нужно задать, чтобы принимать взвешенные решения.

                    Так что ваше желание увидеть «больше внутренностей» понятно, но в этом посте ничего подобного не планировалось.
                    0
                    Почитал описание на сайте и не понял — функциональность FlexiCapture будет доступна в облачном сервисе?

                      0
                      Прежде всего, Cloud OCR SDK — это SDK, т.е. в вашем вопросе надо заменить FlexiCapture на FlexiCapture Engine. Насчет частичного переноса его функциональности в Cloud OCR SDK мы пока думаем.

                    Only users with full accounts can post comments. Log in, please.