SAS: мы анализировали данные и обучали модели задолго до того, как это стало модным



    Наша аналитическая платформа работает в WalMart, Bank of America, Bank of China, Сбербанке, МТС. SAS как предмет преподают в МГУ, ВШЭ, МИФИ, МГТУ им. Баумана, МЭИ, МИИТ и других ВУЗах. А под катом — наша краткая история-знакомство, с которой мы хотим открыть наш блог на Хабре.

    Кто мы такие


    Компания SAS существует с 1976 г. Мы выросли из маленького проекта одного молодого профессора математики из Университета Северной Каролины. Началось все с небольших подрядов на статобработку данных Минсельхоза, которые он выполнял вместе со своими студентами.

    Разумеется, стандартных решений для автоматизации тогда не существовало, поэтому большинство статистических функций профессор писал сам на языках С и COBOL.

    В какой-то момент количество перешло в качество: вместо того чтобы просто выполнять определенные расчеты для своих клиентов, профессор решил продавать сами свои наработки по расчетам и другим клиентам, которым необходимо было работать с аналитикой и статистикой, а также строить математические модели. Так появилась компания SAS.

    Сегодня мы работаем по всему миру практически во всех традиционных отраслях, где необходим анализ статистики. В круг наших партнеров входят банки и крупнейшие страховые компании, ритейлеры и производственные компании, энергетика и нефтегаз, ресторанные и гостиничные сети, а также самые разные госструктуры. На сегодняшний день мы обслуживаем более 83 000 клиентов по всему миру. В нашей компании работает 14 000 сотрудников, более 4 000 из которых заняты непосредственно разработкой ПО.

    Мы имеем богатую историю работы и на российском рынке. Хотя официальная история SAS в России началась с 1996 года, первые крупные внедрения нашего ПО относятся к самому началу 90-х, а отдельные решения работали еще при существовании СССР.

    Одним из первых крупных клиентов на российском рынке стал Альфа-банк, история работы с которым уходит в самое начало 90-х. Среди крупнейших российских клиентов можно упомянуть и компанию МТС, где мы создавали хранилище данных и систему обработки управленческой и аналитической отчетности. Общий объем хранилища составлял 30 ТБ, что на тот момент (более 10 лет назад) являлось самым большим хранилищем данных в РФ, а возможно даже и в Европе. Также наши технологии и решения активно используется в сфере железнодорожного транспорта и некоторых других отраслях российской промышленности.

    Зачем мы здесь


    Одна из целей нашего присутствия на Хабре – познакомиться с молодежью, развеять мифы о нас, в том числе главный – о недоступности SAS из-за высокой стоимости и прочих ограничений. Нет, у нас не все платное – вы всегда можете найти варианты бесплатного использования, в том числе для исследований и изучения; нет, у нас не все недоступное – в открытом доступе есть масса ресурсов; нет, у нас не все на английском языке – и мы обязательно будем работать над увеличением русскоязычного материала.

    На каких рынках мы работаем


    Мы активно работаем на банковском рынке, в число наших клиентов входят практически все крупнейшие банки. Наши решения используются в клиентской аналитике, целевом маркетинге, помогают обеспечить управление данными и подготовку управленческой и аналитической отчетностью. Одно из ключевых направлений — управление рисками, которое применяется в том числе для борьбы с мошенничеством.

    Несмотря на изначальный скепсис в отрасли, мы успешно работаем со страховым бизнесом. У них главная проблема — это очень небольшой объем транзакционных данных по клиентам. Нормальный человек покупает полис и приходит только через год за следующим. Поэтому страховщики сомневались, можно ли извлечь из технологий машинного обучения какую-то пользу. Но капля камень точит. Пару лет назад плотину все-таки прорвало, и мы начали делать первые проекты. Самые перспективные направления для нас – борьба с мошенничеством и оценка потенциальной убыточности клиентов.



    В последние годы мы активно выходим на рынок ритейла. В этой отрасли наши решения используются как в товарной аналитике (оптимизация цен, запасов, размещения на полках и пр.), так и в клиентской аналитике (все, что связано с персонализацией отношений с клиентами). Также аналитика дает реальный и быстрый эффект в таких секторах как логистика, медицина и сельское хозяйство

    Сегодня потребности клиентов и рынка в аналитике развиваются чрезвычайно быстро, поэтому свои перспективы мы оцениваем с большим оптимизмом.

    Ключевые требования


    Однако не все так просто. Эффективность работы с аналитикой зависит от нескольких ключевых факторов, отсутствие которых способно испортить весь эффект.

    Во-первых, для аналитики в первую очередь необходимо иметь адекватные и упорядоченные данные. В некоторых отраслях это не представляет сложности (банки, телеком), но в некоторых структурированность, да и просто наличие нужных данных – большая проблема (например, страхование, агробизнес).



    Во-вторых, большую роль играет то, насколько руководство готово внедрять аналитику и использовать ее при принятии решений, причем основная проблема кроется даже не в затратах, а именно в готовности менять схемы работы. Много где руководство считает, что если их схемы работают уже двадцать лет, а эксперты раньше принимали нужные решения без всякой аналитики, то и менять ничего не стоит. В современном мире эта стратегия работает либо до первого крупного происшествия (мошенничества, неурожая и пр.), либо до тех пор, пока компания не начинает заметно проигрывать на рынке конкурентам, использующим современные технологии и схемы управления.

    В-третьих, в компании должна быть команда аналитиков, которые будут работать с полученными данными. Такие команды тоже есть не везде, и в телекоме аналитики, математики, дата-сайентисты окажутся скорее, чем, например, в сельском хозяйстве. Впрочем, и здесь все меняется: с одной стороны, все больше предприятий понимают, что необходимо иметь собственное аналитическое подразделение, с другой – использование искусственного интеллекта позволяет аналитическим системам работать точнее и лучше подстраиваться под существующие условия, что повышает эффективность в конкретных задачах. Плюс системы стали проще для пользователя.



    Наконец, сейчас широко распространяется аутсорсинг, когда собственно работу аналитиков берут на себя партнеры, а заказчик получает готовые для понимания и использования аналитические данные. Например, часто в начале сотрудничества мы работаем в качестве внешних аналитиков (по модели RaaS), и клиент получает эффект и понимание, что и как работает, какие направления следует развивать, а какие – нет. Это поможет ему при формировании своей команды или же подтолкнет принять решение продолжить работать на аутсорсе.

    Что мы делаем


    Наша аналитическая платформа имеет очень широкую функциональность. В круг ее возможностей входят разведочный анализ, подготовка данных, классическое прогнозное моделирование и машинное обучение, прогнозирование на основе временных рядов, оптимизация, и много чего еще.

    Все блоки и решения мы разрабатываем сами. Поэтому мы понимаем, что и как работает и как взаимодействует между собой – у нас нет сложностей с согласованием работы различных компонентов и решений между собой. При этом блоки работают на единой платформе управления метаданными и имеют в основе общий язык программирования SAS Base.

    Один из наших приоритетов – интегрировать наши решения в рабочие процессы и схемы принятия решений в компании. Дело в том, что если аналитика и данные существуют отдельно, «в вакууме», эффективность их использования существенно падает. Кроме того, без нормальной бесшовной интеграции очень велик риск операционных ошибок. А такие ошибки очень сильно бьют по доверию к аналитике и моделям.


    Для встраивания аналитики в бизнес-процессы в SAS предусмотрен целый стек технологий. Интеграция на уровне данных (SAS Data Integration), интеграция на уровне потоков событий (SAS Event Stream Processing), интеграция на уровне запросов решений (SAS Decision Manager), интеграция на уровне управления жизненным циклом моделей (SAS Model Manager), интеграция на уровне разнородных аналитических инструментов типа R, Python, Scala (SAS Viya). В крупной организации, будь то банк, ретейлер, телеком или что-то другое, основная сложность — это огромное количество разнородных источников данных на разных платформах и СУБД, и большое число процессов, где требуется применение аналитики (потребителей аналитики), реализованных в разных системах.

    Из новых приоритетов стоит упомянуть скорость. Сегодня многим нашим клиентам уже недостаточно получать данные и аналитику с задержкой. Время на принятие решения все сокращается, и во многих случаях данные требуются уже в реальном времени.

    Естественно, что сегодня SAS работает не только по традиционной модели предоставления софта, но и предоставляет облачные сервисы. В самых разных форматах: SaaS (ПО как сервис), BaaS (бизнес как сервис – аутсорсинг аналитических процессов), RaaS (результат как сервис – реализация какого-либо законченного продукта для клиента под ключ, от разработки прогнозной модели, до формирования статистически обоснованной стратегии развития сети торговых точек, например).

    Облачные сервисы востребованы больше не в банках, где все хорошо с данными, с деньгами, с аналитиками, а в других отраслях – страховании, ритейле, агросекторе, например. Клиенты в этих отраслях готовы привлекать внешних экспертов не только на этапе настройки, но и на постоянную работу. Еще один плюс облачных сервисов — отсутствие необходимости больших инвестиций в начале работы, что дает более быстрый выход на окупаемость и снижает риски убытков.

    Как выбирают


    Решения SAS выбирают крупные предприятия для серьезной работы, поэтому выбор решения занимает много времени и включает оценку широкого круга возможностей и параметров работы предлагаемых решений. При этом ключевым фактором для них является рост эффективности, который, как и точность принимаемых решений, в значительной степени зависит от точности используемой модели. Иногда заказчик даже устраивает своего рода соревнование – предлагает нескольким вендорам построить нужную ему аналитическую модель и смотрит, кто лучше справится с заданием.



    Однако сама точность модели – фактор не постоянный. Она зависит от многих факторов, как относящихся к модели, так и внешних. Например, точность модели полностью зависит от корректности и адекватности предоставляемых в рамках тестирования данных. Иногда они есть, иногда нужные данные находятся в рассеянном виде и их нужно искать, собирать и приводить к единому формату, либо вообще приходится самостоятельно налаживать их сбор.

    Также на первом этапе не всегда понятно, что к чему, какие есть особенности и главное, что именно нужно клиенту. Поэтому на первых этапах работы преимущество в точности часто получают усредненные модели, которые уже «из коробки» дают относительно высокую точность работы. Однако такая модель со временем скорее всего будет терять актуальность за счет того, что меняются условия работы предприятия и самого рынка. Это необходимо учитывать и либо вручную, либо автоматически адаптировать модель к меняющимся условиям.

    При правильной организации работы (когда модель подстраивается под особенности работы клиента и рынка) точность модели в первое время будет расти по мере «тонкой настройки», накопления данных и пр. В одном из внедрений наша модель изначально показала результат хуже, чем у конкурентов, однако в кратчайшие сроки, набрав нужную информацию и адаптировав ее работу, мы вырвались вперед.

    Мы уверены в своих решениях, и та статистика, что у нас есть, показывает, что клиенты нам тоже доверяют. Отток клиентов у нас не превышает 1%, очень часто менеджеры и клиенты, переходя в новую компанию, стремятся и ее перевести на использование наших решений. В России мы растем на 40% в год, что дает нам основания считать, что наши решения востребованы.

    Что привлекает клиентов


    Больше всего клиенты ценят то, что получают от SAS готовые решения. Наши решения позволяют не просто разрабатывать модели – мы можем встраивать их в бизнес-процессы компании. Очень часто именно эта возможность становится решающей при принятии решения об использовании именно нашего продукта. Потому что зарабатывать деньги на любых моделях или аналитике можно только тогда, когда они реально дают возможность принимать прибыльные бизнес-решения и повышать эффективность. Поэтому мы уделяем огромное внимание тому, чтобы наша аналитика была тесно интегрирована в бизнес-процессы компании. Но это не единственное наше достоинство.

    Мы сами разрабатываем все свои продукты и решения, что обеспечивает единообразность и согласованную работу, в дальнейшем наши решения можно легко масштабировать или модифицировать. Наши решения тесно интегрированы между собой: мы предлагаем общую платформу, на которую можно «навешивать» разные модули. Благодаря этому степень риска при их внедрении гораздо ниже – клиенту не надо собирать в единую систему из чужих технологий и инструментов с неизвестным результатом. Можно сразу (и зачастую перед полноценным внедрением) оценить работу решения, составить предварительное впечатление.

    В наши решения заложены накопленные нами знания и опыт в области решения конкретных аналитических задач, типовые бизнес-процессы, формы мониторинга и отчетности и т.д. Плюс, у нас нет «просто аналитиков», наши специалисты обладают предметными данными в конкретной области, что позволяет им лучше понимать ситуацию. В принципе, даже технические специалисты обладают знаниями и пониманием происходящих в отрасли процессов, что позволяет им более адекватно работать с данными.

    Еще момент – скорость обработки данных. О высокой скорости говорят все, но чаще речь идет о каких-то специальных бенчмарках. Мы же имеем опыт реальных внедрений сложных решений с огромными скоростями обработки для таких компаний как WalMart, Bank of America, Bank of China, Сбербанк. Кроме того, у нас есть особая услуга: специальный дата-центр, имеющий 114 высокопроизводительных процессорных ядра, 3 ТБ оперативной памяти, 24 ТБ SSD емкости, который смонтирован в передвижном ящике весом в 120 кг. Мы можем поставить его у заказчика на пару недель, чтобы он смог проверить и оценить его работу. Да, и часто клиенты не хотят отдавать ее обратно.



    Наконец, стоит отметить, что, хотя продукты SAS и стоят немало, для наших клиентов цены конкретных решений, как правило, не играют решающей роли – они больше смотрят на то, какие выгоды они получат от внедрения. Это может быть повышение рентабельности, снижение издержек или повышение скорости реагирования, что тоже повышает эффективность. Впрочем, если цена кажется излишней или заказчик пока не понимает, выгодным ли для него окажется использование наших решений, можно начать с облачных сервисов на платформе SAS – порог вхождения для них куда ниже, но при этом можно в полной мере оценить наши возможности.



    Уже сейчас с решениями SAS работают ведущие предприятия во многих отраслях. SAS преподают в крупнейших вузах – спецкурсы, куда могут прийти все желающие, есть в МГУ, ВШЭ, МИФИ, МГТУ им. Баумана, МЭИ, МИИТ и др. Мы регулярно проводим набор на стажерскую программу, причем она расширена и на наших клиентов – всем нужны люди со знанием SAS.

    Мы с радостью услышим ваши пожелания о темах, которыми нам лучше поделиться. Пишите в комментариях вопросы, мы с радостью ответим, в том числе, в будущих материалах.
    SAS
    49,00
    Компания
    Поделиться публикацией

    Комментарии 14

      +2
      Напишите несколько примеров кейсов (можно обезличенных) о том, как клиент купил ваше решение, что это было за решение (техническое описание, хотя бы краткое) и когда оно окупилось.… ну или стоимость решения и хоть какое-то обоснование выгоды, если результат вам не известен.
        +2
        Добрый день!
        В качестве быстрого комментария: вот ссылки на материалы форумов, где наши заказчики делятся опытом использования SAS и кейсами
        SAS Forum Russia 2016 www.sas.com/ru_ru/events/sfr2016/materials.html
        SAS Forum Russia 2017 www.sas.com/ru_ru/events/17/sfr-2017.html#pm

        А детально рассказывать о кейсах — в наших последующих постах в ближайшем будущем (мы для этого сюда и пришли).
          0
          Благодаря решению SAS для клиентской аналитики, ОТП Банку удалось за короткое время достичь поставленных целей. Простота интеграции SAS с системами банка для операционного CRM позволила реализовать проект в сжатые сроки – всего за несколько месяцев – и сделала возможным регулярное проведение автоматизированных кампаний, основанных на результатах углубленного анализа данных. Использование в работе новых статистических моделей позволило значительно улучшить показатели привлечения и удержания клиентов. Эффект был настолько заметным, что инвестиции во внедрение инструментов SAS окупились уже в течение первого года использования.
          А вот со стоимостью сложнее, в открытых источниках очень мало информации.
          30 июня 2016 года ВТБ провел закупку лицензий и технической поддержки программных продуктов SAS на период до 30 ноября 2021 года. Сумма сделки составила 529,3 млн рублей. Поставщиком выступит сам разработчик программного обеспечения — компания SAS Institute[1].
          P.S. Используйте OSINT))
            0
            Высокая цена SAS это похоже неотъемлемая часть бренда :). Но для тех, кто реально хочет купить, могу сказать, что SAS пользуются и Микрофинанс, и Коллекторы и даже ВУЗы. Для каждого находится свое ценовое предложение. А кроме того, не нужно забывать про облака. Они точно спасут тех, кто не готов сразу сильно потратиться.
            0
            Наша история использования SAS началась с разработки DWH системы в 2010 году. При отсутствии опыта в ETL и при необходимости создания BI платформы, мы выбрали продукты этой компании. За это время мы приобрели достаточно знаний и разного опыта :)

            Преимущества
            • SAS — это не только компания, это еще и 4GL язык программирования (SAS BASE). Поэтому всегда есть возможность расширить функционал готовых продуктов за счет собственноручно написанных програм.
            • Возможность создавать сложные статистические модели и графики, такие как «статистическое управление процессами» (SPC).
            • Некоторые продукты, такие как SAS Enterprise Guide очень удобны для работы с данными.


            Из основных недостатков я бы выделил
            • Лицензионное соглашение и цена. Как уже было сказано, ПО достаточно дорогое. К тому же лицензионная модель предполагает «аренду» ПО, а не покупку. Каждый год мы платим определенную сумму за использование SAS. Возможно есть и другие модели, я не знаю.
            • В нашем проекте нам необходимо интегрировать данные из разных СУБД. В зависимости от типа данных, каждый «адаптер» необходимо отдельно лицензировать
            • Покупая SAS, возникает необходимость в администрации SAS сервера. Это можно поручить и другим фирмам, но мы делали все сами.
            • По нашему опыту, продукты SAS не всегда user-friendly и проигрывают в этом таким продуктам как PowerBI.


            Ну и как итог — сейчас мы используем комбинацию SAS с PowerBI. Подготовку данных, связи между таблицами и.т.д мы делаем в SAS, а конечную презентацию и визуализацию в PowerBI. Учитывая рост популярности R, не уверен, что мы будем использовать SAS в будущем. Время покажет.
              0
              Очевидно, что десять лет назад и сейчас у людей совершенно разные представления о usability. SAS BI Server (который входил по умолчанию в DWH платформу) это был как раз привет из 2000-х. Потом ему на смену пришел Visual Analytics, а сейчас это вообще принципиально новая платформа SAS Viya, включающая не только VA, но и Visual Statistics, Visual Data Mining and Machine Learning, Visual Forecasting, Visual Optimization, Visual Investigator и т.п. Там с usability все гораздо лучше чем было и я надеюсь, что для пользователей эти продукты вполне на современном уровне. Кстати в SAS теперь можно писать и на R и на Python. Если хочется. На эту тему много ссылок. Например тут www.youtube.com/watch?v=jo7l2eMDKA8
                0
                Не всегда опенсорс такой как R можно использовать.
                Банки используют SAS так как могут переложить часть правовых рисков на вендора.
                К тому же в России как то подозрительно мало людей знающих R
              0

              Добрый день!
              Вопрос/запрос про учебные материалы: в интернете можно найти миллионны учебных материалов и примеров по всему, что относится к программированию в sas (data step'ы, macro, proc'ы и пр.) и настройке платформы, с помощью которых можно более-менее разобраться и "въехать" с нуля. Но почти не находится полезных материалов (руководств, tutorial'ов для новичков) по работе в таких клиентах как Customer Intelligence Studio или с целыми solution'ами как Marketing Automation (врядли с помощью встроенного user guide'а можно разобраться в особенностях работы это ПО и как строить кампании). В результате осваивание новых инструментов в ситуации когда уметь и знать надо уже "вчера" проблематично. Да и не всегда есть возможность отправиться с работы на курсы. Есть ли планы по исправлению этой ситуации? Может в виде цикла статей на хабре? P.s. не стоит переводить учебные материалы на русский.

                0
                Короткие ролики есть на youtube. Например, как этот www.youtube.com/watch?v=R0DwYKefGEQ. Про выделение контрольных групп. Если посмотреть все ролики, то какое-то представление как с этим работать сложится. Но идея осветить какие-то интересные темы и на хабре правильная. Но это наверное должно быть не верхнеуровневый ликбез для новичков, а что-то гораздо более глубокое. Какие-то лайф-хаки по работе с решениями SAS. Основанные на опыте преодоления реальных трудностей в реальных проектах.
                0
                Действительно ли решение на платформе SAS не способно выиграть соревнования по машинному обучению?
                  0
                  Выигрывать соревнования гораздо проще на том софте, который разработан для выигрывания соревнований. SAS тоже конечно можно под это заточить, если найдется тот, кому это будет нужно. Но обычно SAS используют для другого. На сегодня SAS это промышленная аналитическая платформа, на которой реализован широкий спектр «готовых» аналитических решений для бизнеса. И используют его в первую очередь в реальных бизнес-процессах, для зарабатывания денег. Когда аналитика должна глубоко встраиваться в процессы организации и работать в постоянном режиме, в реал-тайме или близко к тому.
                    0
                    Какой вы знаете софт, разработанный для выигрывания соревнований?
                    Есть ли у вас оценки или замеры, на сколько «готовое» аналитическое решение, в среднем, получается хуже специализированного?
                      0
                      Мои знакомые написали целую обвязку для Python, которая автоматически и быстро делает в хакатонах кучу работы по генерации производных параметров, проверке разных гипотез, чтобы людям оставалось только поработать мозгами для выхода на выигрышную модель. Сделать среднюю модель на любом современном инструменте не так сложно, а вот модель-победитель это огромный предварительный труд и в какой-то степени искусство. У большинства организаций
                        0
                        Извините за дубликат. Какой-то сбой и комментарий сохранился только наполовину.
                        Мои знакомые написали целую обвязку для Python, которая автоматически и быстро делает в хакатонах кучу работы по генерации производных параметров, проверке разных гипотез, чтобы людям оставалось только поработать мозгами для выхода на выигрышную модель. Сделать среднюю модель на любом современном инструменте не так сложно, а вот модель-победитель это огромный предварительный труд и в какой-то степени искусство. У большинства организаций, по моему опыту, проблемы в области применения аналитики совсем не в точности моделей. Для них реально jini 0,5 и 0,8 примерно одно и то же. И эффект от применения моделей в этих организациях ограничен вовсе не точностью, а другими факторами.

                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                  Самое читаемое