Как стать автором
Обновить

Компания SAS временно не ведёт блог на Хабре

Сначала показывать

ModelOps на практике: переходим от отверточной сборки к конвейеру по управлению моделями

Время на прочтение 8 мин
Количество просмотров 3.4K


Привет хабр! Меня зовут Артем Глазков, я работаю консультантом в российском подразделении компании SAS. Сегодня я хочу рассказать про операционализацию аналитики на практическом примере проекта, который я сделал совместно с моим коллегой Иваном Нардини для крупной итальянской сырьевой компании. Я постараюсь сфокусироваться на наиболее важных деталях и преимуществах подхода ModelOps.

Согласно независимым исследованиям, операционализация аналитики является ключевым трендом развития в области Искусственного Интеллекта. Необходимо научиться не только строить точные модели машинного обучения, но и организовать эффективное управление их жизненным циклом. Без этого модель рискует навсегда застрять внутри стен ‘лаборатории данных’. Практика показывает, что именно там остаются более половины разработанных моделей. Это означает, что время и усилия, затраченные на создание таких моделей, так и не были компенсированы полезным эффектом от их применения.

После внедрения задача инструментов управления жизненным циклом моделей заключается в том, чтобы постоянно поддерживать модель в форме. Мир вокруг модели меняется — в отсутствие настроенного процесса контроля качества работы модели рано или поздно точность ее работы упадет ниже приемлемого значения. Инструменты мониторинга моделей позволяют своевременно выявить потребность в дообучении. Обновленная модель сможет увидеть новые закономерности в данных и правильно их учесть. В результате, удастся обеспечить стабильно высокое качество работы модели на этапе эксплуатации, а значит получить больше практической пользы от каждой разработки.
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 2

Могут ли математики уменьшить количество аварий на железной дороге со сходом вагонов?

Время на прочтение 5 мин
Количество просмотров 6.1K
— Если вы такие умные, то можете сказать, какой вагон когда сойдёт с рельсов?

Задача была сформулирована одним из операторов железной дороги примерно вот в таком духе, но более русским и более железнодорожным языком. Первоначальная логика была в том, чтобы предсказывать, какой вагон по какому пути в какую погоду не надо пускать. Естественно, в реальности мы решили её не так, но вот таких случаев станет в итоге меньше:



Едет вагон. Он может быть в составе пассажирского или грузового поезда. В какой-то момент он одной парой колёс теряет сцепление с рельсом. Это состояние схода. На практике это значит, что останавливается всё движение на участке, выдвигается бригада с краном, чтобы этот вагон поднять. В совсем плохом случае экологическая или техногенная катастрофа. Естественно, это проблема для компании.

Естественно, есть стандарт на регламенты и обслуживание вагонов, есть стандарт на допустимую скорость, есть стандарт на допустимый радиус дуги, уклон и так далее. Но вагоны время от времени сходят. Похоже, это зависит от их состояния, груза, степени трезвости обходчиков, давления машиниста и ещё каких-то факторов, и часть из них можно оценить заранее.

Первое, что мы исследовали, — это известные случаи сходов, чтобы понять, что же влияет на вагоны. И параллельно начали искать все доступные данные, которые мог дать нам перевозчик.
Читать дальше →
Всего голосов 27: ↑25 и ↓2 +23
Комментарии 38

«Доктор, уберите это из счёта»: как мы искали неправомерные услуги в ДМС

Время на прочтение 7 мин
Количество просмотров 14K


Во многих больницах, работающих по ДМС и просто оказывающих платные услуги населению напрямую, существует своеобразный «план продаж» на каждого практикующего врача. Выполнение этого плана зачастую достигается недобросовестными путями за счёт застрахованных по ДМС. К примеру:

  1. Комплексные услуги разбиваются на составляющие врачебные манипуляции так, чтобы чек был больше.
  2. Назначаются избыточные процедуры и исследования при лечении диагнозов — особенно, если в больнице совсем недавно закупили новое оборудование.

Такие злоупотребления — огромная статья убытков для страховых компаний в секторе добровольного медицинского страхования (ДМС), которые и так находятся в условиях жёсткой конкуренции и вынуждены всё больше расширять программу страхования для привлечения клиентов. Поэтому с их стороны есть врачи-эксперты, занимающиеся регулярной проверкой счетов. А в случае выявления нарушений — проведением так называемой «профилактики» в лечебно-профилактических учреждениях.

Все это — долгая и рутинная работа, требующая от эксперта предельной концентрации. Ведь на правомерность оказания услуги влияет целый ряд факторов, связанных как с историей лечения пациента и его программой страхования, так и с особенностями прайс-листа в больнице. Естественно, везде, где вы видите слово «рутина» можно применить автоматизацию. Что мы и сделали. Не без сложностей.
Читать дальше →
Всего голосов 30: ↑28 и ↓2 +26
Комментарии 17

Как я искала эталон красоты с помощью Natural Language Processing (и не нашла)

Время на прочтение 8 мин
Количество просмотров 20K
Невозможно объективно измерить, какие девушки красивее: блондинки или брюнетки, смуглые или белокожие, высокие или миниатюрные. Но можно посчитать, какие черты внешности упоминают чаще, когда говорят о красоте.

У меня была неделя на эксперименты, наши движки анализа данных,16 тысяч русских романов и повестей XIX века и 15 тысяч современных длинных произведений. И, конечно, не было никаких размеченных данных.

Основная идея была в том, чтобы выделить из этой горы текстов фрагменты с описаниями красивых женщин, а потом из этих фрагментов извлечь частотные черты внешности.

Вот визуализация того, что получилось. Точнее, одного из распространённых вариантов.


Цвет глаз, волос, платье, рост, воспитание — всё это можно выделить из корпуса текстов.

Конечно, не всё так просто и однозначно как на рисунках, но примерное представление вы уже получили. Теперь давайте расскажу про детали и последовательность действий.
Читать дальше →
Всего голосов 89: ↑81 и ↓8 +73
Комментарии 65

Оптимизация аптек: что мы сделали с помощью математики

Время на прочтение 8 мин
Количество просмотров 16K


Оказалось, что аптечный бизнес достаточно прост в плане старта (аптека крупной франшизы открывается чуть ли не по механике «далее-далее-ок»), но достаточно сложный в управлении. При этом таким он не кажется. Сложная часть в управлении запасами, то есть в поставке лекарств, медсредств и прочего в конечную розничную точку. В реальности делают это люди руками и часто жёстко лажают.

Очень часты ситуации недозаказа товара (когда нужного ходового лекарства просто нет в аптеке), перезаказа (товар поставляется на пару ближайших лет) или неправильного распределения по сети аптек (в одной нет, а в другой — на шесть месяцев запаса). Таблетки компактные, выкладка в аптеках — хорошо, если 5 % от товарного запаса, поэтому восемь–десять миллионов рублей можно запросто спрятать даже на 15 квадратных метрах в ящиках. А потом у этих лекарств внезапно уже через год закончатся сроки годности.

Проблема — в ручном управлении запасами и в неправильном прогнозировании спроса: рынок таков, что часто в начале года подписываются обязательства на год вперёд, и производитель впихивает тонны неходового товара аптечным сетям.

Конечно же, в этой ситуации очень не хватает математической модели. Ну мы с ней и пришли. В процессе сделали ещё несколько чудесных открытий про рынок.
Читать дальше →
Всего голосов 54: ↑53 и ↓1 +52
Комментарии 25

Чем ИТ может сильно помочь колхозу «Путь коммунизма» или агрохолдингу

Время на прочтение 9 мин
Количество просмотров 18K

Было-стало после кластеризации и оптимизации культур

Колхозы и агрохолдинги в России почти не автоматизированы. А там на почти ровном месте с минимальными затратами можно получить до 10 % прироста доходности за счёт выбора оптимального портфеля выращиваемых культур, точного распределения техники по работам и вообще нормального планирования. Мы пришли на несколько объектов и провели расчёты для них, о чём сейчас я и расскажу.

Сформулировали три фундаментальных вопроса:

  1. В каких пропорциях что нужно вырастить и где, чтобы больше заработать?
  2. Когда какая техника и где будет работать?
  3. Что должно быть в парке техники, чтобы не возникало рисков срывов сроков проведения агроопераций или больших затрат на найм?

Мы решали все эти задачи, и там море интересных особенностей. Обсуждать мы будем абстрактный колхоз «Путь коммунизма», расположенный в случайном месте (нам просто понравились поля на спутниковой карте), потому что настоящих заказчиков я называть пока не могу.

В таких местах, конечно, действуют рациональные агенты. Но иногда встречается пьющий агроном, иногда попадается косячник-механизатор и другие узнаваемые персонажи из реальной жизни. Нас ждут град, сломанный комбайн и другие приключения. И вот мы пойдём в это всё со своей автоматизацией.
Читать дальше →
Всего голосов 62: ↑61 и ↓1 +60
Комментарии 40

Использовать машинное обучение не сложно. Для этого достаточно в течение недели…

Время на прочтение 5 мин
Количество просмотров 16K

image


В прошлых статьях я попытался рассказать про основы ценообразования и построения дерева принятия решений покупателя для классического ритейла. В данной статье расскажу про очень нестандартный кейс и постараюсь убедить вас, что использовать машинное обучение не так сложно, как кажется. Статья менее техничная и скорее призвана показать, что можно начать с малого и это уже принесет ощутимую пользу для бизнеса.

Читать дальше →
Всего голосов 21: ↑19 и ↓2 +17
Комментарии 38

Вия, Уая, Вая, Вайя – “трудности перевода”, или что скрывается за новой платформой SAS Viya (Вайя)

Время на прочтение 12 мин
Количество просмотров 5.7K


   В сети можно найти огромное количество разнообразных статей о методах использования алгоритмов математической статистики, о нейронных сетях и в целом о пользе машинного обучения. Данные направления способствуют существенному улучшению жизни человека и светлому будущему роботов. Например, заводы нового поколения, способные работать полностью или частично без вмешательства человека или машины с автопилотом.

  Разработчики объединяют комбинации этих подходов и методов машинного обучения в различные направления. Эти направления впоследствии получают названия, оригинальные и не очень, например: IOT (Internet Of Things), WOT (Web Of Things), Индустрия 4.0 (Industry 4.0), Artificial Intelligence (AI) и другие. Данные концепции объединяет то, что их описание является верхнеуровневым, то есть не рассматриваются ни конкретные инструменты и технологии, ни уже готовые к внедрению системы, а основной целью является визуализация желаемого результата. Но технологии уже существуют, хотя часто не имеют единой платформы.

Читать дальше →
Всего голосов 14: ↑12 и ↓2 +10
Комментарии 0

Как вы выбираете продукты в магазине?

Время на прочтение 5 мин
Количество просмотров 14K

image
Самая главная формула успеха — знание, как обращаться с людьми. Теодор Рузвельт


В прошлой статье попытался рассказать про основы аналитики ценообразования. Теперь давайте поговорим о более интересных вещах.


Вы когда-нибудь задумывались о том, почему вы покупаете определенные продукты в магазинах, как выбираете среди множества аналогов? Скорее всего, четкого ответа под все возможные походы в магазин дать не получится, многие из них спонтанны. Но общая идея очевидна – при походе в магазин вы пытаетесь закрыть имеющуюся потребность (в еде, гаджетах, развлечениях, блэкджеке). В данной статье на примере продуктовых ритейлеров расскажу об имеющемся опыте, как используя некоторые базовые логические предположения и анализ сообществ в графах, можно определить, как именно покупатели выбирают товар.

Читать дальше →
Всего голосов 27: ↑25 и ↓2 +23
Комментарии 29

Собираем данные о поведении клиентов на сайте

Время на прочтение 5 мин
Количество просмотров 6.8K
В предыдущей статье мы разбирались, как делать персонализированные предложения на сайте интернет-магазина. Сегодня расскажем, как собирать данные о поведении его посетителей, чтобы затем строить отчёты по воронке продаж, догонять «брошенные корзины» и подбирать товарные рекомендации. Посмотрим, почему для качественной персонализации недостаточно простой веб аналитики и как лучше понять своего клиента с помощью SAS Customer Intelligence 360.


Читать дальше →
Всего голосов 21: ↑19 и ↓2 +17
Комментарии 0

Потоковая аналитика: быстрый запуск с SAS ESP

Время на прочтение 6 мин
Количество просмотров 4.4K
Применение аналитических алгоритмов на потоке данных сейчас одна из самых актуальных задач в области построения аналитических систем. Множество высокоточных предиктивных моделей, например, разработанных на показаниях с датчиков промышленных установок, уже готовы предупреждать серьезные аварии на производстве, но для этого их нужно выполнять на конечных устройствах («edge devices»), там, где показания с сенсоров поступают в реальном времени. Решить эту проблему и перенести аналитику в «онлайн» призван продукт SAS Event Stream Processing. В этой публикации хотелось поделится опытом его настройки на примере прикладной задачи – анализа изображений с видеокамер.


Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 0

Основы программирования на SAS Base. Урок 4. Создание наборов данных SAS

Время на прочтение 8 мин
Количество просмотров 22K
В предыдущей статье мы изучили, как читать внешние необработанные данные. А сегодня познакомимся с оператором SET, который считывает стандартные наборы данных SAS (SAS Data Set), научимся создавать срезы данных, настраивать постоянные атрибуты, а также изучим несколько полезных функций SAS. Я снова постараюсь изложить материал максимально простым языком, используя как можно больше примеров.


Читать дальше →
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 9

Как мы искали признаки врачебных ошибок

Время на прочтение 8 мин
Количество просмотров 19K


В 2006 году в голове моего тестя разорвалась аневризма и его свалил инсульт. К вечеру того дня он уже шутил и порывался ходить по больничной палате. Повторный инсульт, который случился под наблюдением врачей, его мозг не выдержал — тесть перестал разговаривать, ходить и узнавать родных. В другом госпитале его поставили на ноги, но из-за врачебной ошибки при первоначальном лечении он навсегда лишился речи, а его личность изменилась до неузнаваемости.

То, что с ним произошло, называется внутрибольничным инсультом и это один из маркеров (или иначе — триггеров) системных проблем в медицинской организации. Их нужно анализировать, чтобы снизить число предотвратимых врачебных ошибок в стационарах и повысить качество лечения пациентов.

В США этим вопросом озадачились в начале 2000-х. Массачусетский Institute for Healthcare Improvement (IHI) разработал методику IHI Global Trigger Tool for Measuring Adverse Events, которую затем внедрили передовые клиники США и Европы.

В 2016 году мы (российский офис SAS) попытались создать систему анализа медицинских триггеров по методике IHI в России. Расскажу, что из этого вышло.
Всего голосов 50: ↑50 и ↓0 +50
Комментарии 60

Оптимизация цен в оффлайн ритейле

Время на прочтение 8 мин
Количество просмотров 9.1K

Данная статья открывает цикл, посвященный розничной торговле. Идею использования аналитики в ритейле можно изобразить в виде вот такого маркетингового круга:



Основная идея, на первый взгляд, бесполезной картинки – показать, что аналитика позволяет предсказать последствия принятия тех или иных бизнес решений, основываясь на последующем изменении покупательского спроса. И чем лучше мы понимаем спрос, агрегируя информацию из разных каналов, тем лучше мы будем предсказывать результат. Короче говоря, картинка идеального мира, и каждый идет к этому миру своим путем.


Сегодня речь пойдет об аналитике ценообразования в офлайн ритейле.

Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 12

Как выявляют риски в госконтроле и зачем для этого машинное обучение

Время на прочтение 8 мин
Количество просмотров 3.8K


В предыдущей статье на тему государственного риск-менеджмента мы прошлись по основам: зачем государственным органам управлять рисками, где их искать и какие существуют подходы к оценке. Сегодня поговорим о процессе анализа рисков: как выявить причины их возникновения и обнаружить нарушителей.
Читать дальше →
Всего голосов 9: ↑8 и ↓1 +7
Комментарии 0

Мечтают ли госорганы об электрорисках?

Время на прочтение 10 мин
Количество просмотров 3.3K
Риски. Они повсюду

Риск-менеджмент выручает нас каждый день. Когда мы переходим дорогу, наша естественная нейронная сеть оценивает обстановку, прикидывает скорость таксиста, яростно рвущегося на желтый свет, определяет вероятность сломать ключицу при падении с капота автомобиля и предлагает меру по минимизации риска — подождать секунд пять и только после этого двинуться вперед. Обработка угроз встроена в наши гены, даже если обычно мы называем это иначе.

Но стоит заговорить о «рисках» в приличном обществе, собеседники начинают рассуждать об инвестициях, кредитном портфеле, методах аллокации банковского капитала и стресс-тестировании — всё как-то о финансах. Да, банки были пионерами в применении передовых методов анализа рисков. Однако риски — это не только про деньги.

Риск-менеджмент — универсальная управленческая дисциплина, которая применима в любом процессе, где что-то происходит, есть какой-то ожидаемый результат и существует вероятность, что мы его не получим. Проще говоря, почти всегда и везде. И в работе государственных органов тоже.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

Как нам поставили задачу сравнить ежа с ужом

Время на прочтение 4 мин
Количество просмотров 3.5K
Привет, Хабр! В данной статье мы, консультанты практики аналитики департамента поддержки продаж, рассмотрим важность корректной оценки качества моделирования при решении аналитических задач. В рамках нашей работы нам часто приходится решать задачи построения прогнозных моделей на данных заказчика. При этом, от заказчиков может приходить не только описание аналитической задачи, но и процедура оценки качества разработанных моделей. И иногда бывает так, что заказчик предлагает сравнить ежа с ужом. Чаще всего с таким можно встретиться, когда данные заранее разделены на обучающую и тестовую выборки, потому что сбор данных для обеих выборок может незначительно отличаться.

Именно такая ситуация была у нас в одном из кейсов, где заказчик хотел проверить “силу” таргетированных коммуникаций.


Читать дальше →
Всего голосов 13: ↑10 и ↓3 +7
Комментарии 0

Основы программирования на SAS Base. Урок 3. Чтение текстовых файлов

Время на прочтение 8 мин
Количество просмотров 12K
В предыдущей статье мы познакомились с понятием библиотеки SAS, научились назначать библиотеку для файла Excel, а также познакомились с процедурой, которая создает детализированные отчеты.

Напомню, что скачать ПО вы можете на сайте SAS, ссылка на документацию по установке SAS UE указана в статье №1.

В данной статье вы познакомитесь с несколькими способами чтения текстовых файлов.


Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0

Реализуем целевой маркетинг на сайте

Время на прочтение 8 мин
Количество просмотров 5.8K
Данная статья может быть интересна маркетологам, которые задумываются или уже пробуют реализовывать целевые коммуникации с клиентами в цифровых каналах. Также она может быть полезна специалистам по сайтам с точки зрения организации интеграции с CRM системой. Пользователи решений по клиентской аналитике от SAS узнают, каким образом можно расшить свои возможности, настроив правильное управление клиентским опытом в цифровых каналах.

Покупатели сегодня способны быстро переключаться между поставщиками сервисов на большинстве конкурентных рынков. Например, одновременно пользуясь продуктами от разных банков или посещая разные продовольственные магазины. Часто первичное или повторное привлечение клиента бывает дорогостоящим, в то время как продажи продуктов или сервисов текущим клиентам осуществляются гораздо проще. Не берем в расчет кейсы, когда дополнительные продажи невозможны ввиду специфики продукта или бизнеса. Такое положение вещей вполне очевидно: про клиентов известно больше, чем про «не клиентов». Правильно используя эту информацию, можно увеличить шансы совершить вторичную продажу.
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 0

Прозрачность и доверие

Время на прочтение 3 мин
Количество просмотров 3.4K
Совсем недавно вернулся с очередной рабочей встречи с уважаемым Заказчиком, на которой мы долго и чрезвычайно увлекательно дискутировали о необходимых затратах и, соответственно, стоимости небольшого подпроекта. На встрече было человек шесть с достаточно высокими грейдами, развитыми навыками коммуникации, ведения переговоров и большим опытом аргументации своей позиции. Встреча затянулась, стороны были настойчивы и в результате сошлись на компромиссном результате – Заказчик получил скидку, сравнимую со стоимостью потраченного времени на ее выбивание. То есть в финансовом выражении результат встречи близок к нулю, потраченное время уже никогда не восполнить, но при этом удалось приблизиться к завершению и передаче Заказчику требуемой ценности. И всю дорогу обратно я задавался вопросом – а можно было бы решить задачу более эффективно? Можно ли было сохранить время и ресурсы, свои и заказчика, но при этом добиться того же результата? Где та точка роста, которая позволит решать задачи быстрее, а тратить меньше?

И здесь я бы хотел поговорить про доверие между Исполнителем и Заказчиком. Существует общераспространённое мнение, что в условиях высокого доверия между сторонами проектной команде работается проще, проекты успешнее, результат для Заказчика значительнее, а выручка (прибыль, etc) Исполнителя выше.
Читать дальше →
Всего голосов 16: ↑13 и ↓3 +10
Комментарии 10
1