Как стать автором
Обновить
39
0
Александр Ефимов @Alefima

Культура работы с данным

Отправить сообщение

Сколько денег приносит системное решение по А/Б тестам?

Время на прочтение6 мин
Количество просмотров2.9K

Хабр, привет! Меня зовут Наталья Тоганова, я работаю старшим бизнес-аналитиком в компании GlowByte. Мы помогаем компаниям с построением моделей, задачами на стыке data science и инфраструктуры, а также с аналитикой и А/Б тестами. Здесь я хочу поговорить об А/Б тестах и финансовых надеждах, которые на них возлагаются. 

Вопрос «Сколько денег принесет более правильное проведение А/Б тестов?» – всплывает в нашей работе постоянно. И мы знаем правильный ответ на него: в краткосрочной перспективе довольно мало, а возможно и ничего. Даже в долгосрочной перспективе доходность может стремиться к нулю. Хотя… зависит от того, как мы понимаем слово «доходность». Если включать в него «снижение издержек», то правильные А/Б тесты могут быть выгодными. Именно поэтому мы ратуем за веру в статистику, эксперименты и инвестиции в методику и надежность алгоритмов принятия решений.

Кроме того, доверие к методике А/Б тестирования означает и доверие к результатам тестов, а также – что немаловажно – и к тем, чьи идеи проверялись. И хотя доверие важнее денег, нередко оно - ещё и залог роста доходности.

Читать далее
Всего голосов 6: ↑3 и ↓30
Комментарии1

ModelOps на практике: переходим от отверточной сборки к конвейеру по управлению моделями

Время на прочтение8 мин
Количество просмотров3.5K


Привет хабр! Меня зовут Артем Глазков, я работаю консультантом в российском подразделении компании SAS. Сегодня я хочу рассказать про операционализацию аналитики на практическом примере проекта, который я сделал совместно с моим коллегой Иваном Нардини для крупной итальянской сырьевой компании. Я постараюсь сфокусироваться на наиболее важных деталях и преимуществах подхода ModelOps.

Согласно независимым исследованиям, операционализация аналитики является ключевым трендом развития в области Искусственного Интеллекта. Необходимо научиться не только строить точные модели машинного обучения, но и организовать эффективное управление их жизненным циклом. Без этого модель рискует навсегда застрять внутри стен ‘лаборатории данных’. Практика показывает, что именно там остаются более половины разработанных моделей. Это означает, что время и усилия, затраченные на создание таких моделей, так и не были компенсированы полезным эффектом от их применения.

После внедрения задача инструментов управления жизненным циклом моделей заключается в том, чтобы постоянно поддерживать модель в форме. Мир вокруг модели меняется — в отсутствие настроенного процесса контроля качества работы модели рано или поздно точность ее работы упадет ниже приемлемого значения. Инструменты мониторинга моделей позволяют своевременно выявить потребность в дообучении. Обновленная модель сможет увидеть новые закономерности в данных и правильно их учесть. В результате, удастся обеспечить стабильно высокое качество работы модели на этапе эксплуатации, а значит получить больше практической пользы от каждой разработки.
Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Комментарии2

Могут ли математики уменьшить количество аварий на железной дороге со сходом вагонов?

Время на прочтение5 мин
Количество просмотров6.1K
— Если вы такие умные, то можете сказать, какой вагон когда сойдёт с рельсов?

Задача была сформулирована одним из операторов железной дороги примерно вот в таком духе, но более русским и более железнодорожным языком. Первоначальная логика была в том, чтобы предсказывать, какой вагон по какому пути в какую погоду не надо пускать. Естественно, в реальности мы решили её не так, но вот таких случаев станет в итоге меньше:



Едет вагон. Он может быть в составе пассажирского или грузового поезда. В какой-то момент он одной парой колёс теряет сцепление с рельсом. Это состояние схода. На практике это значит, что останавливается всё движение на участке, выдвигается бригада с краном, чтобы этот вагон поднять. В совсем плохом случае экологическая или техногенная катастрофа. Естественно, это проблема для компании.

Естественно, есть стандарт на регламенты и обслуживание вагонов, есть стандарт на допустимую скорость, есть стандарт на допустимый радиус дуги, уклон и так далее. Но вагоны время от времени сходят. Похоже, это зависит от их состояния, груза, степени трезвости обходчиков, давления машиниста и ещё каких-то факторов, и часть из них можно оценить заранее.

Первое, что мы исследовали, — это известные случаи сходов, чтобы понять, что же влияет на вагоны. И параллельно начали искать все доступные данные, которые мог дать нам перевозчик.
Читать дальше →
Всего голосов 27: ↑25 и ↓2+23
Комментарии38

«Доктор, уберите это из счёта»: как мы искали неправомерные услуги в ДМС

Время на прочтение7 мин
Количество просмотров14K


Во многих больницах, работающих по ДМС и просто оказывающих платные услуги населению напрямую, существует своеобразный «план продаж» на каждого практикующего врача. Выполнение этого плана зачастую достигается недобросовестными путями за счёт застрахованных по ДМС. К примеру:

  1. Комплексные услуги разбиваются на составляющие врачебные манипуляции так, чтобы чек был больше.
  2. Назначаются избыточные процедуры и исследования при лечении диагнозов — особенно, если в больнице совсем недавно закупили новое оборудование.

Такие злоупотребления — огромная статья убытков для страховых компаний в секторе добровольного медицинского страхования (ДМС), которые и так находятся в условиях жёсткой конкуренции и вынуждены всё больше расширять программу страхования для привлечения клиентов. Поэтому с их стороны есть врачи-эксперты, занимающиеся регулярной проверкой счетов. А в случае выявления нарушений — проведением так называемой «профилактики» в лечебно-профилактических учреждениях.

Все это — долгая и рутинная работа, требующая от эксперта предельной концентрации. Ведь на правомерность оказания услуги влияет целый ряд факторов, связанных как с историей лечения пациента и его программой страхования, так и с особенностями прайс-листа в больнице. Естественно, везде, где вы видите слово «рутина» можно применить автоматизацию. Что мы и сделали. Не без сложностей.
Читать дальше →
Всего голосов 30: ↑28 и ↓2+26
Комментарии17

Как я искала эталон красоты с помощью Natural Language Processing (и не нашла)

Время на прочтение8 мин
Количество просмотров20K
Невозможно объективно измерить, какие девушки красивее: блондинки или брюнетки, смуглые или белокожие, высокие или миниатюрные. Но можно посчитать, какие черты внешности упоминают чаще, когда говорят о красоте.

У меня была неделя на эксперименты, наши движки анализа данных,16 тысяч русских романов и повестей XIX века и 15 тысяч современных длинных произведений. И, конечно, не было никаких размеченных данных.

Основная идея была в том, чтобы выделить из этой горы текстов фрагменты с описаниями красивых женщин, а потом из этих фрагментов извлечь частотные черты внешности.

Вот визуализация того, что получилось. Точнее, одного из распространённых вариантов.


Цвет глаз, волос, платье, рост, воспитание — всё это можно выделить из корпуса текстов.

Конечно, не всё так просто и однозначно как на рисунках, но примерное представление вы уже получили. Теперь давайте расскажу про детали и последовательность действий.
Читать дальше →
Всего голосов 89: ↑81 и ↓8+73
Комментарии65

Оптимизация аптек: что мы сделали с помощью математики

Время на прочтение8 мин
Количество просмотров16K


Оказалось, что аптечный бизнес достаточно прост в плане старта (аптека крупной франшизы открывается чуть ли не по механике «далее-далее-ок»), но достаточно сложный в управлении. При этом таким он не кажется. Сложная часть в управлении запасами, то есть в поставке лекарств, медсредств и прочего в конечную розничную точку. В реальности делают это люди руками и часто жёстко лажают.

Очень часты ситуации недозаказа товара (когда нужного ходового лекарства просто нет в аптеке), перезаказа (товар поставляется на пару ближайших лет) или неправильного распределения по сети аптек (в одной нет, а в другой — на шесть месяцев запаса). Таблетки компактные, выкладка в аптеках — хорошо, если 5 % от товарного запаса, поэтому восемь–десять миллионов рублей можно запросто спрятать даже на 15 квадратных метрах в ящиках. А потом у этих лекарств внезапно уже через год закончатся сроки годности.

Проблема — в ручном управлении запасами и в неправильном прогнозировании спроса: рынок таков, что часто в начале года подписываются обязательства на год вперёд, и производитель впихивает тонны неходового товара аптечным сетям.

Конечно же, в этой ситуации очень не хватает математической модели. Ну мы с ней и пришли. В процессе сделали ещё несколько чудесных открытий про рынок.
Читать дальше →
Всего голосов 54: ↑53 и ↓1+52
Комментарии25

Об админах, девопсах, бесконечной путанице и DevOps-трансформации внутри компании

Время на прочтение6 мин
Количество просмотров24K


Что нужно для успеха IT-компании в 2019 году? Лекторы на конфах и митапах говорят много громких и не всегда понятных нормальным людям слов. Борьба за время деплоя, микросервисы, отказ от монолита, DevOps-трансформация и много-много чего ещё. Если отбросить словесную красоту и говорить прямо и по-русски, то всё сводится к простому тезису: делайте качественный продукт, причем делайте его с комфортом для команды.

Последнее стало критически важно. Бизнес наконец-то пришел к мысли, что комфортный процесс разработки повышает продуктивность, а если все отлажено и работает как часы, то ещё и даёт некоторое пространство для маневра в критических ситуациях. Когда-то ради этого маневра некий умный человек придумал бэкапы, но индустрия развивается, и мы пришли к DevOps-инженерам — людям, которые превращают процесс взаимодействия разработки и внешней инфраструктуры во что-то адекватное и не связанное с шаманизмом.

Вся эта история от «по модулю» прекрасна, но… Так получилось, что часть админов резко окрестили в DevOps, а от самих DevOps-инженеров стали требовать, как минимум, навыков телепатии и ясновидения.
Читать дальше →
Всего голосов 43: ↑39 и ↓4+35
Комментарии58

Как вы выбираете продукты в магазине?

Время на прочтение5 мин
Количество просмотров14K

image
Самая главная формула успеха — знание, как обращаться с людьми. Теодор Рузвельт


В прошлой статье попытался рассказать про основы аналитики ценообразования. Теперь давайте поговорим о более интересных вещах.


Вы когда-нибудь задумывались о том, почему вы покупаете определенные продукты в магазинах, как выбираете среди множества аналогов? Скорее всего, четкого ответа под все возможные походы в магазин дать не получится, многие из них спонтанны. Но общая идея очевидна – при походе в магазин вы пытаетесь закрыть имеющуюся потребность (в еде, гаджетах, развлечениях, блэкджеке). В данной статье на примере продуктовых ритейлеров расскажу об имеющемся опыте, как используя некоторые базовые логические предположения и анализ сообществ в графах, можно определить, как именно покупатели выбирают товар.

Читать дальше →
Всего голосов 27: ↑25 и ↓2+23
Комментарии29

Потоковая аналитика: быстрый запуск с SAS ESP

Время на прочтение6 мин
Количество просмотров4.4K
Применение аналитических алгоритмов на потоке данных сейчас одна из самых актуальных задач в области построения аналитических систем. Множество высокоточных предиктивных моделей, например, разработанных на показаниях с датчиков промышленных установок, уже готовы предупреждать серьезные аварии на производстве, но для этого их нужно выполнять на конечных устройствах («edge devices»), там, где показания с сенсоров поступают в реальном времени. Решить эту проблему и перенести аналитику в «онлайн» призван продукт SAS Event Stream Processing. В этой публикации хотелось поделится опытом его настройки на примере прикладной задачи – анализа изображений с видеокамер.


Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии0

Как мы искали признаки врачебных ошибок

Время на прочтение8 мин
Количество просмотров19K


В 2006 году в голове моего тестя разорвалась аневризма и его свалил инсульт. К вечеру того дня он уже шутил и порывался ходить по больничной палате. Повторный инсульт, который случился под наблюдением врачей, его мозг не выдержал — тесть перестал разговаривать, ходить и узнавать родных. В другом госпитале его поставили на ноги, но из-за врачебной ошибки при первоначальном лечении он навсегда лишился речи, а его личность изменилась до неузнаваемости.

То, что с ним произошло, называется внутрибольничным инсультом и это один из маркеров (или иначе — триггеров) системных проблем в медицинской организации. Их нужно анализировать, чтобы снизить число предотвратимых врачебных ошибок в стационарах и повысить качество лечения пациентов.

В США этим вопросом озадачились в начале 2000-х. Массачусетский Institute for Healthcare Improvement (IHI) разработал методику IHI Global Trigger Tool for Measuring Adverse Events, которую затем внедрили передовые клиники США и Европы.

В 2016 году мы (российский офис SAS) попытались создать систему анализа медицинских триггеров по методике IHI в России. Расскажу, что из этого вышло.
Всего голосов 50: ↑50 и ↓0+50
Комментарии60

Как выявляют риски в госконтроле и зачем для этого машинное обучение

Время на прочтение8 мин
Количество просмотров3.9K


В предыдущей статье на тему государственного риск-менеджмента мы прошлись по основам: зачем государственным органам управлять рисками, где их искать и какие существуют подходы к оценке. Сегодня поговорим о процессе анализа рисков: как выявить причины их возникновения и обнаружить нарушителей.
Читать дальше →
Всего голосов 9: ↑8 и ↓1+7
Комментарии0

Как нам поставили задачу сравнить ежа с ужом

Время на прочтение4 мин
Количество просмотров3.5K
Привет, Хабр! В данной статье мы, консультанты практики аналитики департамента поддержки продаж, рассмотрим важность корректной оценки качества моделирования при решении аналитических задач. В рамках нашей работы нам часто приходится решать задачи построения прогнозных моделей на данных заказчика. При этом, от заказчиков может приходить не только описание аналитической задачи, но и процедура оценки качества разработанных моделей. И иногда бывает так, что заказчик предлагает сравнить ежа с ужом. Чаще всего с таким можно встретиться, когда данные заранее разделены на обучающую и тестовую выборки, потому что сбор данных для обеих выборок может незначительно отличаться.

Именно такая ситуация была у нас в одном из кейсов, где заказчик хотел проверить “силу” таргетированных коммуникаций.


Читать дальше →
Всего голосов 13: ↑10 и ↓3+7
Комментарии0

Мечтают ли госорганы об электрорисках?

Время на прочтение10 мин
Количество просмотров3.3K
Риски. Они повсюду

Риск-менеджмент выручает нас каждый день. Когда мы переходим дорогу, наша естественная нейронная сеть оценивает обстановку, прикидывает скорость таксиста, яростно рвущегося на желтый свет, определяет вероятность сломать ключицу при падении с капота автомобиля и предлагает меру по минимизации риска — подождать секунд пять и только после этого двинуться вперед. Обработка угроз встроена в наши гены, даже если обычно мы называем это иначе.

Но стоит заговорить о «рисках» в приличном обществе, собеседники начинают рассуждать об инвестициях, кредитном портфеле, методах аллокации банковского капитала и стресс-тестировании — всё как-то о финансах. Да, банки были пионерами в применении передовых методов анализа рисков. Однако риски — это не только про деньги.

Риск-менеджмент — универсальная управленческая дисциплина, которая применима в любом процессе, где что-то происходит, есть какой-то ожидаемый результат и существует вероятность, что мы его не получим. Проще говоря, почти всегда и везде. И в работе государственных органов тоже.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии0

Оптимизация цен в оффлайн ритейле

Время на прочтение8 мин
Количество просмотров9.2K

Данная статья открывает цикл, посвященный розничной торговле. Идею использования аналитики в ритейле можно изобразить в виде вот такого маркетингового круга:



Основная идея, на первый взгляд, бесполезной картинки – показать, что аналитика позволяет предсказать последствия принятия тех или иных бизнес решений, основываясь на последующем изменении покупательского спроса. И чем лучше мы понимаем спрос, агрегируя информацию из разных каналов, тем лучше мы будем предсказывать результат. Короче говоря, картинка идеального мира, и каждый идет к этому миру своим путем.


Сегодня речь пойдет об аналитике ценообразования в офлайн ритейле.

Читать дальше →
Всего голосов 11: ↑11 и ↓0+11
Комментарии12

Голосовые отпечатки: скорее всего, вы уже успели «наследить»

Время на прочтение4 мин
Количество просмотров65K


Если в колл-центрах, куда вы иногда звоните, есть система создания голосовых отпечатков, вас могут легко опознать. Если такой системы ещё нет, ваши отпечатки можно создать в один клик по ранее сделанным записям.

Работает это так: каждый раз, когда вы звоните, например, в банк, где есть система определения клиента по голосу, ваш разговор записывается. Скажем, 1-2 минут вашей беседы с оператором достаточно для того, чтобы создать достаточно точный профиль вашего голоса. В дальнейшем вас будут определять по первой фразе.

Процесс создания голосового отпечатка и его проверки несимметричный. Для создания используется больше данных (больше времени разговора), для проверки – меньше примерно на порядок. Максимум, который я видел в условиях сильно зашумлённой линии – 15 секунд на проверку.
Читать дальше →
Всего голосов 109: ↑98 и ↓11+87
Комментарии93

Дата-майнинг для информационной безопасности

Время на прочтение2 мин
Количество просмотров12K


На Хабре много писали о суперкомпьютере IBM Watson. Предполагается, что такая машина должна служить людям: помогать ставить диагнозы и решать другие сложные проблемы путём анализа массивов структурированных и неструктурированных данных. Но можно ли систему дата-майнинга приспособить для нужд информационной безопасности компании?
Читать дальше →
Всего голосов 18: ↑14 и ↓4+10
Комментарии43

Как устроен краткосрочный прогноз на Яндекс.Пробках

Время на прочтение8 мин
Количество просмотров76K
Информация о пробках появилась на Яндексе в 2006 году. Начинали мы с необходимого — научились строить схему загруженности городских улиц и учитывать текущую ситуацию при прокладывании маршрутов. Автомобилисты, ориентируясь перед выездом на эту информацию, уже могли сэкономить время в пути:
image

Затем, чтобы помогать водителям непосредственно во время движения, мы добавили в мобильные Яндекс.Карты (и, как следствие, в Яндекс.Навигатор) автоматическое перестроение маршрута. Приложения научились адаптировать маршрут при каждом заметном изменении ситуации в городе.

Собрав на десктопе и в мобильном информацию про «сейчас», мы перешли к решению вопроса «а как будет потом?»:
image

Первым шагом стала статистическая карта пробок — на ней можно посмотреть, как в среднем стоит и едет город в конкретный час конкретного дня недели. Мы предполагали, что у карты «обычных» пробок может быть полезный побочный эффект — возможность по ним спрогнозировать заторы на ближайшее время. Но практика показала, что усреднённая картина помогает примерно спланировать только, например, завтрашнюю поездку в аэропорт — но не помогает выезжающим сейчас избежать новых пробок. По нашим измерениям, даже в конце часового маршрута картина пробок на момент выезда обычно ближе к фактической, чем усреднение:

image

Неделю назад на Яндекс.Картах появилась возможность посмотреть изменения пробок в ближайший час — следующий наш шаг в решении вопроса про будущее. Для тех, кто в этом году не смог приехать на Yet another Conference, мы сегодня расскажем, что у нашего прогноза внутри, и как оно там оказалось.
Переходим к подробностям!
Всего голосов 133: ↑128 и ↓5+123
Комментарии131

Вы — банк: что делать, чтобы снизить риски?

Время на прочтение4 мин
Количество просмотров12K


Представьте себе, что вы банк. Вам, с одной стороны, надо доказывать регулятору, что вы надёжный (то есть делать что-то, чтобы таким быть), а с другой — минимизировать затраты. При этом резать явно важные вещи для безопасности и страховки от факапов нельзя, поэтому один из немногих успешных способов уменьшить свои расходы – это использовать терабайты собранных данных для оптимизации процессов.
Читать дальше →
Всего голосов 34: ↑21 и ↓13+8
Комментарии17

N+1 полезных книг о бизнесе

Время на прочтение9 мин
Количество просмотров229K
В топике блиц-обзор книг, которые будут полезны IT-специалистам, бизнесменам и тем, кто собирается открыть своё дело. Рядом с каждой — короткие пояснения, почему и зачем стоит прочесть.

Отобраны лучшие 10% из примерно 200 прочитанных книг о маркетинге, продажах и всем связанном — самые «пробивные» вещи, которые помогут вам не тратить время на всякий шлак, а сразу начать с главного.

В конце — суммация книг, которые хабровчане рекомендуют в комментариях помимо основного списка.

Читать дальше →
Всего голосов 148: ↑137 и ↓11+126
Комментарии131

N+2 полезные книги для бизнеса, которые обязательно стоит прочитать

Время на прочтение5 мин
Количество просмотров96K
В прошлом году я делал обзор книг, на которых реально растут люди и реально улучшаются процессы.



Тогда понадобился год, чтобы прочитать в десять раз больше бумаги и сделать выборку, которая оказалась неожиданно полезной многим. Вот результаты ещё одного года — ещё N+2 книги для бизнеса, которые реально помогают.

Читать дальше →
Всего голосов 118: ↑106 и ↓12+94
Комментарии43
1

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность