Хабр, привет! Публикуем обзор третьего и четвертого дня Data Science Week 2016, а именно это были Sberbank Data Day и день, посвященный теме искусственного интеллекта.
В третий день Data Science Week, в основном, говорили об опыте решения Сбербанком конкретных задач с помощью технологий больших данных, но некоторые выступления носили общий концептуальный характер.
Спикеры сообщили о желании Сбербанка стать data-driven организацией – гибкой структурой, в которой в ответ на изменения в приходящих данных меняются бизнес-процессы и принимаются решения. За счет этого Сбербанк рассчитывает получить конкурентное преимущество в скорости вывода на рынок новых востребованных клиентами решений.
В Сбербанке была создана эффективная инфраструктура хранения и обработки больших данных, основой которой выступают Hadoop, Spark и NoSQL решения.
Основной фокус в сборе и использовании данных в Сбербанке делают на клиентах, «объединяют данные вокруг клиента». Для решения бизнес-задач в компании анализируют широкий спектр внутренних и внешних данных.
По внутренним данным анкет и заявок клиентов, истории трансакций и пользования услугами банка строятся расширенные клиентские профили. Клиентов сегментируют по социально-демографическим параметрам, потребностям, предпочтениям, чтобы понимать, какие предложения им будут интересны, через какие каналы с ними лучше работать.
В кредитном скоринге используются не только традиционные данные, такие как социально-демографические параметры, кредитная история, история трансакций, финансовая отчетность, но и ряд других. Например, компания использует данные сотовых операторов, как в кредитном скоринге, так и для выявления мошенничества. На склонность к мошенничеству указывает большое число активных сим-карт и небольшое время их работы, мелкие и многочисленные пополнения счетов, география звонков. Также для задач скоринга используются графы связей клиентов, которые строят на основе данных о денежных переводах и данных социальных сетей. Для кредитного скоринга компаний используются тексты новостей с их упоминанием, для которых проводится автоматический анализ тональности.
В настоящее время в компании процедура андеррайтинга (в части принятия решения по базовым категориям) в значительной степени автоматизирована. Автоматизирована и перестройка скоринговой карты, хотя решение о том, принимать автоматически перестроенную скоринговую карту или нет, принимает эксперт.
Александр Куликов из компании Segmento рассказал о том, как анализ последовательности трансакций и платежных паттернов позволяет компании выявлять важные события в жизни клиентов (например, трата большой суммы на лечение или покупка машины) и предсказывать, какие трансакции клиент скорее всего совершит в ближайшем будущем, в каких категориях. Это позволяет делать клиентам наиболее релевантные предложения. Анализ данных о клиентах и их поведении позволяет формировать предложения предодобренных кредитов и предлагать их клиентам именно тогда, когда они наиболее востребованы.
Данные о поисковых запросах используются для персонализации отображения сайта Сбербанка. Например, если клиент интересовался туризмом, ему будет предложено страхование для выезжающих за рубеж.
В компании применяется и анализ изображений методами глубокого обучения. Некоторое время назад в Сбербанке была внедрена АС САФИ – система анализа фотографий для предотвращения мошенничества с документами, идентификации клиентов. В результате потери от такого вида мошенничества сократились в 10 раз.
Отдельное выступление было посвящено рискам применения моделей. Здесь спикер выделил три основные области риска: данные, модели и процессы. Риски в данных связаны с их несогласованностью, неполнотой, нерепрезентативностью, наличием выбросов. Если не заметить и не исправить эти проблемы в данных, цена ошибки будет очень высока. В части моделей и их применения возможны ошибки, связанные с неправомерностью принимаемых предпосылок, с попытками слепо перенести модель, разработанную для одной предметной области, на другую, а также с человеческим фактором (мошенничество, конфликт интересов внутри организации). Для ограничения модельного риска в компании используют обратную связь от пользователей, четкие стандарты моделирования и подготовки данных, процедуры тестирования моделей на предмет их применимости.
Последнее выступление в этот день было посвящено платформе социального трейдинга eToro, с которой Сбербанк начал активное сотрудничество. Эта система построена по принципу социальной сети, агрегирует и показывает в доступной форме данные, получаемые от успешных трейдеров системы – аналитику, историю сделок. Из успешных трейдеров автоматически формируются аналоги фондов доверительного управления. На основе профиля пользователя, его опыта и отношения к риску меняется доступное ему кредитное плечо, делается автоматизированное предложение подходящих активов и трейдеров, поведение которых можно копировать. Цель данной платформы – предоставить простой и понятный доступ к финансовым рынкам всем желающим, в том числе и клиентам Сбербанка, желающим через нее управлять своими активами.
Последний день Data Science Week был посвящен искусственному интеллекту. Об искусственном интеллекте в широком смысле говорили мало, в основном – о перспективах применения чат-ботов и персональных ассистентов.
Непосредственно этой теме было посвящено выступления Константина Савенкова из компании Inten.to. По мнению спикера, ряд тенденций указывает на стремительное развитие этой области в будущем.
Во-первых, люди сейчас проводят в мессенджерах больше времени, чем в социальных сетях, и бизнес хочет идти к своим клиентам в том числе и через этот канал. Одним из решений здесь может быть использование ботов.
Во-вторых, практически все крупнейшие компании, разрабатывающие мессенджеры, создают платформы для работы ботов и персональных ассистентов, хотя ими пока еще почти никто не пользуется. В это направление вкладываются огромные инвестиции. Появляются сервисы-коннекторы, позволяющие запустить один раз написанного бота на разных платформах.
Наконец, растет рынок API, поэтому теперь персональным ассистентам есть чем управлять.
Говоря о перспективах применения ботов и ассистентов, спикер отметил, что попытки заменить общением с ботом удобные графические интерфейсы ни к чему не приводят, они только усложняют процесс (например, при заказе авиабилетов). Однако, когда взаимодействие основано на ограниченном вводе информации, как при общении с людьми, чат-боты могут оказаться эффективными (примеры: консьерж, выполнение поручений, юридические услуги). Интеллектуальные приложения помогут пользователям избегать ошибок, окажут консультации в выборе, принятии решений (как официант).
По мнению спикера, сегодня в этой области наиболее перспективна парадигма персонального ассистента, который использует сложные технологии понимания речи и контекста сообщения, но оказывает простую услугу. За пониманием речи и контекста следует этап принятия решения. Например, это может быть подбор вина к блюду по входящим в него ингредиентам. Далее в игру вступает сервисная платформа, которая используется для того, чтобы выполнить поручение пользователя.
Сегодня способы выполнения конкретных поручений, как правило, прописываются вручную компанией или подбираются методами краудсорсинга. Компания Inten.to видит свое место на рынке в том, чтобы создать средство автоматического подбора персональным ассистентом нужных API для решения поставленных задач.
Евгений Легкий, представлявший компанию Segmento, рассказал о роли искусственного интеллекта в развитии технологий и об основных тенденциях, которые могут позволить избежать в будущем падения производительности труда. По мнению спикера, в будущем сфера человеческого труда сильно изменится. Расширится сектор экономики по запросу (примеры: Uber, GetTaxi), когда мы заказываем и получаем услугу тогда, когда она нам нужна. Произойдет расширение фриланса, все больше людей параллельно с основной работой будет занято еще в каких-то проектах. Будут создаваться гибкие команды под определенные проекты, станет популярным заказ рабочей силы. Все больше людей начнут выполнять небольшие задачи (микротаскинг), и на этих небольших операциях вырастет микропроизводительность труда. Наконец, в нашу жизнь войдут технологии, основанные на искусственном интеллекте.
Выступление представителя NVIDIA Антона Джораева было посвящено не собственно искусственному интеллекту, а аппаратным и вычислительным платформам для реализации глубокого обучения, которое широко используется в этой сфере.
Сегодня нейронные сети, например, Baidu Deep Speech 2, уже сравнялись в качестве распознавания речи с человеком. Однако это было достигнуто ценой многократного усложнения вычислений и увеличения объемов используемых данных. При этом для использования таких технологий в приложениях требуется быстрота ответа – пользователь не будет ждать слишком долго. Поэтому компания NVIDIA сделала акцент на создании программных и аппаратных средств, генерирующих стратегию исполнения уже обученной нейронной сети и обеспечивающих высокую производительность. Компания разработала собственный аналог фреймворка TensorFlow, использующегося в глубоком обучении, который разработан для использования с конкретными аппаратными средствами и потому работает быстрее, умеет делать логические оптимизации.
Компания Riftman, представитель которой выступал последним, в своей системе Xor планирует использовать ботов в найме персонала в сфере IT. Система анализирует примеры кода, выложенного разработчиками на GitHub, StackOverflow и других ресурсах, и таким образом находит специалистов, обладающих нужными навыками. Схожие механизмы система использует для валидации резюме. Далее связь с кандидатом осуществляется с помощью бота, вне зависимости от того, ищет он сейчас работу или нет.
По мнению Николая Манолова, очень большее число специалистов уже переросли занимаемую должность и ждут интересных предложений, но фактически выпадают из поля зрения HR-специалистов. Через бота с человеком проще связаться: письмо попадет в спам, а звонок может вызвать негативную реакцию. Если кандидату не нравится предложение, бот собирает от него обратную связь, чтобы в дальнейшем улучшить модель отбора, понимать, какие условия нужно предлагать и кому. Также бот сможет назначать интервью, присылать тестовые задания. Таким образом, почти все процессы в этой области могут быть автоматизированы.
» Все презентации выложены здесь.
» Доступ к видео выступлений можно получить здесь.
День 3
В третий день Data Science Week, в основном, говорили об опыте решения Сбербанком конкретных задач с помощью технологий больших данных, но некоторые выступления носили общий концептуальный характер.
Спикеры сообщили о желании Сбербанка стать data-driven организацией – гибкой структурой, в которой в ответ на изменения в приходящих данных меняются бизнес-процессы и принимаются решения. За счет этого Сбербанк рассчитывает получить конкурентное преимущество в скорости вывода на рынок новых востребованных клиентами решений.
В Сбербанке была создана эффективная инфраструктура хранения и обработки больших данных, основой которой выступают Hadoop, Spark и NoSQL решения.
Основной фокус в сборе и использовании данных в Сбербанке делают на клиентах, «объединяют данные вокруг клиента». Для решения бизнес-задач в компании анализируют широкий спектр внутренних и внешних данных.
По внутренним данным анкет и заявок клиентов, истории трансакций и пользования услугами банка строятся расширенные клиентские профили. Клиентов сегментируют по социально-демографическим параметрам, потребностям, предпочтениям, чтобы понимать, какие предложения им будут интересны, через какие каналы с ними лучше работать.
В кредитном скоринге используются не только традиционные данные, такие как социально-демографические параметры, кредитная история, история трансакций, финансовая отчетность, но и ряд других. Например, компания использует данные сотовых операторов, как в кредитном скоринге, так и для выявления мошенничества. На склонность к мошенничеству указывает большое число активных сим-карт и небольшое время их работы, мелкие и многочисленные пополнения счетов, география звонков. Также для задач скоринга используются графы связей клиентов, которые строят на основе данных о денежных переводах и данных социальных сетей. Для кредитного скоринга компаний используются тексты новостей с их упоминанием, для которых проводится автоматический анализ тональности.
В настоящее время в компании процедура андеррайтинга (в части принятия решения по базовым категориям) в значительной степени автоматизирована. Автоматизирована и перестройка скоринговой карты, хотя решение о том, принимать автоматически перестроенную скоринговую карту или нет, принимает эксперт.
Александр Куликов из компании Segmento рассказал о том, как анализ последовательности трансакций и платежных паттернов позволяет компании выявлять важные события в жизни клиентов (например, трата большой суммы на лечение или покупка машины) и предсказывать, какие трансакции клиент скорее всего совершит в ближайшем будущем, в каких категориях. Это позволяет делать клиентам наиболее релевантные предложения. Анализ данных о клиентах и их поведении позволяет формировать предложения предодобренных кредитов и предлагать их клиентам именно тогда, когда они наиболее востребованы.
Данные о поисковых запросах используются для персонализации отображения сайта Сбербанка. Например, если клиент интересовался туризмом, ему будет предложено страхование для выезжающих за рубеж.
В компании применяется и анализ изображений методами глубокого обучения. Некоторое время назад в Сбербанке была внедрена АС САФИ – система анализа фотографий для предотвращения мошенничества с документами, идентификации клиентов. В результате потери от такого вида мошенничества сократились в 10 раз.
Отдельное выступление было посвящено рискам применения моделей. Здесь спикер выделил три основные области риска: данные, модели и процессы. Риски в данных связаны с их несогласованностью, неполнотой, нерепрезентативностью, наличием выбросов. Если не заметить и не исправить эти проблемы в данных, цена ошибки будет очень высока. В части моделей и их применения возможны ошибки, связанные с неправомерностью принимаемых предпосылок, с попытками слепо перенести модель, разработанную для одной предметной области, на другую, а также с человеческим фактором (мошенничество, конфликт интересов внутри организации). Для ограничения модельного риска в компании используют обратную связь от пользователей, четкие стандарты моделирования и подготовки данных, процедуры тестирования моделей на предмет их применимости.
Последнее выступление в этот день было посвящено платформе социального трейдинга eToro, с которой Сбербанк начал активное сотрудничество. Эта система построена по принципу социальной сети, агрегирует и показывает в доступной форме данные, получаемые от успешных трейдеров системы – аналитику, историю сделок. Из успешных трейдеров автоматически формируются аналоги фондов доверительного управления. На основе профиля пользователя, его опыта и отношения к риску меняется доступное ему кредитное плечо, делается автоматизированное предложение подходящих активов и трейдеров, поведение которых можно копировать. Цель данной платформы – предоставить простой и понятный доступ к финансовым рынкам всем желающим, в том числе и клиентам Сбербанка, желающим через нее управлять своими активами.
День 4
Последний день Data Science Week был посвящен искусственному интеллекту. Об искусственном интеллекте в широком смысле говорили мало, в основном – о перспективах применения чат-ботов и персональных ассистентов.
Непосредственно этой теме было посвящено выступления Константина Савенкова из компании Inten.to. По мнению спикера, ряд тенденций указывает на стремительное развитие этой области в будущем.
Во-первых, люди сейчас проводят в мессенджерах больше времени, чем в социальных сетях, и бизнес хочет идти к своим клиентам в том числе и через этот канал. Одним из решений здесь может быть использование ботов.
Во-вторых, практически все крупнейшие компании, разрабатывающие мессенджеры, создают платформы для работы ботов и персональных ассистентов, хотя ими пока еще почти никто не пользуется. В это направление вкладываются огромные инвестиции. Появляются сервисы-коннекторы, позволяющие запустить один раз написанного бота на разных платформах.
Наконец, растет рынок API, поэтому теперь персональным ассистентам есть чем управлять.
Говоря о перспективах применения ботов и ассистентов, спикер отметил, что попытки заменить общением с ботом удобные графические интерфейсы ни к чему не приводят, они только усложняют процесс (например, при заказе авиабилетов). Однако, когда взаимодействие основано на ограниченном вводе информации, как при общении с людьми, чат-боты могут оказаться эффективными (примеры: консьерж, выполнение поручений, юридические услуги). Интеллектуальные приложения помогут пользователям избегать ошибок, окажут консультации в выборе, принятии решений (как официант).
По мнению спикера, сегодня в этой области наиболее перспективна парадигма персонального ассистента, который использует сложные технологии понимания речи и контекста сообщения, но оказывает простую услугу. За пониманием речи и контекста следует этап принятия решения. Например, это может быть подбор вина к блюду по входящим в него ингредиентам. Далее в игру вступает сервисная платформа, которая используется для того, чтобы выполнить поручение пользователя.
Сегодня способы выполнения конкретных поручений, как правило, прописываются вручную компанией или подбираются методами краудсорсинга. Компания Inten.to видит свое место на рынке в том, чтобы создать средство автоматического подбора персональным ассистентом нужных API для решения поставленных задач.
Евгений Легкий, представлявший компанию Segmento, рассказал о роли искусственного интеллекта в развитии технологий и об основных тенденциях, которые могут позволить избежать в будущем падения производительности труда. По мнению спикера, в будущем сфера человеческого труда сильно изменится. Расширится сектор экономики по запросу (примеры: Uber, GetTaxi), когда мы заказываем и получаем услугу тогда, когда она нам нужна. Произойдет расширение фриланса, все больше людей параллельно с основной работой будет занято еще в каких-то проектах. Будут создаваться гибкие команды под определенные проекты, станет популярным заказ рабочей силы. Все больше людей начнут выполнять небольшие задачи (микротаскинг), и на этих небольших операциях вырастет микропроизводительность труда. Наконец, в нашу жизнь войдут технологии, основанные на искусственном интеллекте.
Выступление представителя NVIDIA Антона Джораева было посвящено не собственно искусственному интеллекту, а аппаратным и вычислительным платформам для реализации глубокого обучения, которое широко используется в этой сфере.
Сегодня нейронные сети, например, Baidu Deep Speech 2, уже сравнялись в качестве распознавания речи с человеком. Однако это было достигнуто ценой многократного усложнения вычислений и увеличения объемов используемых данных. При этом для использования таких технологий в приложениях требуется быстрота ответа – пользователь не будет ждать слишком долго. Поэтому компания NVIDIA сделала акцент на создании программных и аппаратных средств, генерирующих стратегию исполнения уже обученной нейронной сети и обеспечивающих высокую производительность. Компания разработала собственный аналог фреймворка TensorFlow, использующегося в глубоком обучении, который разработан для использования с конкретными аппаратными средствами и потому работает быстрее, умеет делать логические оптимизации.
Компания Riftman, представитель которой выступал последним, в своей системе Xor планирует использовать ботов в найме персонала в сфере IT. Система анализирует примеры кода, выложенного разработчиками на GitHub, StackOverflow и других ресурсах, и таким образом находит специалистов, обладающих нужными навыками. Схожие механизмы система использует для валидации резюме. Далее связь с кандидатом осуществляется с помощью бота, вне зависимости от того, ищет он сейчас работу или нет.
По мнению Николая Манолова, очень большее число специалистов уже переросли занимаемую должность и ждут интересных предложений, но фактически выпадают из поля зрения HR-специалистов. Через бота с человеком проще связаться: письмо попадет в спам, а звонок может вызвать негативную реакцию. Если кандидату не нравится предложение, бот собирает от него обратную связь, чтобы в дальнейшем улучшить модель отбора, понимать, какие условия нужно предлагать и кому. Также бот сможет назначать интервью, присылать тестовые задания. Таким образом, почти все процессы в этой области могут быть автоматизированы.
» Все презентации выложены здесь.
» Доступ к видео выступлений можно получить здесь.