Как стать автором
Обновить
140.8
Сначала показывать

Как мы сделали настоящий хакатон. Такой, каким он должен быть

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.9K

Привет! Меня зовут Игорь Бессчастный, я лидер Платформы API ВТБ. Мы представили рынку Платформу два с половиной года назад в рамках большой цифровой трансформации банка. Продумывая хакатон, мы хотели и привлечь внимание к интерфейсам прикладного программирования, и найти решения, учитывающие всю нужную нам специфику.

Два года назад мы запустили первый хакатон. Через год — второй. Третий — стартует 1 октября. В этой статье я и моя коллега — Камилла Куликова, архитектор платформы API ВТБ, расскажем, как мы на сей раз наконец-то сделали всё именно так, как нужно, почему мы не боимся давать очень сложные задачи, как у нас профессиональных хакатонистов иногда обходят те, от кого этого совсем не ожидали, и что получает от этого всего наш банк и рынок в целом.

Читать далее
Всего голосов 10: ↑10 и ↓0+10
Комментарии0

Бережем время, деньги, нервы: наш опыт улучшения справочника факторов для ML-моделей оценки риска. Часть 2

Время на прочтение12 мин
Количество просмотров1K

Всем привет! С вами дата-сайентисты банка «Открытие» Иван Кондраков, Константин Грушин, Станислав Арешин и Алексей Дьяков. Часто даже самые хорошие произведения, будь то фильмы, книги или компьютерные игры, остаются без сиквела. А еще чаще сиквел просто не дотягивает до оригинала… К счастью, это не наш случай! Мы возвращаемся с прямым продолжением нашей статьи о программной генерации длинного списка факторов. И, поверьте, мы следовали всем правилам хорошего сиквела: наш сиквел держит планку качества, продолжает идеи оригинала, при этом полезной информации в нем еще больше!

Гоу скорее к тексту!
Рейтинг0
Комментарии0

Надежность ВТБ: как мы добились «четырёх девяток» доступности банковских систем

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров5.7K

Привет! Меня зовут Иван Мартинович, я заместитель руководителя департамента поддержки прикладных систем и сервисов — вице-президент в ВТБ. В теперь уже далёком 2019 году мы запустили одну из ключевых программ цифровой трансформации банка, нацеленную на обеспечение надёжности целевых систем. О том, как мы проводили её в разгар пандемии коронавируса и что из этого всего вышло, мне бы и хотелось сегодня рассказать. Добро пожаловать под кат.

Читать далее
Всего голосов 17: ↑12 и ↓5+12
Комментарии20

«Вопросов было море»: как создавался Банк в VK

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.4K

Всем привет! На связи команда ВТБ «Мессенджеры и чат-боты». Сегодня расскажем о том, как работали над одним из крупнейших и самых необычных проектов за последнее время. В конце 2022 года стало понятно, что цифровые сервисы ВТБ должны масштабироваться и переходить на новые площадки из-за недоступности мобильного приложения в сторах. Требовалось такое решение, чтобы каждый клиент мог пользоваться услугами банка онлайн; особенно актуально это было для владельцев iOS-устройств. Одним из очевидных решений стал выход онлайн-банка в социальные сети и мессенджеры — привычные для большинства людей мобильные приложения.

Так мы начали интеграцию ВТБ Онлайн в Телеграм и российскую социальную сеть «ВКонтакте». И при этом столкнулись с несколькими вопросами. Как использовать интерфейс мессенджеров для доступа к сверхчувствительной информации? Как сделать авторизацию максимально удобной и безопасной? Каким образом создать понятное и удобное меню? Делимся инсайтами в статье.

Читать далее
Всего голосов 13: ↑9 и ↓4+5
Комментарии11

Фреймворк vtb_scorekit для разработки интерпретируемых скоринговых моделей

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров2.8K

Всем привет! Меня зовут Сакович Руслан, я занимаюсь корпоративным риск-моделированием, и сегодня расскажу о построении скоринговых моделей. Эти модели позволяют оценивать кредитные риски и являются крайне важными в деятельности банка. К ним предъявляются высокие требования в плане точности, стабильности и интерпретируемости результатов, поэтому мы в основном не можем использовать методы «черные ящики» (как например бустинги или нейросети), и обычно вынуждены пользоваться логистической регрессией. Сам по себе метод логистической регрессии довольно простой с точки зрения математики, однако для построения хорошей модели он требует тщательной предварительной обработки и энкодинга исходных данных, а также последующего довольно трудоемкого отбора переменных в модель. Причем стандартные библиотеки вообще не предоставляют возможности построения хоть какой-нибудь адекватной модели прямо из коробки. Мы решили стандартизировать весь процесс разработки скоринговых моделей, собрали используемые нами алгоритмы и объединили в библиотеку vtb_scorekit.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии0

Data Fusion Contest. Издание 2-ое, переработанное и дополненное

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.3K

Соревнование Data Fusion Contest 2023 в этом году состоялось во второй раз и собрало  сильнейшие индустриальные команды и отдельных любителей моделей алгоритмов машинного обучения. Кто-то участвовал впервые, а кто-то, уже умудрённый прошлым опытом был явно настроен только на победу.

В этот раз мы решили принципиально изменить задание и придумали новый формат. Что произойдет, если столкнуть лицом к лицу участников, мотивированных атаковать модели машинного обучения, с другими участниками, мотивированными свои модели защищать? Кто победит, каким окажется тот стек моделей и подходов, который приведет к победе? Что важнее, знания и опыт, или гибкость ума или нестандартные подходы?

Мы задали себе все эти вопросы и решили найти ответы на практике, подготовив для участников Data Fusion Contest 2023 очень нестандартное и по теме и по формату соревнование по Adversarial ML с атаками на модели машинного обучения, а также с их защитой.

Давайте разбираться, что из этого получилось по факту, и какие решения предложили участники, чтобы оказаться в рядах победителей!

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Быстро, точно, градиентно: как наш подход к градиентному бустингу повышает эффективность моделей

Время на прочтение11 мин
Количество просмотров3.9K

Доброго времени суток, уважаемые читатели! Сегодня мы вновь рады приветствовать вас в увлекательном мире дата-сайентистов банка "Открытие". На связи Иван Кондраков, Константин Грушин и Станислав Арешин. Недавно мы поделились с вами нашим пайплайном разработки линейных моделей для решения задач бинарной классификации. Теперь же мы решили поведать о нашем опыте построения моделей градиентного бустинга. За последнее время команда проделала колоссальную работу: мы протестировали различные методы отбора факторов, нашли новые инсайты в данных, провели интересную (а, главное, полезную!) аналитическую работу и решили несколько Ad-hoc задач. Зовите всех к экранам, мы начинаем!

Го к туториалу
Всего голосов 5: ↑5 и ↓0+5
Комментарии9

Как разработать модель выявления связанных компаний на основании анализа транзакций

Время на прочтение7 мин
Количество просмотров3.6K

На связи команда по разработке риск-моделей для крупного корпоративного, а также малого и среднего бизнеса банка «Открытие» Андрей Бояренков и Кирилл Козлитин. Сегодня мы хотим поделиться с вами процессом разработки модели выявления связанных компаний на основании транзакционных данных. Пришли к нам заказчики и говорят: «Хотим по имеющимся транзакциям наших клиентов определять, кто из контрагентов является с ними связанным».

Читать далее
Всего голосов 6: ↑5 и ↓1+5
Комментарии11

Autobinary: библиотека для простого обучения «деревяшек» – часть третья

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.2K

Привет! Я Василий Сизов, тим-лид команды «Модели управления Жизненным Циклом Клиента», и мы продолжаем нашу серию материалов о библиотеке autobinary.

Ранее мы рассказали вам о кросс-валидации в autobinary, которую можно использовать не только для расчета усредненной оценки модели или расчета усредненных важностей фичей, но и для подбора параметров модели, отбора фичей в модель и т.д.

В этой статье мы расскажем вам о том, как можно использовать библиотеку autobinary для подбора параметров с помощью Optuna, а также о том, как можно интерпретировать вклад фичей с помощью Shap и PDPbox. 

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии7

Новые горизонты в оценке рисков: как источники данных помогают создать точные модели

Время на прочтение8 мин
Количество просмотров2.8K

На связи команда по разработке риск-моделей для крупного корпоративного, а также малого и среднего бизнеса банка «Открытие» — Андрей Бояренков, Владимир Иванов и Иван Луговский. В этой статье мы расскажем про наш опыт улучшения показателей ранжирования моделей оценки вероятности дефолта заемщика/скоринговых моделей за счет использования различных источников данных и объединения их в отдельные модули.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии2

Пакетное тестирование скоринговых моделей

Время на прочтение4 мин
Количество просмотров1.2K

Всем привет! Сегодня мы, риск-технологи банка «Открытие» Илья Мясников (@berrim0r) и Гевонд Асадян (@Gevond), расскажем, каким образом осуществляем тестирование моделей оценки кредитного риска перед выводом в прод. В прошлой статье про дублирующий проверочный скрипт мы рассказали о том, как мониторим корректность выведенной в прод модели. Но проверок же много не бывает! Перед выводом модели в прод нужно удостовериться, что выводимый функционал работает корректно.

Как проверить корректность расчета модели? Ну да, верно – скормить ей входные данные со строго определенными параметрами. Звучит не очень сложно, правда? А если факторов более полутора сотен? И часть из них оказывают влияние только при определенном взаимодействии с другими факторами? Такое количество вариантов входных данных вручную придется готовить не один день.

Поэтому мы придумали как упростить для себя подобное тестирование. Для этого решили разработать сервис, который позволяет генерировать все возможные комбинации входных данных для модели на основании одного или нескольких заданных входных векторов.

Дальше — больше
Всего голосов 4: ↑4 и ↓0+4
Комментарии2

Autobinary: библиотека для простого обучения «деревяшек» — Part 2

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.3K

С ростом количества источников данных, методов генерации и извлечения признаков возникает вопрос: «А надо ли нам столько информации? Не ухудшит ли каждый новый фактор предсказательную силу модели?» И правда, для решения большинства задач нет необходимости использовать все доступные нам признаки в финальной модели, так как часть из них не несет в себе никакой информации и даже может запутать алгоритм. Для того, чтобы решить эту проблему и сократить признаковое пространство, были придуманы методы отбора факторов в задачах машинного обучения. О некоторых методах, которые мы внедрили в библиотеку Autobinary расскажем в этой статье.

Поехали
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

ChatGPT с руками и другие итоги сезона Machine Learning

Время на прочтение10 мин
Количество просмотров18K

Давным-давно, в далёкой-далёкой галактике 1 марта Хабр объявил начало сезона «Машинное обучение», и вот настало время подводить итоги. За чтением хардкорных конкурсных текстов месяц пролетел незаметно. Мы узнали много интересного о нейросетях и неочевидных способах взаимодействия с ними, пополнили свою коллекцию туториалов и в очередной раз убедились в актуальности темы Machine Learning для читателей Хабра.

Мы не получили ответ на главный вопрос Вселенной, жизни и всего такого, но зато нам известен лучший автор сезона ML. Впрочем, у него были достойные соперники, их тексты привлекли много внимания и породили холивары в комментариях. Под катом наградим победителя новым макбуком, познакомимся с участниками сезона, пофлудим о Machine Learning и обсудим перспективы этого направления. 

Читать далее
Всего голосов 14: ↑11 и ↓3+19
Комментарии4

Autobinary: библиотека для простого обучения «деревяшек» — Part 1

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.9K

Рождение autobinary, как и многих других фреймворков, началось с автоматизации рутинных задач. На тот момент мы создавали много look-alike моделей (в основе - модель бинарной классификации) по разным продуктам банка. Одни и те же скрипты писать было скучно. Более того – накопилось много разрозненных скриптов, которые хотелось привести к единому формату.

Что из этого получилось
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

ML-пайплайн классических банковских моделей классификации

Время на прочтение10 мин
Количество просмотров5K

Всем привет! С вами на связи дата-сайентисты банка "Открытие" Иван Кондраков и Константин Грушин. В прошлой статье мы рассказывали про решение, которое позволило повысить эффективность в проверке гипотез для моделей. Если вы успели с ней ознакомиться, то уже знаете, что наша команда занимается разработкой и развитием пула моделей принятия решений о выдаче кредитных продуктов и банковских гарантий для малого и среднего бизнеса. Сегодня настало время поговорить с вами про пайплайн, который используется для разработки таких моделей. Мы построили достаточно много моделей, так что нам точно есть чем поделиться. К тому же существенный вклад в развитие такого универсального алгоритма внес каждый член команды.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии2

Как выбрать библиотеку стайлинга и заменить несколько дизайн-систем на одну. Часть 1

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.7K

Привет! Меня зовут Вадим Казаченко, я лид фронта дизайн-системы ВТБ. Год назад устроился в банк и получил командную задачу — построить единую библиотеку компонентов, настолько универсальную, чтобы ее можно было использовать в любом продукте дизайн-системы банка, и при этом она не должна становиться «узким горлышком», как это обычно происходит с UI-китами в крупных компаниях. Дело в том, что в ВТБ существует множество дизайн-систем, над которыми работают десятки дизайнеров.

Непростая задача требовала проработки архитектуры дизайн-системы и сильно зависела от выбора решения для стайлинга. В этой статье подробно расскажу, от чего мы отталкивались и на чем остановили свой выбор.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии6

Дублирующий скрипт: как с его помощью мы ускорили бизнес-процесс с двух рабочих дней до семи минут

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров3.4K

Как известно, при создании промышленного процесса, в котором регламентирован каждый шаг, все участвующие подразделения стараются максимально облегчить выполнение своей части работы. Поэтому часто применяются упрощения, которые не позволяют учесть все нюансы процесса, отслеживаемые в ручном режиме каждым аналитиком. По сути, перед автоматизаторами стоит задача охватить наибольшее число вариаций и при этом не усложнить процесс так, чтобы с ним было невозможно работать. Под усложнениями понимаются различные блокирующие процесс проверки, многочисленные итерации согласований по той или иной задаче, формы дополнительного ручного ввода данных и т.п.

В итоге формируются упрощенные требования, которые не позволяют в полной мере реализовать контроль как над ручными ошибками пользователей, так и над ошибками, допущенными при разработке требований и алгоритмов автоматизируемого процесса.

Вас приветствуют Гевонд Асадян и Илья Мясников. В банке «Открытие» в управлении риск-технологий мы занимаемся внедрением моделей оценки кредитного риска. В этой статье на примере большого и сложного процесса выдачи экспресс-кредитов мы расскажем, как нам удалось реализовать полноценный дубль процесса на стороне одного проверочного скрипта и ускорить процесс выдачи экспресс-кредитов с двух рабочих дней до семи минут.

Далее про наш кейс
Всего голосов 7: ↑7 и ↓0+7
Комментарии1

Почему UserStory и ныне там?

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров6.2K

Когда в коллегах согласья нет,
На лад проект их не пойдет,
И выйдет из него не profit, только cost.

Однажды Бэкендер, Фронтендер да Аналитик
Везти с тасками US взялись,
И вместе трое все в него впряглись;

Из кожи лезут вон, а US всё нет ходу!
Таски для них казались и легки:
Да Фронт рвется в Cloud-решения,
Бэк пятится назад, а Аналитик тянет в воду.

Кто виноват из них, кто прав, - судить не нам;
Да только UserStory и ныне там.

Уверен, многие узнали всем известную басню про трёх товарищей, которые пытаются затащить одну общую хотелку (некий воз). Только вот каждый тянет эту задачу в свою сторону, игнорируя усилия других. Сегодня я поделюсь с моими любимыми читателями примером, как сделать так, чтобы работа над задачей между тремя нашими героями шла дружно и эффективно.

Го дальше!
Всего голосов 7: ↑5 и ↓2+3
Комментарии22

Ищем ответ на главный вопрос Вселенной, жизни и всего такого в новом сезоне ML на Хабре

Время на прочтение17 мин
Количество просмотров22K

Меня зовут Андрей Аврамчук, я старший продюсер спецпроектов в Хабре, принёс не ответ на главный вопрос, а пока только новый сезон на Хабре — «Машинное обучение», который мы проводим совместно с ВТБ с 1 по 31 марта. Будем искать вместе, и да поможет нам магия ML.

UPD. Сезон закончился, итоги можно посмотреть в этой статье.

Артур Филип Дент?
Всего голосов 16: ↑15 и ↓1+30
Комментарии11

Бережем время, деньги, нервы: наш опыт улучшения справочника факторов для ML-моделей оценки риска

Время на прочтение9 мин
Количество просмотров2.1K

Всем привет! На связи Иван Кондраков и Константин Грушин. В банке «Открытие» мы с командой занимаемся разработкой и развитием пула моделей для принятия решений о выдаче кредитных продуктов и банковских гарантий для малого и среднего бизнеса. Еще в 2020 году у нас было всего два дата‑сайентиста, один дата‑инженер, несколько моделей и факторы в объеме до двух тысяч штук. С каждым годом количество задач и обученных моделей росло. А вместе с ними росло и количество гипотез, которые нам хотелось проверять при построении моделей. А исходя из специфики области (ограничения на интерпретируемость моделей, используемые алгоритмы, подходы), немалая доля гипотез выражалась именно в работе с факторами, на которых обучаются наши модели. К тому же сложно переоценить важность данной работы, поскольку от того, насколько выверены факторы, напрямую зависит качество моделей. Проблема в рассчитанном факторе, будь то ошибка в логике расчета или утечка информации о целевой переменной (т. н. target leakage), приводит к невалидности полученных результатов. Хорошо, когда такие ошибки выявляются до начала разработки модели, а не в процессе ее промышленной эксплуатации.

И вот на дворе 2023 год, у нас уже восемь дата‑сайентистов, команда дата‑инженеров, больше чем несколько моделей и около 30 тысяч факторов, список которых до сих пор поддерживается вручную в Excel‑файлах.

Читать далее наш ML-кейс
Рейтинг0
Комментарии2

Информация

Сайт
www.vtb.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия