Как стать автором
Обновить
32.45
Рейтинг
Сначала показывать
  • Новые
  • Лучшие

Опыт внедрения Kubeflow в кластере Kubernetes

Блог компании GlowByte

В статье мы рассказали о внедрении ML-платформы Kubeflow в кластере Kubernetes на площадке заказчика. 

Инструменты, которые мы использовали в рамках проекта, являются программным обеспечением с открытым исходным кодом, поддерживаются авторами и сообществом. Платформа виртуализации - Hyper-V.

Инструменты, созданные для облаков, не всегда быстро и легко разворачиваются, а предугадать все риски невозможно. В статье мы рассказали про поиск подходящей архитектуры, подбор версий компонентов, общие технические аспекты установки кластера Kubernetes и настройки Kubeflow. Мы описали исследование и опыт внедрения, выделив проблемные места и моменты, на которые стоит обратить внимание.

Читать далее
Всего голосов 5: ↑3 и ↓2 +1
Просмотры 1.6K
Комментарии 1

Валидация моделей машинного обучения

Блог компании GlowByte Машинное обучение *

Всем привет!

На связи команда Advanced Analytics GlowByte и сегодня мы разберем валидацию моделей. 
Иногда термин «валидация» ассоциируется с вычислением одной точечной статистической метрики (например, ROC AUC) на отложенной выборке данных. Однако такой подход может привести к ряду ошибок.

В статье разберем, о каких ошибках идет речь, подробнее рассмотрим процесс валидации и дадим ответы на вопросы:

  1. на каком этапе жизненного цикла модели проводится валидация? Спойлер: это происходит больше одного раза;
  2. какие метрики обычно применяются при валидации и с какой целью?
  3. почему важно использовать не только количественные, но и качественные метрики?

Примеры в статье будут из финансового сектора. Финансовый сектор отличается от других областей (больше предписаний со стороны регулятора — Центрального банка), но в то же время в секторе большой опыт применения моделирования для решения бизнес-задач и есть широкий спектр опробованных на практике тестов по валидации моделей. Поэтому статья будет интересна как тем, кто работает в ритейле, телекоме, промышленности, так и специалистом любой другой сферы, где применяются модели машинного обучения.
Читать дальше →
Всего голосов 3: ↑2 и ↓1 +1
Просмотры 4K
Комментарии 1

Как контейнеризировать среды ML разработки и не посадить на мель процессы MLOps

Блог компании GlowByte Python *IT-инфраструктура *Git *
Tutorial


Проблема эффективного создания продуктов на базе Machine Learning в бизнесе не ограничивается подготовкой данных, разработкой и обучением нейросети или другого алгоритма. На итоговый результат влияют такие факторы, как: процессы верификации датасетов, организованные процессы тестирования, и размещение моделей в виде надежных Big Data приложений.
Бизнес-показатели зависят не только от решений Data Scientist’а, но и от того, как команда разработчиков реализует данную модель, а администраторы и инженеры развернут ее в кластерном окружении. Важно качество входных данных (Data Quality), периодичность их поступления, источники и каналы передачи информации, что является задачей дата-инженера. Организационные и технические препятствия при взаимодействии разнопрофильных специалистов приводят к увеличению сроков создания продукта и снижению его ценности для бизнеса. Для устранения таких барьеров и придумана концепция MLOps, которая, подобно DevOps и DataOps, стремится увеличить автоматизацию и улучшить качество промышленных ML-решений, ориентируясь на нормативные требованиям и выгоду для бизнеса. Применять подходы MLOps необходимо на всех этапах создания ML решений.

В статье мы поговорим об использовании принципов и практик MLOps на стадии разработки моделей, и расскажем как самим развернуть сервис самообслуживания по созданию сред разработки для дата-саентистов.
Читать дальше →
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 1.5K
Комментарии 3

TinyML. Сжимаем нейросеть

Блог компании GlowByte Машинное обучение *

Сейчас перед программистами стоит сложная задача - как внедрить такую громоздкую структуру, как нейронная сеть - в, допустим, браслет? Как оптимизировать энергопотребление модели? Какова цена таких оптимизаций, а так же насколько вообще обосновано внедрение моделей в небольшие устройства, и почему без этого нельзя обойтись.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 3K
Комментарии 2

ML и DS оттенки кредитного риск-менеджмента | LGD, или Жизнь после дефолта

Блог компании GlowByte Машинное обучение *


Хабр, привет!

Мы продолжаем цикл статей ([1], [2], [3]), посвященных применению ML-методов в ряде задач управления кредитным риском. В этой мы расскажем про задачу, которая возникает в ходе жизненного цикла кредитного договора: моделирование доли невозврата по договору в случае его дефолта (loss given default, LGD). 

Зачем это нужно делать, ведь дефолт случился и на первый взгляд кажется, что прогнозировать уже ничего не нужно? Действительно, можно считать, что клиент уже ничего не вернет и под такие договоры закладывать 100%-ное резервирование. 

Однако в действительности после дефолта клиенты могут вносить платежи  или, если договор был обеспечен (залог), то в ходе продажи обеспечения вся сумма договора или ее часть могут быть погашены за счет суммы реализации (продажи) залога. 

Также стоит обратить внимание, что для банковской сферы (в других индустриях зависит от продукта и политики резервирования) прогноз должен производиться как по договорам, находящимся в дефолте $(PD = 100\%)$ (default сегмент), так и по тем, по которым нет дефолта на момент расчета резервов $(PD \neq 100\%)$ (non-default сегмент). Разработка прогнозной модели возможна только на договорах в дефолте. В этом случае возникает проблема переноса модели на сегмент недефолтных договоров. 

Об особенности расчета компоненты LGD, ее моделирования, распространении прогноза на весь портфель, а также подходах к валидации расскажем далее. 

Бегите, глупцы. Добро пожаловать под кат!
Читать дальше →
Рейтинг 0
Просмотры 2.9K
Комментарии 3

Как построить современное аналитическое хранилище данных на базе Cloudera Hadoop

Блог компании GlowByte Big Data *Хранилища данных *Hadoop *

Привет.

В конце прошлого года GlowByte и Газпромбанк сделали большой совместный доклад на конференции Big Data Days, посвященный созданию современного аналитического хранилища данных на базе экосистемы Cloudera Hadoop. В статье мы детальнее расскажем об опыте построения системы, о сложностях и вызовах с которыми пришлось столкнуться и преодолеть и о тех успехах и результатах, которых мы достигли.

Строить хранилище!
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 4.6K
Комментарии 6

Маркетинговая оптимизация в банке

Блог компании GlowByte Математика *Машинное обучение *
image
Привет, Хабр.

Маркетинговая оптимизация, установка лимитов по портфелю кредитных продуктов, логистика и товарная аналитика, оптимизация производственных процессов, … — список применения методов математической оптимизации далеко не ограничивается перечисленными задачами, а методы оптимизации начали решать задачи бизнеса задолго до того, как науки о данных стали называться науками о данных.

С развитием адаптации технологий ML/DS можно ожидать рост популярности оптимизационных методов прежде всего за счет того, что решения бизнес задач становятся более комплексными. То есть, вместо того, чтобы сделать одну-две модели, которые выдают почти финальные решения, процесс принятия решения декомпозируется на отдельные составляющие компоненты, в которых есть место прогнозным моделям, а для самого принятия решения с учетом всех этих компонент и ограничений работает уже оптимизационная модель.

В статье поговорим о возможной постановке задачи оптимизации в банковской сфере и методах ее решения.
Читать дальше →
Всего голосов 2: ↑1 и ↓1 0
Просмотры 1.7K
Комментарии 0

Прогнозирование временных рядов методом рядов Фурье

Блог компании GlowByte Математика *Машинное обучение *Физика
image
Привет, Хабр.

Эта статья посвящена методу долгосрочного прогнозирования временных рядов с помощью рядов Фурье [1-2]. Особенность подхода в том, что в отличие от классических методов прогнозирования и машинного обучения прогнозируется не сама неизвестная функция, а ее коэффициенты разложения в ряд Фурье. Далее по спрогнозированным коэффициентам Фурье восстанавливается неизвестная функция и делается прогноз ее значений на следующий период.

Внимание! Статья содержит множество формул.

Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 9.1K
Комментарии 10

Быстрый прототип IIoT-решения на Raspberry PI и Yandex IoT. Часть вторая

Блог компании GlowByte Прототипирование *Облачные сервисы Интернет вещей
Tutorial

Это вторая часть из цикла статей про прототипирование IIoT-решения на Raspberry PI и Yandex IoT.

В первой части мы реализовали основные функции на Raspberry PI:

сбор телеметрии с промышленных датчиков по протоколу Modbus; 

их передачу в облако;

локальный мониторинг процесса в реальном времени.

Однако пока наш проект выглядит достаточно странно - данные попадают в облако, но никак там не “оседают”, а проходят насквозь, или вообще исчезают бесследно, если никто не успел их прочитать.

Настало время это исправить -  разберемся с тем, как можно накапливать и обрабатывать переданную телеметрию в Яндекс Облаке.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 3.9K
Комментарии 3

ML и DS оттенки кредитного риск-менеджмента | EAD или деньги в дефолте

Блог компании GlowByte Машинное обучение *


Привет, Хабр!

Новая статья цикла о моделировании в задачах управления кредитным риском (предыдущие статьи смотрите здесь и здесь)  посвящена EAD — компоненте, отражающей размер задолженности заемщика перед банком в момент дефолта.

Как спрогнозировать сумму кредитного требования в момент дефолта, при условии, что момент дефолта неизвестен, и вообще может не настать? Как поступать с экстремальными, особенно большими по абсолютному значению, EAD? А если кредитный продукт, по которому нужно оценить риск — это так называемый револьверный кредит, где нет установленных регулярных платежей,- как, например, кредитка с кредитным лимитом? 

Эти и подобные им вопросы возникают при моделировании компоненты. Их и рассмотрим под катом.
Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 4.3K
Комментарии 3

Быстрый прототип IIoT-решения на Raspberry PI и Yandex IoT

Блог компании GlowByte Прототипирование *Разработка на Raspberry Pi *Интернет вещей
Tutorial

В этой серии статей я расскажу как самостоятельно собрать полнофункциональный прототип промышленного IIoT-шлюза на базе Raspberry PI.

Разумеется, подобная штука не может стать полноценной заменой настоящему промышленному железу - достичь сравнимого уровня надежности, защищенности и производительности одновременно, либо не получится, либо будет намного сложнее и дороже, чем купить готовую железку. 

Однако в качестве быстрого и дешевого решения на этапе проверки гипотез (в момент когда вам только предстоит определиться какие данные каким способом снимать и как их потом хранить и использовать) такое решение вполне имеет право на существование.

В конце концов, с программной точки зрения, большинство современных промышленных IoT-шлюзов - не что иное, как обычные одноплатные ПК со специфической ОС (чаще всего на базе Linux) и набором предустановленного ПО.

В общем те, кто готов к подобным экспериментам на производстве, либо просто интересуется IIoT и хочет поэкспериментировать с технологиями для собственного развития - вэлкам под кат!

Читать далее
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 8K
Комментарии 1

FI или финансовая аналитика — что, где, когда?

Блог компании GlowByte Финансы в IT

Что, Где, Когда?


IT — консалтинг в большинстве случаев ассоциируется с построением хранилищ, систем визуализации и анализа данных, но сегодня мы познакомимся с еще одной командой GlowByte — GlowByte FI.


Команда FI строит системы финансового учета, бюджетирования, планирования, прогнозирования и аллокации расходов — много умных слов, которые мы ниже объясним.
В статье обсудим значение систем финансового учета для бизнеса, типы информационных систем и выгоду их приобретения и использования в компании.


image

Читать дальше →
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 1.8K
Комментарии 0

ML и DS оттенки кредитного риск-менеджмента | Компоненты

Блог компании GlowByte Машинное обучение *

Привет!

В предыдущей статье цикла о моделировании в задачах управления кредитным риском (здесь) мы провели обзор трех задач кредитного риск-менеджмента, нашли возможные точки приложения ML и DS к этим задачам и попутно ввели набор терминов для дальнейшей работы.

Сейчас мы расскажем о трех компонентах (PD, LGD, EAD), которые участвуют при расчете ожидаемых потерь: рассмотрим основные драйверы и методологию построения моделей. В конце статьи приведем сводную таблицу с особенностями работы с компонентами на различных этапах разработки, сформированную на основе нашего проектного опыта. 

За подробностями добро пожаловать под кат.
Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 8.4K
Комментарии 3

ML и DS оттенки кредитного риск-менеджмента

Блог компании GlowByte Машинное обучение *


Всем привет.

Мы команда Advanced Analytics GlowByte и запускаем цикл статей о моделировании в задачах управления кредитным риском. Цель цикла — кратко рассказать о сфере, расширить словарь профессиональных терминов и дать ссылки на полезные статьи и книги. В вводной статье мы покажем особенности применения ML и DS в сфере кредитного риска, без глубокого погружения в предметную область.

Далее раскроем вопросы методологии моделирования, работы с компонентами кредитного риска, а также подходов к калибровке и валидации, которые учитывают специфику работы моделей в банке.

Основа публикаций — наш проектный опыт по разработке и внедрению аналитических моделей в банковской сфере.

А теперь под кат.
Читать дальше →
Всего голосов 9: ↑7 и ↓2 +5
Просмотры 7.1K
Комментарии 0

Обзор гибких методологий проектирования DWH

Блог компании GlowByte Хранилища данных *
Разработка хранилища — дело долгое и серьезное.

Многое в жизни проекта зависит от того, насколько хорошо продумана объектная модель и структура базы на старте.

Общепринятым подходом были и остаются различные варианты сочетания схемы “звезда” с третьей нормальной формой. Как правило, по принципу: исходные данные — 3NF, витрины — звезда. Этот подход, проверенный временем и подкрепленный большим количеством исследований — первое (а иногда и единственное), что приходит в голову опытному DWH-шнику при мысли о том, как должно выглядеть аналитическое хранилище.

С другой стороны — бизнесу в целом и требованиям заказчика в частности свойственно быстро меняться, а данным — расти как “вглубь”, так и “вширь”. И вот тут проявляется основной недостаток звезды — ограниченная гибкость.

И если в вашей тихой и уютной жизни DWH-разработчика внезапно:

  • возникла задача “сделать быстро хоть что-то, а потом посмотрим”;
  • появился бурно развивающийся проект, с подключением новых источников и переделкой бизнес-модели минимум раз в неделю;
  • появился заказчик, который не представляет как система должна выглядеть и какие функции выполнять в конечном итоге, но готов к экспериментам и последовательному уточнению желаемого результата с последовательным же приближением к нему;
  • заглянул менеджер проектов с радостной вестью: “А теперь у нас аджайл!”.

Или если вам просто интересно узнать как еще можно строить хранилища — вэлкам под кат!


Читать дальше →
Всего голосов 17: ↑17 и ↓0 +17
Просмотры 19K
Комментарии 14

Как Reinforcement Learning помогает ритейлерам

Блог компании GlowByte Big Data *

Введение


Привет! Наша команда Glowbyte Advanced Analytics разрабатывает ML-решения для прикладных индустрий (ритейл, банки, телеком и др). Многие задачи требуют нестандартных решений. Одно из них — оптимизация цепочек коммуникаций с клиентом с помощью Reinforcement Learning (RL), которому мы решили посвятить данную статью.

Мы разбили статью на три блока: введение в задачу оптимизации цепочек коммуникаций; введение в RL; а в третьем блоке мы объединяем 1 и 2 вместе.

image
Читать дальше →
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 3.2K
Комментарии 0

Понятная аналитика. Опыт внедрения сервисом Работа.ру решения Tableau

Блог компании GlowByte Анализ и проектирование систем *IT-инфраструктура *
У каждого бизнеса возникает потребность в качественной аналитике данных и ее визуализации. Еще один важный фактор, который следует учитывать — это простота использования для бизнес-пользователя. Инструмент не должен требовать дополнительных затрат на обучение сотрудников на начальном этапе. Одним из таких решений является Tableau.

Сервис Работа.ру выбрал Tableau для многофакторного анализа данных. Мы поговорили с Алёной Артемьевой, директором по аналитике сервиса Работа.ру и узнали как изменилась аналитика после внедренного командой BI GlowByte решения.
Читать дальше →
Всего голосов 4: ↑0 и ↓4 -4
Просмотры 2.8K
Комментарии 2

Почему стриминг на KSQL и Kafka Streams — это непросто

Блог компании GlowByte Big Data *
Привет, Хабр!

Меня зовут Саша, я лид-разработчик в GlowByte Consulting. Мы с командой сделали неплохой стриминговый движок для одного крупного банка. Сейчас в продакшене крутится онлайн обработка банковских авторизаций, визитов клиентов в офис и еще ряд более мелких процессов, при этом все работает на KSQL и Kafka Streams. Хочу поделиться тем, на какие грабли мы наступили в процессе.

Если интересны подробности, прошу под кат.

image
Читать дальше →
Всего голосов 15: ↑15 и ↓0 +15
Просмотры 8.5K
Комментарии 15

Информация

Дата основания
2002
Местоположение
Россия
Сайт
glowbyteconsulting.com
Численность
1 001–5 000 человек
Дата регистрации
Представитель
IraMefedova