Как стать автором
Поиск
Написать публикацию
Обновить
31.46

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

SLA против дебиторки: как качество сервиса влияет на уровень задолженности жителей за ЖКУ

Время на прочтение6 мин
Количество просмотров1.8K

Меня зовут Евгений, я – директор по продукту в IT-компании, которая занимается цифровизацией ЖКХ и автоматизирует рутинные процессы в управляющих организациях. 

Взыскание задолженности за коммунальные услуги - головная боль всех управляющих компаний. Лучше предотвращать появление долгов, чем возвращать их.

Один из главных бизнес-процессов в управляющих компаниях - исполнение заявок от жителей. Качество этого процесса можно охарактеризовать SLA (Service Level Agreement), который включает показатели: срок принятия заявки клиента в работу, срок выполнения заявки, маршрут выполнения заявки

В этой статье расскажу, как мы с помощью методов процессной аналитики (Process Mining) проверили гипотезу о наличии зависимости дебиторской задолженности от соблюдения SLA

Читать далее

Непрерывное обучение для продакшен-систем

Время на прочтение6 мин
Количество просмотров2.2K
image

Жизненный цикл машинного обучения

Введение


Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований.

Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО.

Но что произойдёт, когда мы осуществим переход к Software 2.0?
Читать дальше →

Разбираемся с платформами обработки данных на примере барбершопа «Бородатый сисадмин». Какие бывают и всем ли они нужны

Время на прочтение11 мин
Количество просмотров6.4K

Обычно тексты про работу с данными начинаются с числа, демонстрирующего объем производимых в мире данных. Или пассажа про то, что данные — новые золотые прииски («data is the new oil»). Это недалеко от правды: если раньше для понимания своих пользователей компаниям нужно было заказывать крупные социологические исследования, то сейчас, с глобальной цифровизацией, пользователи сами — осознанно или нет — предоставляет данные о себе.

Обрабатывают данные, то есть вытаскивают из них пользу, совершенно разнопрофильные компании. Даже сеть семейных парикмахерских на районе может вести отчеты в Excel, используя ее как CRM-систему. На основе данных вывели список клиентов, давно не приходивших на стрижку? Самое время кинуть им sms с «индивидуальной» скидкой.

В какой момент бизнесу стоит организовать целую платформу для обработки данных? Всегда ли обработка данных — это про big data? И какие варианты есть сейчас в России? Об этом всем — под катом.
Читать дальше →

«Светофор 3.0»: как мы начали доверять поставщикам на основе рекомендаций машинного обучения

Время на прочтение5 мин
Количество просмотров2.6K

Привет, Хабр! Сегодня мы хотим рассказать о том, как машинное обучение помогает нам освободить время сотрудников в магазинах от длительного пересчета товаров в прямых поставках и сосредоточиться на работе с клиентами. В этом посте мы расскажем, как работает наш продукт «Светофор 3.0», сколько рабочего времени он позволяет экономить и как мы используем ML для оценки вероятностей наличия расхождений в заказах. Кроме этого, расскажем о тонкостях выстраивания доверия сотрудников рекомендациям умной системы. Всех заинтересованных приглашаем под кат и к обсуждению в комментариях.

Читать далее

Как сделать карту цен в Excel без макросов и VBA

Время на прочтение10 мин
Количество просмотров14K

Считается, что Data Mining — это магическое снадобье из SQL, Python, Power BI и других волшебных компонент. Мало кто знает, что при правильном подходе с Data Mining может совладать офисный планктон с помощью одного лишь Excel.

Если вы абсолютно далеки от Data Mining, но хотите причаститься его таинств, это руководство в картинках по шагам сделано для вас. Особенно полезно тем, кто никогда бы даже не подумал сделать подобное самостоятельно.

Если вы владеете специальными инструментами для работы с данными, то будет интересно узнать ваше мнение о решениях без "рокет сайнс" (как о явлении в целом, так и о данном кейсе).

Читать далее

Анализ временных рядов, применение нейросетей (1 часть)

Время на прочтение9 мин
Количество просмотров34K

В этой статье, я опишу некоторые основные понятия в теории анализа временных рядов, классические статистические алгоритмы прогнозирования и интересные алгоритмы машинного обучения, которые применяются для временных рядов

Если Вы готовы погрузиться в одну из очень интересных тем статистики и Вы любитель машинного обучения, продолжайте читать :-)

Читать далее

Как создать и исследовать лог процесса выполнения программы

Время на прочтение3 мин
Количество просмотров5.5K

Привет, Хабр!

Анализ исходного кода - давно зарекомендовавшая себя практика для выявления отклонений до выхода приложения на рынок. Проверка на уязвимости, program understanding, поиск логических ошибок в использовании библиотек, code review и многие другие методы статического, динамического и ручного анализа кода широко применяются во многих компаниях занимающихся разработкой программ. 

Читать далее

Проверка автокорреляции с использованием критерия Дарбина-Уотсона средствами Python

Время на прочтение26 мин
Количество просмотров19K

Методический разбор для специалистов DataScience по применению критерия Дарбина-Уотсона для проверки автокорреляции средствами python

Читать далее

JupyterHub или как перестать бояться pip install

Время на прочтение10 мин
Количество просмотров7.2K

Всем привет! Сегодня я расскажу о том, как мы переехали на наш велосипед в виде JupyterHub, и он оказался удобным. У нас в компании работают ~20 дата саентистов и в своей работе они используют множество Open Source-инструментов: Airflow, Hadoop, Hive, Spark и т.д. Но в данной статье речь пойдет исключительно о JupyterHub, точнее говоря о боли, которая преследовала администраторов, и как мы успешно ее побороли.

Читать далее

Вариационное исчисление и Вариационные алгоритмы

Время на прочтение5 мин
Количество просмотров15K

В этой статье буду рассмотрены основные задачи и формулы в вариационном исчислении. Также применение этих алгоритмов в машинном обучении.

В конце статьи будет объяснение теории вероятностных глубоких нейросетей, в котором как раз применяется вариационный вывод

Вариационное исчисление - раздел анализа, в котором изучаются вариации функционалов.

Читать далее

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

Время на прочтение12 мин
Количество просмотров54K

⚡ Градиент обреченный

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать свое решение, — обучить на целевых данных end2end модель (например, из фреймворка NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится добавить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" → "Где мои 17 лет?").

Модель заслуживает внимания так как умеет делать очень много "из коробки". Давайте разберемся подробнее как она устроена и научимся ей пользоваться.

Недавно в открытый доступ была выложена мультиязычная модель whisper от OpenAI. Попробовал ее large вариант на нескольких языках и расшифровал 30 выпусков "Своей игры". Результат понравился, но есть нюансы. Модель транскрибирует тексты вместе с пунктуацией и капитализацией, расставляет временные метки, умеет генерировать субтитры и определять язык. Языков в обучающем датасете порядка ста. Чтобы прикинуть по качеству, нужно посмотреть на их распределение — данных на 100 часов и более было лишь для 30 языков, более 1000 ч. — для 16, ~10 000 часов — у 5 языков, включая русский.

Читать далее

Evidently или как пасти модели в проде

Время на прочтение6 мин
Количество просмотров5.3K

Evidently это библиотека, которая помогает анализировать и отслеживать качество данных и качество моделей машинного обучения в процессе их эксплуатации.

Рассмотрим как ее установить и использовать.

ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля

Читать далее

Первый нейросетевой переводчик для эрзянского языка

Время на прочтение10 мин
Количество просмотров14K

Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей.
Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.

Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.

Читать далее

Ближайшие события

Удивительное рядом

Время на прочтение6 мин
Количество просмотров2.7K

Одной из самых жутких проблем для любого любителя, как и для профессионала в data science является качество разметки.
Качество разметки способно погубить самую толковую и красивую идею.

Но не всё оказалось так плохо и вашему вниманию предлагается, как и всегда в моих постах, красивая идея с кодами и примером.

Итак, начнем.

Возможности предиктивной аналитики в повышении энергоэффективности оборудования и прогнозе энергопотребления

Время на прочтение5 мин
Количество просмотров3.2K

По данным консалтинговой компании Roland Berger, ведущие электроэнергетические компании по всему миру реализуют программы цифровой трансформации. Повсеместное применение больших данных способствует развитию решений предиктивной аналитики, которые сегодня высоко востребованы в энергетике. Прогнозная аналитика позволяет предсказать выход оборудования из строя, объективно оценивать риски и принимать стратегически верные решения.

В этой статье мы расскажем о том, как с помощью предиктивного анализа реализовать качественный прогноз энергопотребления и повысить энергоэффективность оборудования генерирующих компаний.

Читать далее

Дообучение EasyOCR

Время на прочтение4 мин
Количество просмотров34K

Всем привет!

Представляю краткий tutorial по дообучению EasyOCR. возможно обучение на Google colab.

Читать далее

Обучение YOLOv4 в Google Colab

Время на прочтение11 мин
Количество просмотров12K

Этот учебник поможет вам легко создать yolov4 в облаке с включенным графическим процессором, чтобы вы могли выполнять обнаружение объектов за миллисекунды!

Читать далее

Бизнес — экосистема CarDamageTest. Как построить удобный сервис для автовладельцев?

Время на прочтение7 мин
Количество просмотров1.6K

В предыдущей публикации я рассказала о нашем сервисе, который теперь имеет запатентованное название CarDamageTest. Он предназначен для автоматической оценки технического состояния автомобилей на основе технологий искусственного интеллекта. И сейчас мне хотелось бы вынести на ваше обсуждение трансформацию этого сервиса в полноценную цифровую бизнес-экосистему для автовладельцев и компаний, работающих в автомобильном бизнесе.

В статье мы обсудим преимущества бизнес-экосистем по сравнению с обычными сервисами для клиентов, рассмотрим выгоды участия в таких системах для бизнеса, ну а в конце статьи вы найдете ссылки для скачивания нашего сервиса.

Читать далее

ClearML | Туториал

Время на прочтение9 мин
Количество просмотров32K

ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...

ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля

Читать далее

Архитектура платформы машинного обучения в продакшене

Время на прочтение11 мин
Количество просмотров8.4K

История машинного обучения (Machine learning, ML) началась в 1950-х, когда появились первые нейронные сети и алгоритмы ML. Однако чтобы стать известным обычному человеку, машинному обучению понадобилось ещё шестьдесят лет. Анализ более чем 16 тысяч статей по data science MIT technologies демонстрирует экспоненциальный рост машинного обучения на протяжении последних двадцати лет, стимулируемый big data и прогрессом в глубоком обучении.

На практике любой, имеющий доступ к данным и компьютеру, может сегодня обучить модель машинного обучения. Возможности автоматизации и создаваемые ML прогнозы имеют множество различных применений. Благодаря им работают современные системы распознавания мошенничества, приложения доставки товаров предсказывают время прибытия на лету, а программы помогают в медицинской диагностике.

Способы создания и применения моделей зависят от потребностей организации и прикладной области ML. Процесс создания моделей машинного обучения подробно описан, однако у ML существует и другая сторона — внедрение моделей в среде продакшена. Модели в продакшене управляются через специальный тип инфраструктуры — конвейеры машинного обучения. В статье мы расскажем о функциях сервисов ML в продакшене и рассмотрим готовые решения.
Читать дальше →