Как стать автором

Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

slivka_83 10 ноя 2022 в 16:52

Voila: из ноутбука в веб-приложение

5 мин

11K

Python*Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Туториал

Voilà это библиотека, которая позволяет превращать Jupyter Notebook’и в интерактивные веб-приложения и дашборды. С ее помщью вы сможете продемонстировать свою работу третьим лицам или создать целый веб-сервис. В этой статье рассмотрим основные ее возможности...

ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля

Читать далее

+4

SergeySavkin 9 ноя 2022 в 11:57

Мой личный опыт восстановления старых фотографий с помощью нейросетей

2 мин

17K

Data Engineering*Big Data*Алгоритмы*Data Mining*Python*

Туториал

Технотекст 2022

Мой скромный опыт запуска нейросетей на ноутбуке для восстановления старых фотографий.

Читать далее

+9

kucev 8 ноя 2022 в 23:21

Большой объём данных для машинного обучения — не панацея

3 мин

5.6K

Обработка изображений*Машинное обучение*Искусственный интеллектData Mining*Big Data*

Перевод

Модели глубокого обучения обладают потрясающим свойством — они становятся лучше с увеличением объёма данных, и кажется, что этот процесс практически неограничен. Чтобы получить качественно работающую модель, недостаточно больших объёмов данных, нужны ещё и точные аннотации. Хотя большие объёмы данных помогают модели решать проблему несогласованности данных в разных аннотациях, люди всё равно могут совершать повторные ошибки, укореняющиеся в модели.

Например, когда человеку нужно нарисовать вокруг объекта прямоугольник, он обычно стремится, чтобы объект точно попал в этот прямоугольник, то есть склонен ошибаться в сторону увеличения прямоугольника. Использование такой модели для избегания столкновений приведёт к ложноположительным результатам, из-за чего беспилотный транспорт будет останавливаться без причины.

Превышение размера ограничивающих прямоугольников — пример систематической ошибки, а бывают ещё и случайные. Случайные и систематические ошибки влияют на обученную модель по-разному.

Читать дальше →

+6

slivka_83 1 ноя 2022 в 12:38

ML | Hydra

8 мин

14K

Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Туториал

Hydra это мощный фреймворк для управления файлами конфигурации. В основном его возможности заточенный под проведение ML-экспериментов и ведение ML-проектов в целом. Рассмотрим как его использовать на простом примере обучения ML-модели...

ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля

Читать далее

+4

lexibenderrr 1 ноя 2022 в 12:05

Практический Metric learning

8 мин

21K

Блог компании Open Data ScienceData Mining*Машинное обучение*

Туториал

В этом посте мы поговорим о задаче metric learning, подходах к её решению, и разберём их на практике, используя open-source проект OpenMetricLearning. В качестве бонуса покажем, как с помощью простых эвристик можно догнать текущие SotA модели.

Читать далее

+18

F5Habr 26 окт 2022 в 12:32

Как понять, что пришло время внедрять платформу для анализа данных?

9 мин

2.2K

Блог компании Factory5Data Mining*Big Data*Машинное обучение*Data Engineering*

Эффективные управленческие решения основаны на качественной аналитике данных. Но информации становится больше, а ее анализ — труднее. Всё чаще на помощь компаниям приходит прогнозная или предиктивная аналитика, позволяющая справиться с экспоненциальным ростом информации благодаря использованию методов машинного обучения.

В этой статье мы рассмотрим предпосылки и признаки необходимости внедрения платформенных решений, а также укажем на аспекты, о которых надо помнить перед или при внедрении системы.

Читать далее

+2

ANazarov 26 окт 2022 в 08:29

Регрессионный анализ в DataScience. Часть 2. Преобразование Бокса-Кокса. Проверка тренда и случайности

51 мин

14K

Python*Data Mining*Математика*Учебный процесс в ITСтатистика в IT

Туториал

Обзор построения и анализа линейной регрессионной модели с использованием преобразования Бокса-Кокса

Читать далее

+4

kucev 24 окт 2022 в 08:28

Enterprise Data Warehouse: компоненты, основные концепции и типы архитектур EDW

15 мин

20K

Хранение данных*Big Data*Amazon Web Services*Data Mining*

Перевод

Ежедневно мы принимаем множество решений на основании предыдущего опыта. Наш мозг хранит триллионы бит данных о прошлых событиях и использует эти воспоминания каждый раз, когда мы сталкиваемся с необходимостью принятия решения. Как и люди, компании генерируют и собирают множество данных о прошлом, и эти данные можно использовать для принятия более осознанных решений.

Наш мозг может и обрабатывать, и хранить информацию, а компаниям для работы с данными требуется множество разных инструментов. И одним из самых важных является корпоративное хранилище данных (enterprise data warehouse, EDW).

В этой статье мы расскажем о том, что же такое EDW, каких типов они бывают и какие функции имеют, а также как они используются в обработке данных. Мы объясним, как корпоративные хранилища отличаются от обычных, какие типы хранилищ данных существуют и как они работают. В первую очередь мы хотим дать вам информацию о ценности для бизнеса каждого архитектурного и концептуального подхода к построению хранилища.

Читать дальше →

+2

EugeneBoykachev 18 окт 2022 в 17:08

SLA против дебиторки: как качество сервиса влияет на уровень задолженности жителей за ЖКУ

6 мин

1.8K

Бизнес-модели*IT-компанииData Mining*

Из песочницы

Меня зовут Евгений, я – директор по продукту в IT-компании, которая занимается цифровизацией ЖКХ и автоматизирует рутинные процессы в управляющих организациях.

Взыскание задолженности за коммунальные услуги - головная боль всех управляющих компаний. Лучше предотвращать появление долгов, чем возвращать их.

Один из главных бизнес-процессов в управляющих компаниях - исполнение заявок от жителей. Качество этого процесса можно охарактеризовать SLA (Service Level Agreement), который включает показатели: срок принятия заявки клиента в работу, срок выполнения заявки, маршрут выполнения заявки

В этой статье расскажу, как мы с помощью методов процессной аналитики (Process Mining) проверили гипотезу о наличии зависимости дебиторской задолженности от соблюдения SLA.

Читать далее

+5

kucev 18 окт 2022 в 10:16

Непрерывное обучение для продакшен-систем

6 мин

2.2K

Big Data*Data Mining*Искусственный интеллектМашинное обучение*Управление разработкой*

Перевод

Жизненный цикл машинного обучения

Введение

Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований.

Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО.

Но что произойдёт, когда мы осуществим переход к Software 2.0?

Читать дальше →

+3

lodz 18 окт 2022 в 08:41

Разбираемся с платформами обработки данных на примере барбершопа «Бородатый сисадмин». Какие бывают и всем ли они нужны

11 мин

6.4K

Блог компании SelectelМашинное обучение*IT-инфраструктура*Data Mining*Big Data*

Технотекст 2022

Обычно тексты про работу с данными начинаются с числа, демонстрирующего объем производимых в мире данных. Или пассажа про то, что данные — новые золотые прииски («data is the new oil»). Это недалеко от правды: если раньше для понимания своих пользователей компаниям нужно было заказывать крупные социологические исследования, то сейчас, с глобальной цифровизацией, пользователи сами — осознанно или нет — предоставляет данные о себе.

Обрабатывают данные, то есть вытаскивают из них пользу, совершенно разнопрофильные компании. Даже сеть семейных парикмахерских на районе может вести отчеты в Excel, используя ее как CRM-систему. На основе данных вывели список клиентов, давно не приходивших на стрижку? Самое время кинуть им sms с «индивидуальной» скидкой.

В какой момент бизнесу стоит организовать целую платформу для обработки данных? Всегда ли обработка данных — это про big data? И какие варианты есть сейчас в России? Об этом всем — под катом.

Читать дальше →

+39

MikhailGariyants 18 окт 2022 в 07:00

«Светофор 3.0»: как мы начали доверять поставщикам на основе рекомендаций машинного обучения

5 мин

2.6K

Блог компании Лемана ТехData Mining*Машинное обучение*Управление продуктом*

Привет, Хабр! Сегодня мы хотим рассказать о том, как машинное обучение помогает нам освободить время сотрудников в магазинах от длительного пересчета товаров в прямых поставках и сосредоточиться на работе с клиентами. В этом посте мы расскажем, как работает наш продукт «Светофор 3.0», сколько рабочего времени он позволяет экономить и как мы используем ML для оценки вероятностей наличия расхождений в заказах. Кроме этого, расскажем о тонкостях выстраивания доверия сотрудников рекомендациям умной системы. Всех заинтересованных приглашаем под кат и к обсуждению в комментариях.

Читать далее

+4

Robastik 18 окт 2022 в 04:43

Как сделать карту цен в Excel без макросов и VBA

10 мин

14K

Data Mining*Maps API*Визуализация данных*

Туториал

Cезон Data Mining

Считается, что Data Mining — это магическое снадобье из SQL, Python, Power BI и других волшебных компонент. Мало кто знает, что при правильном подходе с Data Mining может совладать офисный планктон с помощью одного лишь Excel.

Если вы абсолютно далеки от Data Mining, но хотите причаститься его таинств, это руководство в картинках по шагам сделано для вас. Особенно полезно тем, кто никогда бы даже не подумал сделать подобное самостоятельно.

Если вы владеете специальными инструментами для работы с данными, то будет интересно узнать ваше мнение о решениях без "рокет сайнс" (как о явлении в целом, так и о данном кейсе).

Читать далее

+23

Asiia_Thabet 16 окт 2022 в 00:36

Анализ временных рядов, применение нейросетей (1 часть)

9 мин

34K

Статистика в ITМашинное обучение*Big Data*Data Mining*Искусственный интеллект

Туториал

В этой статье, я опишу некоторые основные понятия в теории анализа временных рядов, классические статистические алгоритмы прогнозирования и интересные алгоритмы машинного обучения, которые применяются для временных рядов

Если Вы готовы погрузиться в одну из очень интересных тем статистики и Вы любитель машинного обучения, продолжайте читать :-)

Читать далее

+12

NewTechAudit 14 окт 2022 в 15:16

Как создать и исследовать лог процесса выполнения программы

3 мин

5.5K

Python*Анализ и проектирование систем*Data Mining*

Привет, Хабр!

Анализ исходного кода - давно зарекомендовавшая себя практика для выявления отклонений до выхода приложения на рынок. Проверка на уязвимости, program understanding, поиск логических ошибок в использовании библиотек, code review и многие другие методы статического, динамического и ручного анализа кода широко применяются во многих компаниях занимающихся разработкой программ.

Читать далее

+4

ANazarov 14 окт 2022 в 12:48

Проверка автокорреляции с использованием критерия Дарбина-Уотсона средствами Python

26 мин

19K

Python*Data Mining*Математика*Учебный процесс в ITСтатистика в IT

Туториал

Cезон Data Mining

Методический разбор для специалистов DataScience по применению критерия Дарбина-Уотсона для проверки автокорреляции средствами python

Читать далее

+16

yumupdate 13 окт 2022 в 08:09

JupyterHub или как перестать бояться pip install

10 мин

7.2K

Блог компании РостелекомСистемное администрирование*Python*Data Mining*

Всем привет! Сегодня я расскажу о том, как мы переехали на наш велосипед в виде JupyterHub, и он оказался удобным. У нас в компании работают ~20 дата саентистов и в своей работе они используют множество Open Source-инструментов: Airflow, Hadoop, Hive, Spark и т.д. Но в данной статье речь пойдет исключительно о JupyterHub, точнее говоря о боли, которая преследовала администраторов, и как мы успешно ее побороли.

Читать далее

+13

Asiia_Thabet 10 окт 2022 в 22:14

Вариационное исчисление и Вариационные алгоритмы

5 мин

15K

Математика*Машинное обучение*Data Mining*Искусственный интеллект

Технотекст 2022

Из песочницы

В этой статье буду рассмотрены основные задачи и формулы в вариационном исчислении. Также применение этих алгоритмов в машинном обучении.

_{В конце статьи будет объяснение теории вероятностных глубоких нейросетей, в котором как раз применяется вариационный вывод}

Вариационное исчисление - раздел анализа, в котором изучаются вариации функционалов.

Читать далее

+7

averkij 10 окт 2022 в 10:02

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

12 мин

54K

Блог компании Open Data ScienceData Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

Туториал

Cезон Data Mining

⚡ Градиент обреченный

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать свое решение, — обучить на целевых данных end2end модель (например, из фреймворка NeMo от NVIDIA) или гибридную модель типа kaldi. Сверху понадобится добавить расстановку пунктуации и денормализацию для улучшения читаемости ("где мои семнадцать лет" → "Где мои 17 лет?").

Модель заслуживает внимания так как умеет делать очень много "из коробки". Давайте разберемся подробнее как она устроена и научимся ей пользоваться.

Недавно в открытый доступ была выложена мультиязычная модель whisper от OpenAI. Попробовал ее large вариант на нескольких языках и расшифровал 30 выпусков "Своей игры". Результат понравился, но есть нюансы. Модель транскрибирует тексты вместе с пунктуацией и капитализацией, расставляет временные метки, умеет генерировать субтитры и определять язык. Языков в обучающем датасете порядка ста. Чтобы прикинуть по качеству, нужно посмотреть на их распределение — данных на 100 часов и более было лишь для 30 языков, более 1000 ч. — для 16, ~10 000 часов — у 5 языков, включая русский.

Читать далее

+28

slivka_83 9 окт 2022 в 16:36

Evidently или как пасти модели в проде

6 мин

5.2K

Data Mining*Big Data*Машинное обучение*

Туториал

Cезон Data Mining

Evidently это библиотека, которая помогает анализировать и отслеживать качество данных и качество моделей машинного обучения в процессе их эксплуатации.

Рассмотрим как ее установить и использовать.

ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля

Читать далее

+3

1 2 ...

23

24 25 ...