Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

RSHB_tsyfra 14 окт 2023 в 07:59

Внедрение практик и принципов DAMA-DMBOK2 как предпосылки к использованию ИИ в бизнес-процессах организаций

Простой

12 мин

6.4K

Блог компании РСХБ.цифра (Россельхозбанк)Data Mining*Управление проектами*Искусственный интеллект

Обзор

28 сентября компания РСХБ‑Интех провела RSHB Data Integration Meetup — митап для специалистов по работе с данными, в рамках которого выступил Антон Агеев, корпоративный архитектор и техлид команды Подписки в проекте «Свой бизнес» РСХБ‑Интех. В своем докладе Антон поделился со слушателями своей любовью к данным и к их красоте. Он представил главное из книги DAMA‑DMBOK2, описал часть представленных там методик и подробно остановился на методике Data Discovery and Management (DDM) — обнаружение, сбор, хранение и анализ данных. Также Антон рассказал о возможности внедрения практик и принципов DAMA‑DMBOK2 как предпосылок к использованию ИИ в бизнес‑процессах организаций.

В материале читайте расшифровку доклада. Запись митапа в свободном доступе можно посмотреть на сайте «РСХБ в цифре».

+19

slivka_83 12 окт 2023 в 08:22

Введение в библиотеку Diffusers и диффузионные модели

Простой

16 мин

16K

Искусственный интеллектМашинное обучение*Big Data*Data Mining*Python*

Туториал

✏️ Технотекст 2023

Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио.

Всегда хотели стать художником, но у вас лапки? :) Тогда Diffusers этот то, что вам нужно!

В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.

ТК LLM is all you need | ТК Private Sharing | Курс: Алгоритмы Машинного обучения с нуля

+11

nikolz 8 окт 2023 в 15:19

Глубокие нейронные сети: 33 года назад и 33 года спустя

Простой

10 мин

4.2K

Data Mining*

Перевод

Давайте обобщим то, что мы узнали, будучи путешественниками во времени 2022 года, изучающими современную технологию глубокого обучения 1989 года:

Прежде всего, за 33 года мало что изменилось на макроуровне. Мы все еще создаем дифференцируемые архитектуры нейронных сетей, состоящие из слоев нейронов, и оптимизируем их от начала до конца с помощью обратного распространения и стохастического градиентного спуска. Все выглядит удивительно знакомо, за исключением того, что оно меньше.

Предположим, что уроки этого упражнения остаются неизменными во времени. Что это говорит о глубоком обучении 2022 года? Что бы путешественник во времени из 2055 года подумал о производительности нынешних сетей?

aledovskiy 6 окт 2023 в 09:00

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

7 мин

21K

Блог компании AvitoTechPython*Data Mining*Big Data*

Продолжаем выводить ваши знания о PySpark на новый уровень :) В этот раз расскажем, что такое план запроса, как его смотреть, и что делать, чтобы уточнить узкие места в расчётах.

OnlyAnalyst 27 сен 2023 в 08:37

Как я пришёл в дата-анализ после долгих блужданий по онлайн-курсам, маршрут со всеми тупиками и ухабами

Простой

15 мин

35K

Data Mining*Big Data*Учебный процесс в ITКарьера в IT-индустрииData Engineering*

Роадмэп

Привет! Меня зовут Алексей, я дата-аналитик. Четыре года назад я пришёл в дата-анализ из сферы, далековатой от IT, — пивоварения (хотя о том, что на самом деле они не так далеки, я рассказывал здесь). До того как я нашёл свою нишу, тщетно пробовал вкатиться в IT через разные курсы по Python, TensorFlow и веб-разработке. Потратил на это три года и 100 тысяч рублей, в какой-то момент выгорел ещё в процессе обучения, чуть не бросил попытки, но собрался и в итоге самостоятельно и бесплатно изучил анализ данных, который мне сразу зашёл.

Сейчас я вижу, что многие начинающие блуждают теми же окольными путями. Поэтому решил написать про свой путь с фейлами и граблями и рассказать, что мне помогло найти своё. Надеюсь, мой текст будет полезен — добро пожаловать под кат.

+20

kucev 7 сен 2023 в 09:48

Руководство по масштабированию MLOps

8 мин

2.1K

Хранение данных*Машинное обучение*Data Mining*Data Engineering*Big Data*

Перевод

Команды MLOps вынуждены развивать свои возможности по масштабированию ИИ. В 2022 году мы столкнулись со взрывом популярности ИИ и MLOps в бизнесе и обществе. В 2023 год ажиотаж, учитывая успех ChatGPT и развитие корпоративных моделей, будет только расти.

Столкнувшись с потребностями бизнеса, команды MLOps стремятся расширять свои мощности. Эти команды начинают 2023 год с длинного списка возможностей постановки ИИ на поток. Как мы будем масштабировать компоненты MLOps (развёртывание, мониторинг и governance)? Каковы основные приоритеты нашей команды?

AlignAI совместно с Ford Motors написали это руководство, чтобы поделиться с командами MLOps своим успешным опытом масштабирования.

Читать дальше →

nagadit 7 сен 2023 в 09:04

«SAM и тут и сям»: Segment Anything Model в задачах компьютерного зрения (часть 2)

Средний

6 мин

4.1K

Блог компании SberDevicesData Mining*Обработка изображений*Машинное обучение*Искусственный интеллект

В предыдущей части мы разобрали, как можно улучшить качество предсказаний SAM и ускорить её работу. Мы уже упоминали, что SAM — это фундаментальная модель, а значит, она может использоваться не только для сегментации, но и легко адаптироваться для решения других задач компьютерного зрения. Сегодня мы рассмотрим, как SAM может применяться для решения таких задач, как Image Inpainting, Object Tracking, 3D-сегментация и 3D-генерация, а также увидим, как SAM работает на датасетах из медицинской сферы и сравним дообученную модель с базовыми весами. А еще мы поделимся своим опытом и расскажем, как SAM облегчила нам разметку данных при сборе датасета бьютификации изображений.

SAM и тут и сям...

+12

kucev 5 сен 2023 в 18:39

8 инструментов для аннотирования изображений в 2023 году

7 мин

6.2K

Big Data*Data Mining*Искусственный интеллектМашинное обучение*Обработка изображений*

Перевод

Аннотирование изображений — основа для обучения моделей машинного обучения. В статье мы расскажем о лучших инструментах аннотирования, которые сделают этот процесс эффективным.

Что такое аннотирование изображений?

После завершения ручного аннотирования модель машинного обучения учится на размеченных изображениях. Все ошибки разметки также моделью выучиваются и дублируются, потому что аннотирование изображений задаёт критерии, которым стремится соответствовать модель.

Разметка или категоризация изображения описательными данными, помогающими в идентификации и классификации объектов, людей или сцен на картинке, называется аннотированием изображений.

Аннотирование изображений критически важно в таких сферах, как компьютерное зрение, роботостроение и беспилотное вождение, потому что оно позволяет роботам воспринимать и интерпретировать визуальные данные.

Примерами аннотирования изображений являются отрисовка ограничивающих прямоугольников вокруг объектов на фотографии, разметка объектов текстом или разделение изображения на части на основании его визуальных признаков.

Читать дальше →

DenisN03 5 сен 2023 в 13:33

Автоматическая разметка данных

Средний

4 мин

8.1K

Python*Data Mining*Обработка изображений*Машинное обучение*Искусственный интеллект

Туториал

В задачах машинного обучения значительную часть времени занимает процесс подготовки данных. К этапу подготовки относятся: сбор, фильтрация, разметка и предобработка данных.В данной статье я буду рассматривать процесс автоматической разметки данных для задач компьютерного зрения.

09.03.2023 года была представлена модель Grounding DINO. Данная модель позволяет детектировать объекты на изображениях по текстовому описанию. Согласно аннотации к статье Grounding DINO, модель достигает значения 52,5 AP на бенчмарке "Zero-Shot Object Detection on MS-COCO". Далее мы рассмотрим как использовать эту модель для автоматической разметки данных.

dzis_science 31 авг 2023 в 14:36

Шпаргалка по Seaborn. Делаем матрицы красивыми

Простой

8 мин

14K

Data Mining*Визуализация данных*Машинное обучение*

Туториал

Привет, Хабр!

Часто в работе аналитика данных при подготовке очередного отчета или презентации, колоссальное количество времени уходит именно на графическую составляющую подготовки.

Ведь все хотят сделать отчет не только информативным, но и визуально привлекательным.

В этой статье мы разберем основные шаги, которые помогут сделать ваши матрицы стильными и продающими ваши результаты, используя лишь две основные библиотеки визуализации в Python - Seaborn и Matplotlib.

badcasedaily1 30 авг 2023 в 10:29

Анализ музыкальных предпочтений с использованием аудиоаналитики на Python

15 мин

7.8K

Блог компании OTUSData Mining*Python*Звук

Музыка, неотъемлемая часть человеческой культуры, всегда отражала дух времени. Однако с наступлением цифровой эры и быстрого развития технологий, музыкальная индустрия столкнулась с революцией, которая изменила не только способы создания и распространения музыки, но и сам способ, которым мы взаимодействуем с ней. Сегодня музыкальные платформы и сервисы предоставляют нам огромный выбор композиций, а важную роль в этом процессе играют технологии аудиоаналитики.

Что делает песню хитом? Какие элементы музыки заставляют нас нажимать "пропустить" или добавлять трек в свой плейлист? Ответы на эти вопросы лежат в понимании музыкальных предпочтений слушателей. Анализ этих предпочтений — это не только путь к более точным рекомендациям, но и ключ к пониманию наших эмоциональных реакций на музыку. Именно здесь на сцену выходит аудиоаналитика.

+12

kleinsbotle 29 авг 2023 в 09:47

Сделай SAM: Segment Anything Model в задачах компьютерного зрения (часть 1)

Средний

7 мин

11K

Блог компании SberDevicesData Mining*Обработка изображений*Машинное обучение*Искусственный интеллект

Всем привет! В прошлой статье мы рассказывали, как можно ускорить процесс разметки данных с помощью интерактивной сегментации, и уже упоминали state-of-the-art-решение в этой области — модель Segment Anything. Сегодня остановимся на том, как можно улучшить качество и производительность SAM: научить модель генерировать более детализированные и гранулярные маски, а также ускорить её работу в 50 раз и адаптировать для мобильных устройств. А в следующей части на примерах покажем, что способности SAM не ограничиваются одной только сегментацией: модель может применяться для решения самых разных задач компьютерного зрения.

Что такое Segment Anything (SAM)?

SAM (Segment Anything Model) — это сегментационная модель, которая была выпущена Meta AI* весной 2023 года и быстро стала одной из самых популярных AI-моделей. SAM называют первой фундаментальной моделью в компьютерном зрении и сравнивают с ChatGPT в NLP из-за рекордно большого количества разнообразных данных, которые видела модель (SAM обучалась на датасете SA-1B, содержащем более одного миллиарда масок); а также из-за её способности к zero-shot transfer, то есть способности легко обобщаться для решения смежных задач.

Сделай SAM...

+22

kucev 24 авг 2023 в 17:17

Неструктурированные данные: примеры, инструменты, методики и рекомендации

17 мин

16K

Big Data*Data Engineering*Data Mining*Машинное обучение*Хранение данных*

Перевод

В современном построенном на данных мире организации накапливают огромные объёмы информации, позволяющие принимать важные решения и выводы. Целых 80% от этой цифровой сокровищницы представляют собой неструктурированные данные, в которых отсутствует формат и упорядоченность.

Чтобы продемонстрировать объём неструктурированных данных, мы сошлёмся на десятую ежегодную инфографику Data Never Sleeps, показывающую, какое количество данных ежеминутно генерируется в Интернете.

Сколько данных генерировалось ежеминутно в 2013 и 2022 годах. Источник: DOMO

Только представьте: в 2022 году пользователи каждую минуту отправляли 231,4 миллиона электронных писем, загружали на YouTube пятьсот часов видео и делились 66 тысячами фотографий в Instagram. Разумеется, доступ к такому огромному пулу неструктурированных данных может дать компаниям большие возможности глубже понимать своих клиентов, рынки и операции, в конечном итоге приводя к росту и успеху.

В этой статье мы окунёмся в мир неструктурированных данных, подчеркнём их важность и представим практичные советы по извлечению ценной информации из этого часто недооцениваемого ресурса. Мы рассмотрим разные типы данных, варианты хранения и управления ими, а также различные методики и инструменты для анализа неструктурированных данных. Подробно разобравшись в этих аспектах, вы сможете овладеть истинным потенциалом неструктурированных данных и преобразовать их в стратегический ресурс.

Читать дальше →

E_BEREZIN 24 авг 2023 в 11:40

Цифровая трансформация цементного завода (ч.9): смешивание муки в силосах

8 мин

1.9K

1С*Data Engineering*Управление разработкой*Data Mining*

Туториал

Что делать, когда нет входных данных для вычислений и обработки системой? Как управлять процессом, когда точно неизвестно, как именно протекает процесс? На помощь приходят теоретические расчеты и кратковременные эксперименты...

Читать статью >>

RomanGuk 24 авг 2023 в 11:01

Process Mining. «Рентгеновская диагностика» бизнеса

Простой

12 мин

15K

Блог компании Холдинг Т1Data Mining*Управление проектами*

Кейс

Представьте себе, что компания одновременно закупает буровую вышку и ручки с карандашами в офис. На все заявки вне зависимости от стоимости есть KPI на сроки рассмотрения, допустим, 15 дней. Процесс идёт по одному и тому же пути — 15 шагов, а в финале — согласование у главного бухгалтера. KPI соблюдаются, в отчётах всё ОК.

По идее, для ручек это должно происходить легче и быстрее, чем для буровой установки. В данном же случае получается, что для компании это одно и то же и процессы одинаковые. Но вот их цена в пересчёте на эффект разная. И нужно понять, как оптимизировать процессы, чтобы убрать лишние расходы.

То, что главный бухгалтер согласовывает закупку ручек, — дороговато для процесса, и его можно разгрузить. А в сложных закупках к тем пятнадцати уникальным шагам могут добавиться зацикливания, пересогласования, то есть получится намного больше повторных действий, чем при согласовании ручек. Возможно, каждый сотрудник участвует по два-три раза в этой крупной сделке. Это увеличивает нагрузку на процесс. А финальный KPI (15 дней) — тот же самый, только цена того, что происходит посередине, намного больше. Это как раз то, что с помощью обычной отчётности не выявляется.

Получается, что для разного типа закупок стоимость процессов в пересчёте на эффект имеет очень сильное расхождение. При этом каждый процесс может где-то сбоить и зацикливаться.

Важно выявить, в каком месте это происходит и какую на этом можно получить экономию.

Process Mining помогает очень быстро увидеть взаимосвязь между событиями и показать, между какими этапами происходит зависание. В большинстве случаев в результате получается весьма ощутимый финансовый эффект.

Читать дальше →

+27

Syurmakov 18 авг 2023 в 15:26

Дайджест новостей искусственного интеллекта и машинного обучения за лето

Простой

3 мин

3.6K

Блог компании UzumData Mining*Big Data*Машинное обучение*Искусственный интеллект

Дайджест

Привет, Хабр! Давно не виделись (2 года, ровно).

Отфильтровав для Вас большое количество источников и подписок, сегодня собрал все наиболее значимые новости из мира будущего, машинного обучения, роботов и искусственного интеллекта за июль. Не забудьте поделиться с коллегами, друзьями или просто с теми, кому интересны такие новости.

Итак, а теперь дайджест за июль:

1. Представьте на мгновение, что вы ИИ. Часы длинные, но годы короткие.

Прочитать весь дайджест

Alek_Che 10 авг 2023 в 16:03

Язык 1С: плюсы и минусы для аналитических платформ

Средний

5 мин

12K

Блог компании Modus BIАнализ и проектирование систем*Data Mining*Хранение данных*

Обзор

Привет, Хабр! На связи Саша Чебанов, product owner платформы Modus.

Мы часто сталкиваемся с несколько устаревшим мнением, что язык 1С – это только про финансовые системы. В этой статье я постараюсь подробнее рассказать, что он из себя представляет, где мы его применяем, какие плюсы и минусы у него есть. Поехали!

kucev 9 авг 2023 в 09:17

Сбор данных для машинного обучения: этапы, методики и рекомендации

15 мин

9.6K

Data Engineering*Data Mining*Анализ и проектирование систем*Машинное обучение*Хранение данных*

Перевод

Все успешные компании постоянно собирают данные. Они отслеживают поведение людей в Интернете, организуют опросы, мониторят отзывы, слушают сигналы от умных устройств, извлекают значимые слова из электронных писем и предпринимают другие шаги для накопления фактов и чисел, помогающих им принимать бизнес-решения. Хотя современный мир изобилует данными, сбор ценной информации включает в себя множество организационных и технических трудностей, которые мы и рассмотрим в этой статье. Особое внимание мы уделим методикам сбора данных и инструментам для аналитики и проектов машинного обучения.

Читать дальше →

kucev 9 авг 2023 в 07:43

Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения

4 мин

2.2K

Big Data*Data Mining*Искусственный интеллектМашинное обучение*Обработка изображений*

Перевод

Эффективность моделей машинного обучения напрямую зависит от обучающих данных. Если данные неполны или размечены неверно, то эти пробелы отразятся на прогнозах модели.

Но как выявлять высококачественные данные и обеспечивать их уровень уже в процессе работы над проектом? И что означает «качество данных» в контексте машинного обучения?

Можно упростить ответ на этот вопрос, сведя качество данных к трём основным характеристикам: целостности (integrity), точности (accuracy) и согласованности (consistency).

Целостность: надёжность используемого датасета
Точность: степень валидности и корректности присвоенных аннотаций
Согласованность: степень согласованности присвоенных аннотаций во всём датасете

Можно воспринимать каждый из этих факторов как часть высокоуровневой дорожной карты для обеспечения качества данных на всех этапах конвейера аннотирования.

Читать дальше →

kirillkosolapov 6 авг 2023 в 11:01

Что такое Data Observability и с чем ее едят?

Простой

4 мин

3.5K

Блог компании AmveraData Engineering*Исследования и прогнозы в IT*Big Data*Data Mining*

В последние годы растет сложность IT-инфраструктуры в компаниях и, соответственно, спрос на сервисы мониторинга ее работоспособности. Их все больше покупают, в них все чаще инвестируют. Но в данной статье мы расскажем о новом смежном тренде - Data Observability. Что это и чем она отличается от Infrastructure Observability?

Классический мониторинг - это наблюдение за работой инфраструктуры и приложений. А Data Observability позволяет осуществлять мониторинг потоков данных (и даже бизнес-процессов) и находить в них сбои.

Рассмотрим несколько примеров.

1 2 ...

14 15

17 18 ...

108 109

Data Mining *

Внедрение практик и принципов DAMA-DMBOK2 как предпосылки к использованию ИИ в бизнес-процессах организаций

Введение в библиотеку Diffusers и диффузионные модели

Глубокие нейронные сети: 33 года назад и 33 года спустя

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

Как я пришёл в дата-анализ после долгих блужданий по онлайн-курсам, маршрут со всеми тупиками и ухабами

Руководство по масштабированию MLOps

«SAM и тут и сям»: Segment Anything Model в задачах компьютерного зрения (часть 2)

8 инструментов для аннотирования изображений в 2023 году

Что такое аннотирование изображений?

Автоматическая разметка данных

Шпаргалка по Seaborn. Делаем матрицы красивыми

Анализ музыкальных предпочтений с использованием аудиоаналитики на Python

Сделай SAM: Segment Anything Model в задачах компьютерного зрения (часть 1)

Неструктурированные данные: примеры, инструменты, методики и рекомендации

Ближайшие события

Цифровая трансформация цементного завода (ч.9): смешивание муки в силосах

Process Mining. «Рентгеновская диагностика» бизнеса

Дайджест новостей искусственного интеллекта и машинного обучения за лето

Язык 1С: плюсы и минусы для аналитических платформ

Сбор данных для машинного обучения: этапы, методики и рекомендации

Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения

Что такое Data Observability и с чем ее едят?

Вклад авторов