Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

kucev 31 июл в 11:00

Retrieval-Augmented Generation (RAG): глубокий технический обзор

34 мин

6.3K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Retrieval‑Augmented Generation (RAG) — это архитектурный подход к генеративным моделям, который сочетает навыки поиска информации с генеративными возможностями больших языковых моделей (LLM). Идея RAG была предложена в 2020 году, чтобы преодолеть ограничение LLM — замкнутость на знаниях из обучающих данных. Вместо попыток «вживить» все знания в параметры модели, RAG‑подход позволяет модели запрашивать актуальные сведения из внешних источников (баз знаний) во время генерации ответа. Это обеспечивает более точные и актуальные ответы, опирающиеся на факты, а не только на память модели.

В этой статье мы подробно рассмотрим: архитектуру RAG, её компоненты и этапы работы, современные инструменты и практики для реализации RAG, примеры кода на Python, кейсы применения в бизнесе и науке, технические вызовы и лучшие практики, сравнение RAG с классическим fine‑tuning, перспективы технологии.

+14

ChePeter 26 июл в 13:09

Изящные монады точек эллиптической кривой

Сложный

3 мин

4.1K

Криптография * Математика * Data Mining *

Перечитал давний доклад академика Арнольда В.И. о сложности последовательностей нулей и единиц, в которй он использует монады для определения сложности.

Доклад в двух вариантах, с цветными картинками и академик тут очень красиво и подробно рассказывает, почему одна последовательность сложнее другой и как это видно и строгий вариант «Доклад в Московском математическом обществе».

+12

MaxRokatansky 23 июл в 05:36

15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик

24 мин

12K

Блог компании OTUSБазы данных * Data Engineering * Data Mining *

Перевод

Визуализация данных — это не просто способ представить информацию, а настоящий инструмент для открытия новых инсайтов и улучшения принятия решений. В этой статье мы собрали 15 библиотек для визуализации данных, которые стали стандартом в своих областях. Здесь вы найдете как решения для быстрых графиков, так и мощные фреймворки, подходящие для сложных и масштабных задач. Каждая библиотека имеет свои особенности, и в статье мы подробно рассмотрим, какие из них лучше всего подойдут для вашего следующего проекта. Если вы хотите поднять свои визуализации на новый уровень — читайте, разберемся, какие инструменты действительно заслуживают внимания.

+13

venheads 17 июл в 07:00

Data Lake 2.0: Iceberg и Parquet в бою за миллисекунды

Средний

9 мин

3.3K

Блог компании МТСBig Data * Data Mining *

Привет, Хабр! Меня зовут Валерий Бабушкин, я CDO МТС Web Services. Если достаточно много занимаешься машинным обучением, то однажды начинаешь говорить про дата-инженерию — как герой, который много сражается со злом и в итоге сам переходит на темную сторону. Вот и моя очередь настала.

На последнем True Tech Day я рассказал, как Apache Iceberg и Apache Parquet позволяют построить современную инфраструктуру для больших данных. В этом материале я расскажу, какие задачи решает каждый инструмент, как они работают в связке, и сравню производительность Hive с Parquet-партициями против Iceberg с Parquet-таблицами.

+38

kucev 10 июл в 11:30

MCP: новая игра на рынке искусственного интеллекта

14 мин

15K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

Всё, что нужно знать о Model Context Protocol (MCP)

«Даже самые продвинутые модели ограничены своей изоляцией от данных — они заперты в информационных силосах и легаси-системах».
— Anthropic о важности интеграции контекста

Сегодняшние большие языковые модели (LLM) невероятно умны, но находятся в вакууме. Как только им требуется информация вне их «замороженных» обучающих данных, начинаются проблемы. Чтобы AI-агенты действительно были полезны, им нужно получать актуальный контекст в нужный момент — будь то файлы, базы знаний, инструменты — и даже уметь совершать действия: обновлять документы, отправлять письма, запускать пайплайны.

Так сложилось, что подключение модели ко всем этим внешним источникам данных было хаотичным и нестабильным: разработчикам приходилось писать кастомные интеграции или использовать узкоспециализированные плагины под каждый API или хранилище. Такие «сделанные на коленке» решения были хрупкими и плохо масштабировались.

Чтобы упростить это, Anthropic представила Model Context Protocol (MCP) — открытый стандарт, предназначенный для того, чтобы связать AI-ассистентов с данными и инструментами, подключая любые источники контекста. MCP был анонсирован в ноябре 2024 года. Тогда реакция была сдержанной. Но сегодня MCP — на волне: он уже обогнал LangChain по популярности и, по прогнозам, скоро обойдёт OpenAPI и CrewAI.

Крупные игроки AI-индустрии и open source-сообщества начали активно поддерживать MCP, видя в нем потенциально революционный инструмент для построения агентных систем на базе LLM.

+11

30 июн в 15:31

Чем живут создатели ИИ? ML’щики, приоткройте чёрный ящик, расскажите о себе в нашем опросе

1 мин

20K

Data Mining * Машинное обучение * Искусственный интеллект

Пока весь мир обсуждает революцию ИИ, те, кто её творят, остаются в тени и просто делают свою работу. Именно им, ML- и DS-специалистам, человечество обязано прорывам в технологиях. Но какие они на работе и в жизни, чем интересуются и главное — что думают об ИИ, который создают? Мы решили расспросить их самих, чтобы составить честный портрет современного ML-щика. Если вы занимаетесь ML и Data Science, добавьте свои штрихи этому портрету — пройдите наш небольшой опрос. А мы потом покажем вам — и всей аудитории Хабра — получившуюся картину.

Пройти опрос

+22

Bright_Translate 29 июн в 09:01

Вычисляем коэффициент популярности крейтов Rust для работы и для хобби-проектов

5 мин

2.5K

Блог компании RUVDS.comRust * Программирование * Data Mining * Визуализация данных *

Аналитика

Перевод

Твит, который подтолкнул меня к реализации описанного в статье мини-проекта.

Взявшись за эту задачу, я около двух часов ваял небольшой скрипт, который будет скрейпить данные из базы крейтов Rust crates.io и анализировать их для выяснения, какие пакеты чаще скачиваются для работы (то есть в будние дни), а какие для развлечения (то есть в выходные).

+50

ai_lab_experiments5566 25 июн в 09:16

Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения

Средний

8 мин

Data Mining * Data Engineering * Машинное обучение * Искусственный интеллектPython *

Из песочницы

Обнаружение дронов (БПЛА) object-detection с использованием ИИ YOLOv12 и компьютерного зрения OpenCV.

+18

Andre_Savchenko 11 июн в 12:11

Когда Excel превращается из помощника во вредителя

Простой

6 мин

4.5K

Базы данных * Визуализация данных * Управление проектами * Веб-аналитика * Data Mining *

Мнение

Из песочницы

Мне всегда было интересно, как управляются разные бизнесы: как работает завод, ритейл, другие сферы. Я пытался изнутри наблюдать за бизнесом, где создаётся конечная ценность. Где-то работает автократия, в других компаниях уже есть зрелая бюрократия, а где-то все договариваются на словах, но нигде это не прописано.

Я видел, что даже в среднем бизнесе решения принимаются на основании чуйки хозяина. Тогда как в entreprise решения принимаются на основании процедур, отчётов. Люди страдают и ненавидят этот процесс, так как много времени уходит на оцифровку. Но при этом корпорации довольно эффективны, что показал мой дальнейший опыт. Они работают на 4-ку, но стабильно. Малый бизнес может сегодня сработать на 5, а завтра на 2.

Так у меня появилось убеждение, что в своих решениях нужно опираться на данные. Большой компанией можно стать только та, где есть система принятия решений.

+17

vladislav_dt 7 июн в 11:17

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Сложный

18 мин

1.9K

Блог компании DoubletappData Mining * Искусственный интеллектМашинное обучение * Data Engineering *

Обзор

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье, а здесь сосредоточимся на результатах тестирования. Мы оцениваем ряд ведущих открытых LLM, предоставляя подробный количественный и качественный анализ, а также рассматриваем, как качество бенчмарка влияет на достоверность и объективность оценки моделей.

Содержание
• Общая информация о датасете
• Стенд для тестирования
• Результаты
• Заключение

+11

xenon 27 мая в 08:25

Теория мертвого 2GIS

Простой

62 мин

60K

Геоинформационные сервисы * Информационная безопасность * Медийная реклама * Data Mining * IT-компании

Аналитика

Выбрали хороший ресторан (врача, СТО, юриста, риэлтора) по отзывам и высокому рейтингу в 2GIS, а оказалось, что там если не ужас-ужас-ужас, то как-то средне, явно не похоже на то, что вы бы ожидали от рейтинга 4.8 или даже 5 баллов. Знакомо?

Все знают, что в 2GIS могут быть накрученные фейковые отзывы (а их там всего 10-20 на весь город или там 99% фейковых? Есть ведь разница!), но не все умеют их легко опознавать. У 2gis, похоже, еще нет антифрода (что вполне нормально для пет-проекта, который делают веб-программисты в свободное время), но вы теперь можете различать ботов-зомби-инопланетян через мой антифрод af2gis, и выбирать себе те заведения, которые нравятся людям, а не ботам.

Статья будет длинная (она про все подряд о чем я думал и с чем разбирался последнее время), но тех, кто ее прочитает ждет фантастическая награда! Они смогут ходить в самые лучшие заведения города, их будут обслуживать самые красивые и шустрые официантки, еда будет очень вкусной, порции огромными и все это за довольно разумные деньги! Такие места есть, живые люди их любят и ставят им высокие оценки, а боты - любят другие заведения. Нужно только надеть волшебные очки чтобы увидеть, какие заведения хвалят люди, а какие - боты.

Прочитать и получить волшебные очки!

+556

302

vlenshin 22 мая в 14:18

Поддержка RUTUBE 2.0: как мы научили бота не ломаться на сложных вопросах

19 мин

2.3K

Блог компании RUTUBEData Mining * Natural Language Processing * Машинное обучение * Искусственный интеллект

Как у нас в RUTUBE ИИ и служба клиентского сервиса работают сообща, вместе справляются ростом сервиса и мгновенно адаптируются к изменениям — рассказываем в этой статье. Делимся рецептом RAG-системы, которая за первые три месяца эксплуатации уже отвечает почти на 70% запросов пользователей и никогда не врёт про «космических зайцев».

+10

kirakirap 21 мая в 11:14

Гайд по Scikit-learn в 2025: собираем пайплайн, который не сломается

Простой

30 мин

7.3K

Блог компании НетологияМашинное обучение * Python * Data Engineering * Data Mining *

Туториал

Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете с PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit, predict, score — через sklearn.

В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами.

Мы подготовили гайд, как работать со scikit-learn в 2025 году. Новичкам он поможет собрать первую ML-задачу — с данными, моделью и метриками. А тем, кто уже использует библиотеку, — освежить знания и понять, что изменилось в новых версиях.

Почитать гайд →

+14

R_STYLE_SOFTLAB 26 мар в 09:37

Как спрогнозировать вес птицы с помощью XGBoost: от предобработки данных до оптимизации модели

Средний

9 мин

2.3K

Блог компании РСХБ.цифра (Россельхозбанк)Машинное обучение * Python * Data Mining * Программирование *

Туториал

Привет, Хабр! Вот когда каждый грамм действительно имеет значение: если вам нужно спрогнозировать вес птицы перед продажей, чтобы экономить на кормах и оптимизировать производство. Меня зовут Михаил Чирков, я data scientist в R-Style Softlab и сегодня хочу поделиться с вами кейсом прогнозирования с помощью XGBoost, этот проект мы делали в рамках внедрения BI-системы для птицефабрики.

+16

prfnv 18 мар в 13:37

Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями

Простой

7 мин

6.2K

Блог компании МТСМашинное обучение * Data Mining * Big Data *

Кейс

Всем привет! Это DS-ы Павел Парфенов и Максим Шаланкин из команды Финтеха Big Data МТС. Мы и наши коллеги Data Scientists и Data Analysts ежедневно обрабатываем огромные массивы информации, строим модели и выделяем целевые сегменты, чтобы принимать обоснованные решения. Наши рутинные задачи — предварительный анализ данных (EDA), обучение ML-моделей и сегментация аудитории — часто отнимают кучу времени и ресурсов.

Для себя и коллег с другими компетенциями мы решили сделать инструмент, который сэкономит время на рутинных задачах. В этой публикации мы подробно расскажем, что именно оптимизировали с помощью автоматизации и на каких этапах рабочего процесса применяем нашу командную платформу. Используя этот опыт, вы сможете освободиться от монотонных действий при работе с данными и сосредоточиться на по-настоящему важных вещах.

+35

nagadit 18 мар в 09:29

Мир будущего: управление устройствами с помощью жестов

13 мин

1.6K

Блог компании Конференции Олега Бунина (Онтико)Data Mining * Искусственный интеллектМашинное обучение * Обработка изображений *

Обзор

Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег.

Привет, Хабр! Это Александр Нагаев, техлид из SberDevices команды R&D компьютерного зрения. Расскажу, как создавать и использовать оптимизированные модели для управления устройствами с помощью жестов.

+18

Marwin 6 мар в 08:42

Как превратить сырые данные в аналитический отчет

Простой

10 мин

3.1K

Визуализация данных * Программирование * C# * Data Mining * MongoDB *

Туториал

Делюсь опытом и готовыми решениями по сбору и структурированию сырых данных, превращая их в полезный инструмент для аналитиков.

+12

3 мар в 14:11

Бегущий по лезвию ИИ — 2025: сезон футурологии на Хабре

4 мин

47K

Блог компании ВТББудущее здесьИскусственный интеллектМашинное обучение * Big Data * Data Mining *

Сезон Будущее здесь

В 2025 году школьники не летают на Марс, автомобили всё так же колесят по земле, а искусственный интеллект, к счастью, не стремится поработить человечество. Но он уже меняет мир вокруг нас, проникая в самые разные сферы жизни. Каким будет наше будущее? Какие технологии определят его облик? В новом сезоне — «Будущее здесь» — предлагаем вместе с нами поразмышлять над этими вопросами.

Думать широко, глубоко и даже дерзко — в духе Хабра, и тема сезона этому способствует. Ведь каждое смелое предсказание — это шаг в неизведанное. А самый смелый шаг заслуживает не только признания, но и крутого приза.

Узнать об условиях и призах

+52

nnazarov 31 янв в 11:42

Прогнозируем движение беспилотного автомобиля (или как я вышел в тройку лидеров на Yandex Cup 2024)

9 мин

2.4K

Блог компании X5 TechМашинное обучение * Data Mining * Искусственный интеллектПрограммирование *

✏️ Технотекст 7

Хабр, привет! Меня зовут Николай Назаров, я работаю аналитиком данных в X5 Tech. Недавно завершился чемпионат по программированию Yandex Cup ML Challenge 2024, в котором я занял второе место в задаче “Self-driving cars: предсказание движения беспилотного автомобиля”. В статье расскажу про задачу и подходы, которые использовал для решения.

+11

FeLkan 13 дек 2024 в 17:19

Как победить рецидив: путеводитель по полю битвы с онкологией

Простой

42 мин

29K

БиологияPython * Визуализация данных * Data Mining * Статистика в IT

FAQ

Итак, дорогие читатели! Сейчас я обучаюсь на 4 курсе (бакалавр) на программиста (направление: Информатика и вычислительная техника) в семестре столкнулся с очень интересным исследовательским проектом, связанным с биоинформатикой! Вместе с заказчиком мы ему дали научное название: «Снижение рисков развития рецидива злокачественного новообразования» и отправляем в долгое плавание!

На примере проекта‑исследования мы хотим рассказать: где искать медицинские данные? Какого это с ними работать? Как правильно подходить к исследовательской задаче и многое другое. Вы даже сами сможете повторить наши результаты, и я уверен, что у вас получится даже лучше.

Что приходит на ум, когда слышите слово «рецидив»? Правильно, возвращение того, от чего вы уже вроде как избавились. Для заболевших пациентов это слово внушает тревогу, а в онкологии и вовсе звучит как зловещий колокол. Но не бойтесь: сегодня мы не только посмеемся над этим монстром, но и узнаем, как ему дать отпор. Спойлер: с помощью науки и чуточки аналитики.

+23

2 3 ...

61 62

Data Mining *

Retrieval-Augmented Generation (RAG): глубокий технический обзор

Новости

Изящные монады точек эллиптической кривой

15 лучших библиотек для визуализации данных, о которых должен знать каждый разработчик

Data Lake 2.0: Iceberg и Parquet в бою за миллисекунды

MCP: новая игра на рынке искусственного интеллекта

Чем живут создатели ИИ? ML’щики, приоткройте чёрный ящик, расскажите о себе в нашем опросе

Вычисляем коэффициент популярности крейтов Rust для работы и для хобби-проектов

Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения

Когда Excel превращается из помощника во вредителя

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Теория мертвого 2GIS

Поддержка RUTUBE 2.0: как мы научили бота не ломаться на сложных вопросах

Гайд по Scikit-learn в 2025: собираем пайплайн, который не сломается

Ближайшие события

Как спрогнозировать вес птицы с помощью XGBoost: от предобработки данных до оптимизации модели

Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями

Мир будущего: управление устройствами с помощью жестов

Как превратить сырые данные в аналитический отчет

Бегущий по лезвию ИИ — 2025: сезон футурологии на Хабре

Прогнозируем движение беспилотного автомобиля (или как я вышел в тройку лидеров на Yandex Cup 2024)

Как победить рецидив: путеводитель по полю битвы с онкологией

Вклад авторов