Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

vonirug 4 июн в 08:02

Data Mesh: ожидания vs реальность

Средний

10 мин

2.7K

Блог компании Лемана ТехData Mining * Big Data * Data Engineering * Хранение данных *

Представьте: ваш бизнес растет, а вместе с ним и количество данных. Но вместо ценной аналитики — хаос: отчеты готовятся месяцами, данные разбросаны по Excel-файлам, а команда DWH не успевает закрывать запросы. Знакомо? Мы прошли через это и решили внедрить Data Mesh. Ожидания были амбициозные, но что получилось на самом деле?

tretiakov_dm 2 июн в 11:40

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Средний

7 мин

1.9K

Блог компании Lenta techPython * Data Mining * Data Engineering * Big Data *

Кейс

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

kucev 2 июн в 11:00

Что скрывается за MCP-сервером и почему он может заменить RAG

4 мин

5.5K

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Область искусственного интеллекта стремительно развивается, открывая новые способы повышения эффективности их работы и интеграции с данными в реальном времени. Одним из последних достижений стал Model Context Protocol (MCP) — открытый стандарт, позволяющий AI-моделям напрямую обращаться к файлам, API и инструментам без необходимости в промежуточных этапах, таких как создание эмбеддингов или векторный поиск. В этой статье мы рассмотрим, что такое MCP-сервер, как он работает и почему он может изменить будущее AI.

-5

tsaregorodtsev 1 июн в 14:29

Финты справедливости

Средний

8 мин

556

Data Mining * Визуализация данных * Инфографика

Аналитика

Очередной футбольной сезон заканчивается. Самое время вернуться к вопросам справедливости. Давайте попробуем её измерить? Ну хотя бы в футболе.

Какова роль случая в спорте? Действительно ли плей-офф - это лотерея? Портит ли нам впечатление от игры новая схема розыгрыша лиги чемпионов?

Давайте построим много-много графиков и закроем уже этот гештальт.

-1

kucev 27 мая в 13:10

AI-агент говорит, что всё сделал. А ты уверен? Что нужно знать про оценку

6 мин

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Оценка AI-агентов — это процесс анализа и понимания того, насколько эффективно AI-агент выполняет задачи, принимает решения и взаимодействует с пользователями. В силу их автономной природы, качественная оценка агентов необходима для обеспечения их корректного функционирования. AI-агенты должны действовать в соответствии с замыслом разработчиков, быть эффективными и соответствовать определенным этическим принципам AI, чтобы удовлетворять потребности организации. Процесс оценки помогает удостовериться, что агенты соответствуют указанным требованиям.

Conzol 27 мая в 10:04

ClickHouse как DWH: Производительность без боли и ловушки merge-таблиц

Средний

12 мин

2.1K

Data Engineering * Data Mining *

Недавно перед нашей командой встала непростая задача: объем данных для аналитики вырос до 300 миллионов строк в день. Прежние решения перестали справляться с такой нагрузкой, отчеты строились слишком медленно, а масштабировать существующую систему было дорого и сложно. Нужно было срочно находить новое решение для хранилища данных (DWH), способное глотать миллионы строк ежедневно и отдавать результат аналитических запросов практически мгновенно.

После оценки различных вариантов (классические СУБД, облачные DWH и др.) мы остановились на ClickHouse. Эта колоночная база данных открытого кода изначально создавалась для работы с большими объемами потока событий. ClickHouse славится впечатляющей скоростью агрегаций и фильтрации на терабайтах данных и отлично подходит для аналитики при больших нагрузках. В этой статье расскажем, как мы выбрали и внедрили ClickHouse в нашем проекте, построив систему сбора и анализа данных с нагрузкой сотни миллионов строк в сутки.

Поговорим об архитектуре (как данные летят из Kafka в ClickHouse), о двух подходах загрузки данных (пакетная и стриминговая), о том, какие табличные движки ClickHouse мы использовали и зачем, как нам помогли материализованные представления, об оркестрации процессов через Airflow и dbt. Отдельно разберем типичные ошибки, с которыми столкнулись в процессе, и поделимся улучшениями, которые планируем учесть при следующей реализации подобного решения.

xenon 27 мая в 08:25

Теория мертвого 2GIS

Простой

62 мин

38K

Геоинформационные сервисы * Информационная безопасность * Медийная реклама * Data Mining * IT-компании

Аналитика

Выбрали хороший ресторан (врача, СТО, юриста, риэлтора) по отзывам и высокому рейтингу в 2GIS, а оказалось, что там если не ужас-ужас-ужас, то как-то средне, явно не похоже на то, что вы бы ожидали от рейтинга 4.8 или даже 5 баллов. Знакомо?

Все знают, что в 2GIS могут быть накрученные фейковые отзывы (а их там всего 10-20 на весь город или там 99% фейковых? Есть ведь разница!), но не все умеют их легко опознавать. У 2gis, похоже, еще нет антифрода (что вполне нормально для пет-проекта, который делают веб-программисты в свободное время), но вы теперь можете различать ботов-зомби-инопланетян через мой антифрод af2gis, и выбирать себе те заведения, которые нравятся людям, а не ботам.

Статья будет длинная (она про все подряд о чем я думал и с чем разбирался последнее время), но тех, кто ее прочитает ждет фантастическая награда! Они смогут ходить в самые лучшие заведения города, их будут обслуживать самые красивые и шустрые официантки, еда будет очень вкусной, порции огромными и все это за довольно разумные деньги! Такие места есть, живые люди их любят и ставят им высокие оценки, а боты - любят другие заведения. Нужно только надеть волшебные очки чтобы увидеть, какие заведения хвалят люди, а какие - боты.

Прочитать и получить волшебные очки!

+553

305

vlenshin 22 мая в 14:18

Поддержка RUTUBE 2.0: как мы научили бота не ломаться на сложных вопросах

19 мин

1.9K

Блог компании RUTUBEИскусственный интеллектМашинное обучение * Natural Language Processing * Data Mining *

Как у нас в RUTUBE ИИ и служба клиентского сервиса работают сообща, вместе справляются ростом сервиса и мгновенно адаптируются к изменениям — рассказываем в этой статье. Делимся рецептом RAG-системы, которая за первые три месяца эксплуатации уже отвечает почти на 70% запросов пользователей и никогда не врёт про «космических зайцев».

+10

kirakirap 21 мая в 11:14

Гайд по Scikit-learn в 2025: собираем пайплайн, который не сломается

Простой

30 мин

10K

Блог компании НетологияData Mining * Data Engineering * Python * Машинное обучение *

Туториал

Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете с PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit, predict, score — через sklearn.

В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами.

Мы подготовили гайд, как работать со scikit-learn в 2025 году. Новичкам он поможет собрать первую ML-задачу — с данными, моделью и метриками. А тем, кто уже использует библиотеку, — освежить знания и понять, что изменилось в новых версиях.

Почитать гайд →

+14

Conzol 20 мая в 08:36

Apache Kafka на слое Stage аналитической платформы: зачем, как и грабли на пути

Средний

16 мин

648

Data Mining * Data Engineering *

Обзор

Всем привет! В этой статье поделюсь нашим опытом использования Apache Kafka на слое Stage в аналитической архитектуре. Мы поговорим о том, что такое слой Stage и зачем он нужен, почему именно Kafka стала нашим выбором, как устроен процесс ingest (приёма данных) на базе Kafka, что можно и чего делать не стоит на этом этапе, какие грабли нас ждали и как мы их преодолели, а также дам практические советы из реального опыта. Спойлер: Kafka оказалась не просто очередным модным словом, а действительно упростила нам жизнь в аналитическом проекте. Поехали!

AskePit 16 мая в 14:42

Заставляем ботов бесконечно играть в карты. Часть 2

Средний

14 мин

994

Python * Data Mining *

Туториал

Продолжаем заставлять ботов бесконечно играть в карты в надежде вытрясти оптимальные настройки для нашей карточной игры. Первая часть эпопеи находится здесь. Очень рекомендуется ознакомиться с ней, иначе будет очень трудно быть с контексте.

Итак, в предыдущих сериях мы: познали боль и дисбаланс; написали логику карточной игры на питоне; внедрили в игру ботов и заставили их играть друг с другом тысячи и тысячи партий; описали метрики, которые мы собираем с игры; пообещали себе, что доведем дело до конца и получим оптимальные настройки карточной игры

asanina_sonya 15 мая в 08:28

Разведочный анализ данных (EDA) через тематическое моделирование и мягкую кластеризацию

15 мин

1.6K

Блог компании ГазпромбанкМашинное обучение * Data Mining * Data Engineering *

Привет! Меня зовут Соня Асанина, я работаю в команде Центра технологий искусственного интеллекта Газпромбанка. В этой статье я расскажу, как тематическое моделирование и мягкая кластеризация помогают нам извлекать ценные инсайты из клиентских отзывов.

Каждый день мы получаем тысячи отзывов от клиентов. В каждом есть информация, которая помогает выявлять проблемы и дает понимание, как улучшать продукты и сервисы. Но часто очень сложно извлечь эти инсайты из огромного потока неструктурированных данных.

К примеру, мы получаем отзыв, в котором клиент недоволен кредитной картой и предлагает что-то изменить в приложении, но при этом выражает благодарность за вежливое обслуживание в отделении. К какой категории отнести отзыв? А если таких смешанных отзывов тысячи — как определить, какие продукты действительно требуют улучшения, а какие работают отлично?

Обрабатывать вручную такой поток сложно. А классические методы анализа часто не справляются с этой задачей, поскольку загоняют многогранные пользовательские отзывы в жесткие рамки одиночных категорий. Расскажу, как мы использовали для этого более гибкие инструменты — тематическое моделирование и мягкую кластеризацию.

kucev 14 мая в 11:10

LLM-судья: как LLM отсекает правду от лжи?

28 мин

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

LLM-as-a-judge — распространённая техника оценки продуктов на основе LLM.

Популярность этой техники обусловлена практичностью: она представляет собой удобную альтернативу дорогостоящей человеческой оценке при анализе открытых текстовых ответов.

Оценивать сгенерированные тексты сложно, будь то «простой» саммари или диалог с чат-ботом. Метрики типа accuracy плохо работают, поскольку «правильный» ответ может быть сформулирован множеством способов, не обязательно совпадающих с образцом. Кроме того, стиль или тон — субъективные характеристики, которые сложно формализовать.

Люди способны учитывать такие нюансы, но ручная проверка каждого ответа плохо масштабируется. В качестве альтернативы появилась техника LLM-as-a-judge: для оценки сгенерированных текстов используются сами LLM. Интересно, что LLM одновременно являются и источником проблемы, и её решением!

Conzol 13 мая в 08:00

Концепция построения централизованной аналитики

Простой

6 мин

2.6K

Визуализация данных * Data Engineering * Data Mining *

Централизованная аналитика — это фундамент эффективного принятия решений в компании. Чтобы данные действительно работали на бизнес, они должны пройти путь от извлечения до представления в понятной форме. Один из наиболее известных и проверенных временем подходов — архитектура, построенная на четырех ключевых модулях: интеграция, обработка, представление и управление. В этой статье мы познакомимся с каждым из них, а также рассмотрим один из рабочих вариантов реализации (DQ, BI, метаданные и др.).

kucev 5 мая в 11:00

Что покажет бенчмарк? Оценка мультиагентных систем в действии

6 мин

342

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

Изучим бенчмарк для мультиагентных систем, его методологии и применение в оценке производительности агентов в сложных средах.

welcome2hype 3 мая в 16:11

Глубокое Q-обучение (DQN)

Сложный

9 мин

2.8K

R * Алгоритмы * Математика * Data Mining * Искусственный интеллект

Подходит к завершению серия моих публикаций про использование идей искусственного интеллекта для решения задачи коммивояжера (TSP).

В этой заметке помогаю разобраться в авторской реализации Deep Q-learning для TSP.

kucev 1 мая в 11:00

Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

15 мин

2.3K

Data Engineering * Big Data * Машинное обучение * Искусственный интеллектData Mining *

Перевод

LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием.

Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.

MrSotnik 29 апр в 08:39

Data Science в рекрутинге: как структурировать хаос резюме и находить лучших кандидатов. (часть 1)

3 мин

323

Big Data * Открытые данные * ИнтервьюData Engineering * Data Mining *

Подбор персонала — это поиск иголки в стоге сена, с одной оговоркой: иголка должна хотеть работать именно у вас. Когда на входе — сотни резюме с hh.ru, а на выходе нужно выбрать топ-5 кандидатов, без автоматизации не обойтись. Но как научить алгоритм отличать будущего топ-менеджера от человека, который в графе «Опыт работы» указал «10 лет в Minecraft»?

kucev 28 апр в 11:00

Хочешь умного агента? Научись оценивать его правильно

8 мин

906

Data Mining * Искусственный интеллектМашинное обучение * Big Data * Data Engineering *

Перевод

В середине 2024 года AI-агенты стали главной темой обсуждений в технологическом сообществе — с помощью них теперь выполняют множество задач от заказа ингредиентов для ужина до бронирования билетов и записи на прием к врачу. Затем появились вертикальные AI-агенты — узкоспециализированные системы, о которых заговорили как о потенциальной замене привычных SaaS-решений. Но по мере роста влияния агентов увеличиваются и риски, связанные с их преждевременным внедрением.

Недостаточно протестированный AI-агент может стать источником множества проблем: от неточных предсказаний и скрытых байасов до плохой адаптивности и уязвимостей в безопасности. Такие ошибки дезориентируют пользователей и подрывают доверие к системе, нарушая принципы fairness и транспарентности.

Если вы разрабатываете AI-агента, наличие чёткой стратегии безопасного деплоймента критически важно. В этой статье мы рассмотрим, почему тщательная валидация необходима, разберём пошаговые подходы к тестированию и методы проведения комплексной оценки AI-агентов для обеспечения их надёжного развертывания.

bi-denvic 24 апр в 13:52

Эра Big Data: новые возможности в принятии решений

Средний

6 мин

1.4K

Big Data * Data Engineering * Data Mining * Open source *

Аналитика

Big Data - это огромные объёмы данных, которые невозможно обработать с помощью традиционных методов.

Они могут быть структурированными (например, данные из баз данных) или неструктурированными (например, текстовые данные из социальных сетей).

Большие данные представляют собой колоссальные массивы информации, генерируемые в процессе повседневной деятельности индивидов и организаций.

Эти данные аккумулируются, подвергаются обработке и анализу с применением специализированных технологий и методологий, что позволяет извлекать из них ценные инсайты и прогнозировать будущие тенденции.

Подробнее читать статью

1 2 ...

5 6

8 9 ...

113 114

Data Mining *

Data Mesh: ожидания vs реальность

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Что скрывается за MCP-сервером и почему он может заменить RAG

Финты справедливости

AI-агент говорит, что всё сделал. А ты уверен? Что нужно знать про оценку

ClickHouse как DWH: Производительность без боли и ловушки merge-таблиц

Теория мертвого 2GIS

Поддержка RUTUBE 2.0: как мы научили бота не ломаться на сложных вопросах

Гайд по Scikit-learn в 2025: собираем пайплайн, который не сломается

Apache Kafka на слое Stage аналитической платформы: зачем, как и грабли на пути

Заставляем ботов бесконечно играть в карты. Часть 2

Разведочный анализ данных (EDA) через тематическое моделирование и мягкую кластеризацию

LLM-судья: как LLM отсекает правду от лжи?

Ближайшие события

Концепция построения централизованной аналитики

Что покажет бенчмарк? Оценка мультиагентных систем в действии

Глубокое Q-обучение (DQN)

Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

Data Science в рекрутинге: как структурировать хаос резюме и находить лучших кандидатов. (часть 1)

Хочешь умного агента? Научись оценивать его правильно

Эра Big Data: новые возможности в принятии решений

Вклад авторов