Все потоки

Data Mining *

Глубинный анализ данных

23,63

Рейтинг

СтатьиПостыНовостиАвторыКомпании

IgorBatanov 5 мар в 13:16

Как я готовился к Честному знаку и разработал подход к нормализации данных

Простой

12 мин

9.1K

Big Data * Data Mining * Искусственный интеллект

Из песочницы

Я работаю в компании, которая занимается автозапчастями. Не буду называть бренд, но представьте любой крупный интернет-магазин запчастей — у нас всё примерно так же.

Десять лет всё работало. Поставщики присылали прайсы, менеджеры загружали. В 90% случаев клиенты искали товар по артикулу — просто вбивали номер и получали результат. Оставшиеся 10% запросов — это названия вроде «хомут бмв х5». И поиск как-то справлялся.

Да, в базе была каша: один и тот же товар мог называться «Хомут винт. BMW X5/E81» и «Хомут крепления топливного шланга 12мм для BMW». Но артикулы вывозили, а на остальное закрывали глаза.

А потом мы узнали про Честный знак.

Читать далее

+11

Assa99habr 4 мар в 21:40

Chief AI Officer

Средний

6 мин

7.5K

Data Mining * Data Engineering * Developer Relations * IT-стандарты * Анализ и проектирование систем *

Мнение

Recovery Mode

Зачем бизнесу новая позиция в C-suite и что она означает на практике

Когда одни компании обсуждают, нужен ли им ИИ, другие уже нанимают человека, который будет отвечать за него (или сейчас сам сидит и пилит ИИ-агентов ) и все это на уровне совета директоров. Chief AI Officer — позиция, которая ещё три года назад звучала как фантастика, сегодня становится такой же обычной как СТО (ТехДир), CFO (ФинДир)или CHRO (HR).

Ну и что это за роль такая, откуда она взялась, чем отличается от CTO и CDO(Chief Digital Officer — директор по цифровой трансформации (это в больших банках есть такая позиция)), какие технические компетенции требует — и нужен ли он вам сегодня или как обычно, уже вчера.

Читать далее

-2

azTotMD 2 мар в 22:47

А если агенту не платить? Альтернативная механика обучения с подкреплением

Средний

12 мин

7.6K

Data Mining * Искусственный интеллектМашинное обучение * Разработка игр *

Кейс

В машинном обучении есть такой метод - обучение с подкреплением (reinforcement learning, RL), который используется для решения задач последовательного принятия решений. В этом методе агент на каждом шаге взаимодействует со средой, изменяя её. Обратной связью для него является некая искусственно сконструированная награда, которая выдаётся на каждой итерации взаимодействия. Основная проблема в том, что действие и награда напрямую не коррелируют. Часто, награда назначается за какое-то финальное достижение, которого можно достичь только выполнив определенную последовательность действий с нулевым или даже отрицательным вознаграждением. Существуют различные способы "протянуть" награду вдоль всей траектории, чтобы в конце концов агент осваивал более-менее приемлемую стратегию поведения.

Удивительно, но обучение с подкреплением никак не использует информацию о том, какие изменения происходят в среде в результате выбранного агентом действия, а только скалярную величину награды. В этом небольшом эксперименте, мы хотим проверить, может ли эта информация как-то быть обработана и использована для построения стратегии агента.

Читать далее

+1

bredd_owen 2 мар в 11:21

Как меня опрокинул автоматический скоринг Сбера

Средний

23 мин

16K

Программирование * Python * Data Engineering * Data Mining *

Кейс

Эта статья - не попытка критиковать конкретный банк и не утверждение, что алгоритм ошибся. Я не знаю внутренних правил скоринга, не видел модели и не утверждаю, что решение было неверным.

Это разбор частного случая глазами человека, который внезапно оказался в очень неприятной жизненной ситуации в связи с тем, что в ответственный момент классификатор «принял решение» об отказе в ипотеке. В данный момент ситуация продолжает оставаться неясной и я нахожусь в стрессе. В какой-то степени, попытка хоть как-то разобраться в том, какие факторы повлияли на отказ в выдаче ипотеки, хоть как-то снижает уровень стресса.

Читать далее

+60

ozand 1 мар в 11:15

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

Средний

10 мин

9K

Data Mining * GitHub * Open source * Искусственный интеллект

Из песочницы

Вчера вечером листал Telegram и наткнулся на пост в канале midov_channel (пост 775). У Ислама обсуждается пост в reddit в котором активно дискутируют, что 211 тысяч звёзд у репозитория — это «Fake stars, боты накручивают» .

Активно использую последнию неделю OpenClaw , имею своё мнение, и понимаю почему такой вопрос возникает: 211 тысяч звёзд — это много. Конечно, когда видишь такие цифры, первая мысль — «а точно ли это настоящие люди?»

У меня профессиональная деформация - доверяй, но проверяй. Всё таки 15 лет развивал департаменты Data и аналитики в L'Oreal. Это также трансформировалось в текущий мой бизнес AYGA Data & AI, где мы, с агентамиработаю в формате AI-first компании, привыкли к другому подходу — не спорить, а проверять. Есть гипотеза — есть данные. Данные либо подтверждают, либо опровергают.

Собственно, поэтому вчера дал своему агенту Gubin задачу: собрать все 211 тысяч профилей stargazers репозитория и провести forensic-анализ. Не выборку, не 1% — все до единого.

Через полтора часа Агент Губин прислал мне в телеграмм презентация из 14 слайдов. Дальше — разбор каждого из листа презентации.

Читать далее

+12

FeLkan 25 фев в 14:53

Data-driven корова: как мы строим SaaS для геномной селекции и решаем проблемы «грязных» данных в агротехе

Простой

5 мин

6.9K

Искусственный интеллектData Mining * Научно-популярноеБиотехнологииРазвитие стартапа

Кейс

Большинство данных на фермах оседает в Excel-таблицах и тетрадках зоотехников. Вместе с командой Genome AI (акселератор Talent Hub ИТМО и Napoleon IT) разбираемся, как машинное обучение превращает генетический «шум» в прогнозы продуктивности. В статье — про гибридные модели (CatBoost + PyTorch), работу с SNP-маркерами, кривые лактации и то, зачем корове цифровой двойник. Без абстракций — только код на R, визуализации и архитектура пайплайна.

Читать далее

+5

kanasero 24 фев в 07:10

Работа с объемными данными в Python для начинающих

Простой

6 мин

6K

Python * Big Data * Data Engineering * Data Mining *

Наверняка каждый, кто начинает погружаться в анализ данных, сталкивался с этой классической проблемой. Вы скачиваете гигантский CSV-файл, по привычке пишете pd.read_csv(), запускаете ячейку и... кулеры начинают выть, система жутко тормозит, а в итоге скрипт падает с ошибкой нехватки памяти.

Первая мысль в такой ситуации — нужен компьютер помощнее или облачный сервер. На самом деле, чтобы переваривать огромные файлы, вовсе не обязательно наращивать оперативку. Проблема кроется в том, что по умолчанию мы пытаемся запихнуть весь объем данных в память целиком.

Существует довольно много простых техник, которые позволяют обойти это ограничение. Ниже мы разберем несколько таких приемов, которые спасают, когда ваши данные переросли возможности вашего железа. Пойдем от самых базовых к чуть более продвинутым.

Читать далее

+7

maksimov_m 21 фев в 14:56

Метрики для задач NLP. Часть 2. Генерация текста: BLEU, ROUGE, METEOR, BERTScore

Средний

17 мин

6.1K

Python * Natural Language Processing * Машинное обучение * Data Mining *

Туториал

В этой статье будет рассказано о популярных метриках оценки для задач генерации текста: BLEU, ROUGE, METEOR, BERTScore. Рассказ будет сопровождаться визуализацией, примерами и кодом на Python.

🔥 Начинаем 🔥

+2

denoiselab 19 фев в 14:58

Пилот взлететел, полет нормальный

Простой

15 мин

7.1K

ХакатоныАнализ и проектирование систем * Data Engineering * Data Mining * Машинное обучение *

Репортаж

А никто не обещал, что на хакатоне будет легко.

Небольшой репортажэ, про то как мы проводили Хакатон сред студентов по машинному обучению и анализу данных. Реальный разбор подготовки, фишки, плюсы и работа на хакатоне глазами организаторов.

Читать далее

+2

screemix 19 фев в 06:17

Wikontic: строим графы из текстов, используя онтологию и LLM

Сложный

17 мин

7K

Блог компании AIRIАлгоритмы * Искусственный интеллектNatural Language Processing * Data Mining *

Кейс

Привет, Хабр! Это Алла, я работаю исследователем в команде «Модели с памятью» Лаборатории когнитивных систем искусственного интеллекта Института AIRI и занимаюсь исследованиями на стыке графов знаний и языковых моделей. Ранее я уже писала на Хабре статью про построение графов знаний из текстов по мотивам одной из наших публикаций.

Мы активно продолжаем работать дальше и создали Wikontic — полноценный пайплайн для этой задачи. Недавно мы представляли его на интерактивной демо‑сессии на AAAI 2026 в Сингапуре — про это несколько дней назад вышел хабр от моего коллеги Айдара. Здесь я расскажу подробнее о том, как устроен новый пайплайн, и какие идеи пришли к нам в голову при его создании.

Читать далее

+4

shappiron 16 фев в 13:33

Рассчитать биологический возраст? Можно, а зачем?

Средний

20 мин

6.3K

Блог компании AIRIЗдоровьеБиотехнологииМашинное обучение * Data Mining *

Мнение

Привет Хабр! На связи снова Дмитрий Крюков, руководитель группы «Исследования биомаркеров» лаборатории «Сильный ИИ в медицине» Института AIRI. Недавно мы с коллегами выпустили статью в npj Aging, в которой изрядно покритиковали калькуляторы биологического возраста (они же часы старения) и попытались поставить под сомнение саму возможность и даже необходимость расчёта биологического возраста.

О некоторых проблемах часов старения я уже писал здесь, но, по правде говоря, в тот раз я коснулся лишь верхушки айсберга. Чтобы продемонстрировать всю сложность и неоднозначность этого понятия и стоящих за ним математических определений, мне нужно рассказать эту историю в хронологическом и, наверное, логическом порядке (хотя некоторые детали я все же опущу для удобства восприятия) — и выход новой статьи стал для этого отличным поводом.

Внимательно прочитав этот пост вы наверняка сможете сами рассчитать биологический возраст, при условии, что владеете минимальным кодингом (ну или хотя бы вайб‑кодингом). И, поверьте, у вас получится это не хуже, чем многих из тех, кто предлагают свои решения как сервис (примеры: [1, 2, 3, 4, 5, 6, 7]). С другой стороны, если вы прочитаете пост второй раз, вы скорее всего поймёте, что хорошо оценить биологический возраст на самом деле очень трудно и, возможно, не стоит даже пытаться.

Читать далее

+6

O_oscar 14 фев в 06:16

Когда недостаточно ошибок I/II рода и нужно уточнить результат A/B теста

Простой

6 мин

6.6K

Data Mining * Статистика в ITМашинное обучение * Математика *

Из песочницы

Для запуска А/В теста необходимым минимумом является фиксация ошибок первого и второго рода, расчет MDE (минимальный наблюдаемый эффект). Однако при расчете результатов теста далеко не всегда получается достичь MDE заданного размера, в таком случае статистическая значимость результатов не будет достигнута. Помимо этого даже при статистически значимом результате существует вероятность ошибки, при которой наши результаты являются выбросом или просто случайностью. Как быть в таком случае?

Узнать больше!

+2

stolyarov_dimitriy 11 фев в 14:16

Собрать данные с автосимулятора: как Assetto Corsa стала живым датасетом

Средний

6 мин

8K

Data Mining * Data Engineering * Визуализация данных * C# *

Из песочницы

229 заездов, 140 пилотов, 28 часов работы — столько данных мы собрали из Assetto Corsa за три дня SOC Forum 2025.

Мы превратили обычный гоночный симулятор в источник телеметрии: забирали данные из игры, строили дашборды в реальном времени и даже придумали ачивки для самых отчаянных пилотов.

Рассказываю, как устроен сбор данных из игровых симуляторов, что можно из них вытянуть и зачем это бизнесу.

Читать далее

+2

Sherstpasha 9 фев в 06:06

Генетическое программирование: от теории к практике

Средний

13 мин

12K

Python * Искусственный интеллектМашинное обучение * Data Mining *

Туториал

✏️ Технотекст 8

Сегодня все говорят о больших языковых моделях и глубоком обучении, но помимо них существуют альтернативные методы, которые умеют находить нетривиальные решения и хорошо работают в самых разных задачах.

Что будет, если поручить эволюционному алгоритму самому «придумать» формулу? Разбираем генетическое программирование на наглядных примерах: от восстановления тригонометрических функций и символьной регрессии на реальном датасете до оптимизации структуры нейросетей — все эксперименты воспроизводимы в Google Colab.

Читать далее

+38

aeremenok 6 фев в 17:17

Апокалипсис как датасет: провал и наследие Николая Морозова

Простой

13 мин

9.9K

Научно-популярноеНаучная фантастикаData Mining *

Ретроспектива

В первой статье я рассказывал о Николае Морозове — человеке, который 21 год в одиночной камере превратил в аспирантуру. 26 томов, 11 языков, карьера до 92 лет.

Один из его принципов — любой доступный ресурс становится материалом для роста. Книг не давали, только Библию. Кто-то бы отчаялся. Морозов открыл Апокалипсис и начал искать в нём астрономию.

Из этого вырос самый спорный его проект — «новая хронология»: попытка пересчитать историю человечества через точные науки. Выводы оказались ошибочными. Но вопрос, который он задал — «можно ли проверять историю методами точных наук?» — оказался правильным.

Эта статья — о том, что случилось с Библией в руках естествоиспытателя. И о том, почему хороший метод не спасает от плохих выводов.

Читать далее

+5

nnazarov 28 янв в 09:45

Оптимизация маршрутов доставки заказов маркетплейса или как мы победили в E-CUP 2025

11 мин

4.1K

Блог компании X5 TechPython * Алгоритмы * Машинное обучение * Data Mining *

Хабр, привет! Недавно завершилось ML-соревнование E-CUP 2025. Наша команда из X5 Tech заняла первое место в треке «Логистика: автопланирование курьеров», где было нужно оптимизировать время, затрачиваемое курьерами на доставку 20 000 заказов. В статье расскажем про подходы, которые использовали для решения этой задачи. Посмотрим, во сколько раз можно сжать JSON с матрицей расстояний. Какой код мы использовали для быстрого решения задачи TSP с помощью LKH-3. Обсудим, на что обращать внимание при кластеризации заказов.

Постановка задачи

Требовалось распределить порядка 20 000 заказов между 280 курьерами и построить для каждого из них маршрут так, чтобы минимизировать их суммарное время работы. Оно складывалось из времени перемещения курьеров между заказами и времени выполнения самих заказов (service time). За каждый невыполненный заказ добавлялся штраф 3000 секунд...

Читать далее

+10

AleksaPro 27 янв в 13:37

Доматчинг товаров с использованием LLM: от промптов до квантизации

Сложный

9 мин

8K

Блог компании ecom.techМашинное обучение * Big Data * Data Mining *

Кейс

✏️ Технотекст 8

Привет, Хабр! На связи команда продуктового матчинга ecom.tech. Наша команда решает задачи поиска, группировки и сопоставления товаров с помощью алгоритмов машинного обучения. Все это необходимо для развития и улучшения бизнес-процессов в компании, а именно быстрого заведения карточек товаров, мониторинга цен на товары и развития ML. В этой статье мы расскажем про доматчинг – сравнение сложных пар товаров, которые отобрали на предыдущем этапе пайплайна, с помощью LLM. Поехали!

Читать далее

+8

georfed 26 янв в 12:37

BLIMP — Пайплайн синтеза и разметки изображений в Blender

Средний

25 мин

6.4K

Обработка изображений * Искусственный интеллектData Engineering * Data Mining * 3D-графика *

Кейс

Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”.

Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК.

Погрузиться в Blender

+8

mmshaa9 26 янв в 07:28

Поведение вместо плотности: динамический взгляд на кластеризацию

9 мин

3.4K

Мнение

Несмотря на использование биологических аналогий, предлагаемый метод не относится к quorum sensing clustering в классическом смысле.
В работах, вдохновлённых quorum sensing, сигнал напрямую связан с локальной плотностью и используется как механизм адаптивного выбора радиуса влияния или порога плотности. Фактически такие методы остаются плотностными моделями кластеризации с биологической мотивацией (см., например, arXiv:1303.3934).

В предлагаемом подходе сигнал имеет иную природу.
Он не отражает количество соседей и не служит индикатором принадлежности к кластеру, а представляет собой внутреннее бинарное состояние агента, определяющее режим его локального взаимодействия с окружением.

Кластеризация в этой модели не является результатом разбиения пространства по геометрическим признакам. Она возникает как побочный эффект динамики, в которой устойчивые коллективные режимы поведения формируются, стабилизируются и защищаются через локальные правила взаимодействия.

Читать далее

+3

gladysea 22 янв в 17:56

Индекс Шивы: ловушка простых правил на рынке труда

7 мин

9K

Data Mining * Карьера в IT-индустрииУправление разработкой * Исследования и прогнозы в IT * Статистика в IT

Аналитика

Если вакансия длиннее 7000 символов, шанс встретить в ней манипуляцию или хаос — 61.5%. Это правило «рынка лимонов» работает почти идеально.

Но оно же — ловушка.

Индекс Шивы (текст / зарплата) — это инструмент диагностики, который помогает отличить необходимую сложность от словесного шума. Датасет из 48 000 вакансий.

Читать далее

+7

2

3 4 ...