Обновить
37.97

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Chief AI Officer

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели1.7K

Зачем бизнесу новая позиция в C-suite и что она означает на практике

Когда одни компании обсуждают, нужен ли им ИИ, другие уже нанимают человека, который будет отвечать за него (или сейчас  сам сидит и пилит ИИ-агентов ) и все это на уровне совета директоров. Chief AI Officer — позиция, которая ещё три года назад звучала как фантастика, сегодня становится такой же обычной как СТО (ТехДир), CFO (ФинДир)или CHRO (HR).

Ну и что это за роль такая, откуда она взялась, чем отличается от CTO и CDO(Chief Digital Officer — директор по цифровой трансформации (это в больших банках есть такая позиция)), какие технические компетенции требует — и нужен ли он вам сегодня или как обычно, уже вчера.

Читать далее

Новости

А если агенту не платить? Альтернативная механика обучения с подкреплением

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели7.2K

В машинном обучении есть такой метод - обучение с подкреплением (reinforcement learning, RL), который используется для решения задач последовательного принятия решений. В этом методе агент на каждом шаге взаимодействует со средой, изменяя её. Обратной связью для него является некая искусственно сконструированная награда, которая выдаётся на каждой итерации взаимодействия. Основная проблема в том, что действие и награда напрямую не коррелируют. Часто, награда назначается за какое-то финальное достижение, которого можно достичь только выполнив определенную последовательность действий с нулевым или даже отрицательным вознаграждением. Существуют различные способы "протянуть" награду вдоль всей траектории, чтобы в конце концов агент осваивал более-менее приемлемую стратегию поведения.

Удивительно, но обучение с подкреплением никак не использует информацию о том, какие изменения происходят в среде в результате выбранного агентом действия, а только скалярную величину награды. В этом небольшом эксперименте, мы хотим проверить, может ли эта информация как-то быть обработана и использована для построения стратегии агента.

Читать далее

Как меня опрокинул автоматический скоринг Сбера

Уровень сложностиСредний
Время на прочтение23 мин
Охват и читатели14K

Эта статья - не попытка критиковать конкретный банк и не утверждение, что алгоритм ошибся. Я не знаю внутренних правил скоринга, не видел модели и не утверждаю, что решение было неверным.

Это разбор частного случая глазами человека, который внезапно оказался в очень неприятной жизненной ситуации в связи с тем, что в ответственный момент классификатор «принял решение» об отказе в ипотеке. В данный момент ситуация продолжает оставаться неясной и я нахожусь в стрессе. В какой-то степени, попытка хоть как-то разобраться в том, какие факторы повлияли на отказ в выдаче ипотеки, хоть как-то снижает уровень стресса.

Читать далее

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели8.3K

Вчера вечером листал Telegram и наткнулся на пост в канале midov_channel (пост 775). У Ислама обсуждается пост в reddit в котором активно дискутируют, что 211 тысяч звёзд у репозитория — это «Fake stars, боты накручивают» .

Активно использую последнию неделю OpenClaw , имею своё мнение, и понимаю почему такой вопрос возникает: 211 тысяч звёзд — это много. Конечно, когда видишь такие цифры, первая мысль — «а точно ли это настоящие люди?»

У меня профессиональная деформация - доверяй, но проверяй. Всё таки 15 лет развивал департаменты Data и аналитики в L'Oreal. Это также трансформировалось в текущий мой бизнес AYGA Data & AI, где мы, с агентамиработаю в формате AI-first компании, привыкли к другому подходу — не спорить, а проверять. Есть гипотеза — есть данные. Данные либо подтверждают, либо опровергают.

Собственно, поэтому вчера дал своему агенту Gubin задачу: собрать все 211 тысяч профилей stargazers репозитория и провести forensic-анализ. Не выборку, не 1% — все до единого.

Через полтора часа Агент Губин прислал мне в телеграмм презентация из 14 слайдов. Дальше — разбор каждого из листа презентации.

Читать далее

Data-driven корова: как мы строим SaaS для геномной селекции и решаем проблемы «грязных» данных в агротехе

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.7K

Большинство данных на фермах оседает в Excel-таблицах и тетрадках зоотехников. Вместе с командой Genome AI (акселератор Talent Hub ИТМО и Napoleon IT) разбираемся, как машинное обучение превращает генетический «шум» в прогнозы продуктивности. В статье — про гибридные модели (CatBoost + PyTorch), работу с SNP-маркерами, кривые лактации и то, зачем корове цифровой двойник. Без абстракций — только код на R, визуализации и архитектура пайплайна.

Читать далее

Работа с объемными данными в Python для начинающих

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели5.9K

Наверняка каждый, кто начинает погружаться в анализ данных, сталкивался с этой классической проблемой. Вы скачиваете гигантский CSV-файл, по привычке пишете pd.read_csv(), запускаете ячейку и... кулеры начинают выть, система жутко тормозит, а в итоге скрипт падает с ошибкой нехватки памяти.

Первая мысль в такой ситуации — нужен компьютер помощнее или облачный сервер. На самом деле, чтобы переваривать огромные файлы, вовсе не обязательно наращивать оперативку. Проблема кроется в том, что по умолчанию мы пытаемся запихнуть весь объем данных в память целиком.

Существует довольно много простых техник, которые позволяют обойти это ограничение. Ниже мы разберем несколько таких приемов, которые спасают, когда ваши данные переросли возможности вашего железа. Пойдем от самых базовых к чуть более продвинутым.

Читать далее

Метрики для задач NLP. Часть 2. Генерация текста: BLEU, ROUGE, METEOR, BERTScore

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели5.7K

В этой статье будет рассказано о популярных метриках оценки для задач генерации текста: BLEU, ROUGE, METEOR, BERTScore. Рассказ будет сопровождаться визуализацией, примерами и кодом на Python.

🔥 Начинаем 🔥

Пилот взлететел, полет нормальный

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели7K

А никто не обещал, что на хакатоне будет легко.

Небольшой репортажэ, про то как мы проводили Хакатон сред студентов по машинному обучению и анализу данных. Реальный разбор подготовки, фишки, плюсы и работа на хакатоне глазами организаторов.

Читать далее

Wikontic: строим графы из текстов, используя онтологию и LLM

Уровень сложностиСложный
Время на прочтение17 мин
Охват и читатели6.6K

Привет, Хабр! Это Алла, я работаю исследователем в команде «Модели с памятью» Лаборатории когнитивных систем искусственного интеллекта Института AIRI и занимаюсь исследованиями на стыке графов знаний и языковых моделей. Ранее я уже писала на Хабре статью про построение графов знаний из текстов по мотивам одной из наших публикаций.

Мы активно продолжаем работать дальше и создали Wikontic — полноценный пайплайн для этой задачи. Недавно мы представляли его на интерактивной демо‑сессии на AAAI 2026 в Сингапуре — про это несколько дней назад вышел хабр от моего коллеги Айдара. Здесь я расскажу подробнее о том, как устроен новый пайплайн, и какие идеи пришли к нам в голову при его создании. 

Читать далее

Рассчитать биологический возраст? Можно, а зачем?

Уровень сложностиСредний
Время на прочтение20 мин
Охват и читатели6K

Привет Хабр! На связи снова Дмитрий Крюков, руководитель группы «Исследования биомаркеров» лаборатории «Сильный ИИ в медицине» Института AIRI. Недавно мы с коллегами выпустили статью в npj Aging, в которой изрядно покритиковали калькуляторы биологического возраста (они же часы старения) и попытались поставить под сомнение саму возможность и даже необходимость расчёта биологического возраста. 

О некоторых проблемах часов старения я уже писал здесь, но, по правде говоря, в тот раз я коснулся лишь верхушки айсберга. Чтобы продемонстрировать всю сложность и неоднозначность этого понятия и стоящих за ним математических определений, мне нужно рассказать эту историю в хронологическом и, наверное, логическом порядке (хотя некоторые детали я все же опущу для удобства восприятия) — и выход новой статьи стал для этого отличным поводом. 

Внимательно прочитав этот пост вы наверняка сможете сами рассчитать биологический возраст, при условии, что владеете минимальным кодингом (ну или хотя бы вайб‑кодингом). И, поверьте, у вас получится это не хуже, чем многих из тех, кто предлагают свои решения как сервис (примеры: [1, 2, 3, 4, 5, 6, 7]). С другой стороны, если вы прочитаете пост второй раз, вы скорее всего поймёте, что хорошо оценить биологический возраст на самом деле очень трудно и, возможно, не стоит даже пытаться.

Читать далее

Когда недостаточно ошибок I/II рода и нужно уточнить результат A/B теста

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели6.4K

Для запуска А/В теста необходимым минимумом является фиксация ошибок первого и второго рода, расчет MDE (минимальный наблюдаемый эффект). Однако при расчете результатов теста далеко не всегда получается достичь MDE заданного размера, в таком случае статистическая значимость результатов не будет достигнута. Помимо этого даже при статистически значимом результате существует вероятность ошибки, при которой наши результаты являются выбросом или просто случайностью. Как быть в таком случае?

Узнать больше!

Собрать данные с автосимулятора: как Assetto Corsa стала живым датасетом

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели7.8K

229 заездов, 140 пилотов, 28 часов работы — столько данных мы собрали из Assetto Corsa за три дня SOC Forum 2025.

Мы превратили обычный гоночный симулятор в источник телеметрии: забирали данные из игры, строили дашборды в реальном времени и даже придумали ачивки для самых отчаянных пилотов.

Рассказываю, как устроен сбор данных из игровых симуляторов, что можно из них вытянуть и зачем это бизнесу.

Читать далее

Генетическое программирование: от теории к практике

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели11K

Сегодня все говорят о больших языковых моделях и глубоком обучении, но помимо них существуют альтернативные методы, которые умеют находить нетривиальные решения и хорошо работают в самых разных задачах.

Что будет, если поручить эволюционному алгоритму самому «придумать» формулу? Разбираем генетическое программирование на наглядных примерах: от восстановления тригонометрических функций и символьной регрессии на реальном датасете до оптимизации структуры нейросетей — все эксперименты воспроизводимы в Google Colab.

Читать далее

Ближайшие события

Апокалипсис как датасет: провал и наследие Николая Морозова

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели9.8K

В первой статье я рассказывал о Николае Морозове — человеке, который 21 год в одиночной камере превратил в аспирантуру. 26 томов, 11 языков, карьера до 92 лет.

Один из его принципов — любой доступный ресурс становится материалом для роста. Книг не давали, только Библию. Кто-то бы отчаялся. Морозов открыл Апокалипсис и начал искать в нём астрономию.

Из этого вырос самый спорный его проект — «новая хронология»: попытка пересчитать историю человечества через точные науки. Выводы оказались ошибочными. Но вопрос, который он задал — «можно ли проверять историю методами точных наук?» — оказался правильным.

Эта статья — о том, что случилось с Библией в руках естествоиспытателя. И о том, почему хороший метод не спасает от плохих выводов.

Читать далее

Гибридный поиск с QWEN3-Max и RoSBERTa или RAG на графах

Уровень сложностиСложный
Время на прочтение6 мин
Охват и читатели7.4K

Начало всех начальных начал 

Добрый день, уважаемые хабропоселенцы;‑) Сегодня мы будем говорить, снова о хакатонах и разработке RAG‑моделей, вернее моделей с RAG‑подходами и наших попытках выйти за рамки простого векторного поиска. Не так давно мы участвовали на всероссийском хакатоне «Альфа‑Будущее», организованным Альфа‑Банком и посвящённому настройке RAG для вопросно‑ответных систем. 

Нам необходимо было создать интеллектуальный pipeline RAG‑системы, которая по пользовательскому запросу находит релевантные фрагменты в корпусе данных. Вообще, было на выбор две задачи, вторая звучала как «Разработка copilot приложения для клиентов микробизнеса», но нам ближе оказалась вторая задача. И, конечно же, мы «запилили» своё «модное» решение, о котором вам спешим рассказать в этой статье. Мы проиллюстрируем, как выстраивали архитектуру, какие модели тестировали, на чём остановились и почему, именно такой подход оказался для нас наиболее удачным. Покажем, как работает весь пайплайн — от чанкования документов до гибридного поиска и поделимся результатами бенчмарков и планами развития системы в дальнейшем. Всех заинтересованных лиц приглашаю по традиции под кат;-)

Читать далее

Оптимизация маршрутов доставки заказов маркетплейса или как мы победили в E-CUP 2025

Время на прочтение11 мин
Охват и читатели3.9K

Хабр, привет! Недавно завершилось ML-соревнование E-CUP 2025. Наша команда из X5 Tech заняла первое место в треке «Логистика: автопланирование курьеров», где было нужно оптимизировать время, затрачиваемое курьерами на доставку 20 000 заказов. В статье расскажем про подходы, которые использовали для решения этой задачи. Посмотрим, во сколько раз можно сжать JSON с матрицей расстояний. Какой код мы использовали для быстрого решения задачи TSP с помощью LKH-3. Обсудим, на что обращать внимание при кластеризации заказов.

Постановка задачи

Требовалось распределить порядка 20 000 заказов между 280 курьерами и построить для каждого из них маршрут так, чтобы минимизировать их суммарное время работы. Оно складывалось из времени перемещения курьеров между заказами и времени выполнения самих заказов (service time). За каждый невыполненный заказ добавлялся штраф 3000 секунд...

Читать далее

Доматчинг товаров с использованием LLM: от промптов до квантизации

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели7.9K

Привет, Хабр! На связи команда продуктового матчинга ecom.tech. Наша команда решает задачи поиска, группировки и сопоставления товаров с помощью алгоритмов машинного обучения. Все это необходимо для развития и улучшения бизнес-процессов в компании, а именно быстрого заведения карточек товаров, мониторинга цен на товары и развития ML. В этой статье мы расскажем про доматчинг – сравнение сложных пар товаров, которые отобрали на предыдущем этапе пайплайна, с помощью LLM. Поехали!

Читать далее

BLIMP — Пайплайн синтеза и разметки изображений в Blender

Уровень сложностиСредний
Время на прочтение25 мин
Охват и читатели6.3K

Генерация, понимание и редактирование реалистичных изображений – всё ещё сложнейшая задача для ИИ. Потому качественные данные сегодня на вес золота, а компании готовы тратить миллионы на труд разметчиков и API мастодонтов вроде Gemini Pro Image. Такой подход не только предельно дорог и ресурсозатратен – но и полон ошибок, которых не лишены даже “генеративные ИИ-гиганты”. 

Я хочу рассказать вам о другом, менее популярном сегодня методе сбора визуальных данных – автоматической сборке 3D-сцен и рендере их изображений. Конечно, и этот подход не лишен своих недостатков – но он быстр, дёшев и не так затратен, при этом он покрывает очень тяжёлые для современных моделей ниши. Такой метод позволяет детерминировано понимать и контролировать содержимое генерируемых данных с точностью до миллиметра. В этой статье мы с нуля построим полностью автоматический пайплайн формирования и генерации изображений и метаданных к ним в Blender – для задач генерации, понимания и редактирования изображений. А запускаться и работать он может на чём угодно – от GPU-серверов, до обычного домашнего ПК.

Погрузиться в Blender

Поведение вместо плотности: динамический взгляд на кластеризацию

Время на прочтение9 мин
Охват и читатели3.3K

Несмотря на использование биологических аналогий, предлагаемый метод не относится к quorum sensing clustering в классическом смысле.
В работах, вдохновлённых quorum sensing, сигнал напрямую связан с локальной плотностью и используется как механизм адаптивного выбора радиуса влияния или порога плотности. Фактически такие методы остаются плотностными моделями кластеризации с биологической мотивацией (см., например, arXiv:1303.3934).

В предлагаемом подходе сигнал имеет иную природу.
Он не отражает количество соседей и не служит индикатором принадлежности к кластеру, а представляет собой внутреннее бинарное состояние агента, определяющее режим его локального взаимодействия с окружением.

Кластеризация в этой модели не является результатом разбиения пространства по геометрическим признакам. Она возникает как побочный эффект динамики, в которой устойчивые коллективные режимы поведения формируются, стабилизируются и защищаются через локальные правила взаимодействия.

Читать далее

Индекс Шивы: ловушка простых правил на рынке труда

Время на прочтение7 мин
Охват и читатели9K

Если вакансия длиннее 7000 символов, шанс встретить в ней манипуляцию или хаос — 61.5%. Это правило «рынка лимонов» работает почти идеально.

Но оно же — ловушка.

Индекс Шивы (текст / зарплата) — это инструмент диагностики, который помогает отличить необходимую сложность от словесного шума. Датасет из 48 000 вакансий.

Читать далее
1
23 ...