Обновить
128K+

Data Mining *

Глубинный анализ данных

10,66
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Математика кластеров: разбираемся в умной кластеризации данных на примере нашей системы поиска аномалий в логах. Часть 1

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели5.4K

Привет, Хабр! Меня зовут Андрей Басов, я руководитель команды технической поддержки стрима корпоративных продуктов и сервисов в MWS, занимаюсь технической поддержкой и сопровождением продуктов линейки Partner Experience Platform.

В прошлом материале я рассказал о том, как мы с коллегами попробовали искать аномалии в логах наших систем с помощью методов машинного обучения. Сейчас мы провели работу над ошибками, все переработали (архитектуру, математический аппарат), внедрили генеративную LLM и Principal Component Analysis — и в итоге создали новую систему анализа жизни продуктов, которая самостоятельно балансирует, обучается, выявляет аномалии, паттерны и даже заглядывает в будущее.

Но не только сама разработка этой «живой» системы стала для меня в проекте вызовом. Мы столкнулись с тем, что некоторые коллеги из разных подразделений не всегда понимают, чем конкретно мы занимаемся и как это все работает. Не всегда разделяют границы ИИ между машинным обучением и генеративным интеллектом.

Поэтому я открываю серию материалов о том, как математика способна превратить пассивную кластеризацию в активную и самосознающую систему: от основ байесовской адаптации, динамических границ и топологического анализа до внедрения в практику. Разбираться будем на примере нашей новой архитектуры.

Читать дальше

Новости

ИИ в тупике, потому что его строят на неверных абстракциях, игнорируя важность зрительного восприятия

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели6.9K

Индустрия строит модели на абстракциях, которые слабо связаны с реальной работой мозга и зрительного восприятия, в итоге платит за это дикой ценой в энергии и, возможно, принципиальными ограничениями. Но зрительное восприятие важнее любых архитектур ИИ.

История науки показывает, что прорывы происходят тогда, когда исследователь возвращается к конкретным примерам мира — как Хопфилд, который соединил физику твёрдого тела с наблюдениями нейробиологов. Если хотим сдвига, надо вернуться к тому, как устроено наше зрение — как к самому мощному и постоянно проверяемому «движку» обработки реальности.  Этим мы и успешно и занимаемся.

Узреть

Ваша модель показывает 95% accuracy и при этом бесполезна: метрики для несбалансированных классов

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.3K

Модель может показывать 95–99% accuracy и при этом не решать задачу: особенно если редкий класс важнее всего для бизнеса. В статье разбираем, почему accuracy ломается на несбалансированных данных, как читать precision, recall и F1, зачем смотреть PR‑кривую и confusion matrix, а также как подбирать порог классификации с учетом стоимости ошибок.

Понять ошибки

Как создать свой бенчмарк: 6 уроков с туториала NeurIPS

Время на прочтение2 мин
Охват и читатели5.6K


Посмотрела Туториал NeurIPS «The Art of Benchmarking» — панель с авторами SWE-bench, GPQA и ведущими исследователями из Google DeepMind, NYU и Berkeley.
Вот мой конспект. Делюсь с вами, так как бенчмарки теперь не только про науку, но и про безопасность, регуляторику и миллиардные решения о деплое.

* Тирания метрик
Оказывается, любая метрика имеет honey spots, которые модель может хакнуть. Проблема в том, что текущая мета-оценка (корреляция Пирсона) эти точки не показывает. А если метрика становится еще и reward'ом при обучении — могут быть проблемы

* Про долговечность
Бенчмарки действуют только определенный период, и нередко - далеко не 10 лет. Всё насыщается. ImageNet продолжает быть полезным, потому что его используют для 10 разных задач (диффузия, CLIP, zero-shot). А большинство бенчмарков теряют актуальность, но продолжают кочевать по paper'ам еще 5 лет — просто потому, что их удобно цитировать. Это плохая практика.


* Субъективность — везде
Даже в классификации изображений люди расходятся. Две принципиально разные причины: (а) задача плохо задана (underspecification), (б) люди реально думают по-разному. Проблема краудворкинга: если не кэпировать ответы, вы получите не мнение популяции, а мнение Боба, который сделал 80% аннотаций.

* LLM как источник оценки — это очень опасно
Они коррелируют с людьми только на той выборке, на которой их калибровали(!). Модель становится умнее — распределение данных меняется — корреляция падает. А при генерации бенчмарков LLM имеют сильнейший self-bias (даже с независимой метрикой). Единственный корректный подход — заставить модель генерировать примеры, на которых она ошибается

Читать далее

Насколько многомерным может быть многомерный точный индекс?

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8.9K

Вот, например, Milvius(DiskANN) рассчитан на вектора размерности до 32 768, но это приближенный поиск. Но как насчёт поиска точного?

В данной статье рассматривается работоспособность 1024 мерного индекса, хранилищем которого служит обычное B‑дерево (насколько вообще может быть обычным такое дерево). Используемый диск — вполне себе «железный» старый добрый WD Purple, оперативная память сознательно ограничена 8 Гб. Можно ли что‑то из этого выжать на рядовом десктопе за приемлемое время?

Читать далее

AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели12K

Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, статистики и векторов.

В этой статье разберём Bag of Words и TF–IDF – фундаментальные подходы, с которых начинались NLP, поисковые системы и анализ текста. А заодно реализуем поиск похожих документов на чистом PHP без библиотек.

Читать далее

Process mining — это стратегическая основа, которой не хватает вашему корпоративному AI‑проекту

Уровень сложностиПростой
Время на прочтение14 мин
Охват и читатели6.7K

Самое дорогое предложение в корпоративных технологиях — это «мы можем начать внедрение в следующем квартале», и я слышал его так часто, что оно уже снится мне.

Корпоративный AI съедает бюджеты с такой скоростью, что даже предприниматель из пузыря eCommerce 1996 года пустил бы скупую, достойную слезу. Во многих организациях бизнес-результаты от AI настолько скромны, что их можно разглядеть только под микроскопом. При этом счета за вычисления вполне реальны, и даже если вы не участвуете в моде на максимизацию токенов, годовой контракт с провайдером инференса и ваши Azure AI Foundry, WatsonX, Vertex, Bedrock или Einstein — очень и очень реальны. А вот трансформация, то есть фактический измеримый сдвиг в том, как работает компания, приходит с опозданием — где-то между третьей переработкой дорожной карты и тем руководителем, который продвигал всю инициативу и теперь тихо переведен на другую роль без пресс-релиза.

Я наблюдал, как этот сценарий повторяется с такой регулярностью, что это было бы впечатляюще, если бы не обходилось так дорого. Вот как обычно все происходит . . .

Читать далее

Изучаем машинное обучение scikit-learn за одну статью: от понимания API до боевого пайплайна

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели8.5K

Осваиваем scikit-learn за 20 минут 🚀 Выкатил на Хабр гайд для тех, кто хочет понять классический ML на Python без воды. Внутри: — Главный секрет библиотеки (.fit, .predict, .transform) — Как не обмануть себя при оценке модели — Сборка правильного Pipeline, как у мидлов Залетайте читать и забирать шаблоны кода.

Читать далее

Дерево решений vs граф работ: как я объединила Data Science и JTBD в одном проекте

Время на прочтение8 мин
Охват и читатели11K

Небольшой мысленный эксперимент на стыке машинного обучения и продуктового менеджмента. О том, почему одна и та же задача «определить, что нужно клиенту» может выглядеть по-разному со стороны product'а и data scientist'а. Разбор на примере корпоративного ДМС, где у одного контракта сразу три стейкхолдера с разными работами.

Вводная: почему эта тема вообще возникла

Я много лет проработала начальником управления аналитики в страховой компании, а сейчас прохожу курс Ивана Замесина по Advanced JTBD. В какой-то момент на воркшопе меня зацепила структура, которую он назвал «графом работ» — и я поймала себя на мысли, что она похожа на знакомую мне из Data Science модель. Только с противоположным назначением.

Дальше — разбор этого наблюдения. Статья рассчитана на аналитиков, продактов и тимлидов, которые работают с корпоративной аналитикой и задумываются о том, что именно они измеряют и зачем.

Читать далее

Вспомнить всё. Спектр весов нейросети

Время на прочтение13 мин
Охват и читатели14K

В данной публикации попробуем сформировать простейшую нейросеть. Будем использовать Colab. Данный выбор также хорош тем, что то, что позволено Юpyтеру не позволено быку. Иметь локальные вычислительные мощности. В принципе довольно неплохая инфраструктура для проверки базовых алгоритмов налету. Если есть что то подобное на других платформах или можно сделать с использованием иных агентов, пожалуйста, прокомментируйте.

Целью является демонстрация сохранения информации об обучении в спектре весов, при его фильтрации и постеризации происходит не полное стирание этих данных, что можно использовать для дообучения в качестве начальных условий. При этом, после постеризации, коэффициенты весов выраженные в спектральных составляющих занимают существенно меньшее место. Также этот эффект интересен с точки зрения проектирования ИНС.

Вместо кода будут md-саммари по разделам, их можно использовать для генерации в качестве промптов для ИИ-агента.

>>ЧТЕНИЕ>>

Почему ваша HR-аналитика бесполезна и как научиться задавать вопросы, спасающие бюджет

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели8.8K

Всем привет!

Меня зовут Прокопович Наталья, я руковожу направлением зарплатной аналитики в Сбере и работаю на стыке HR, данных и бизнеса. Также являюсь амбассадором исследовательских подходов в people analytics. Еще преподаю в МГИМО и пишу о том, как превращать данные в практические решения для бизнеса. Сегодня поговорим о базе вопросах, с которыми к нам приходят.

Многие современные компании напоминают адептов карго-культа: они возводят алтари из BI-систем, приносят в жертву миллионы на сбор метрик и рисуют дашборды, надеясь, что боги эффективности ниспошлют им правильные решения. В целом, компании продолжают принимать катастрофические решения не потому, что у них «мало данных», а потому, что они используют аналитику как «одеяло безопасности», пытаясь легитимизировать интуицию руководства вместо того, чтобы заниматься реальным исследованием.

Как раз HR-аналитика - это не отчеты. Это процесс принятия качественных управленческих решений.

В основе практически любой аналитической неудачи лежит «плохой вопрос». Если вы неправильно определили проблему на старте, никакие нейросети и продвинутая статистика не спасут ваш бюджет, который вы потратили.

Ошибка №0: Почему математика не спасет плохой вопрос

В методологии доказательного менеджмента (Evidence-Based Management) аналитика - это строгая цепочка. Но, вопреки линейным представлениям новичков, это итеративный процесс с внутренними циклами:

Читать далее

ТОП-7 графиков для вашей презентации

Уровень сложностиПростой
Время на прочтение22 мин
Охват и читатели6.8K

Лучше один раз увидеть, чем сто раз услышать — в аналитике эта пословица работает на все сто. В новой статье разбираем, почему одна удачная визуализация объясняет процессы, зависимости и помогает найти инсайты быстрее, чем десятки слайдов с текстом и формулами. Также рассмотрим несколько оригинальных интерактивных визуализаций на Plotly — за пределами привычных распределений, боксплотов и прочих «школьных» графиков. 

Об авторе: Мария Жарова — преподаватель Центра «Пуск» МФТИ, ML‑инженер в Wildberries, автор канала EasyData.

Читать далее

Мал, да удал: почему пять строк рефакторинга могут сказать о разработчике больше, чем весь его GitHub

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели14K

Привет, Хабр! Жизнь не стоит на месте, как и мое исследование, так что пришла пора пересмотреть то, как я оцениваю код.

Изначально я опиралась на анализ целых репозиториев — мы вычисляли семантическую плотность и классические метрики кода. Результаты были многообещающими, но на практике я столкнулась с «шумом», который невозможно игнорировать:

Читать далее

Ближайшие события

Империя наносит ответный удар: kad.arbitr.ru снова поддается парсингу (часть 1)

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели9.9K

В статьях2021 года можно встретить довольно пессимистичный вывод: «ресурс окончательно уничтожил возможность сбора информации с помощью Selenium». Но, как оказалось, это не совсем так.

Сайт kad.arbitr.ru — предоставляет информацию о гражданских делах, в первую очередь данная информация интересна юристам. Также там можно найти информацию о начале\конце банкротства и много другой информации связанной с юридической составляющей нашей жизни как граждан данной страны. На практике часто возникает задача мониторинга состояния дел по заданному списку — допустим по ИНН или же по ФИО. Именно такая задача была поставлена предо мной, найти дело по ИНН (если оно существует) и открыть его карточку чтобы собрать информацию.

При первом знакомстве сайт выглядит довольно устаревшим — как и многие государственные сайты, тем не менее, первое впечатление бывает обманчиво, ведь тут достаточно неплохая защита от тех кто хочет собрать много информации автоматически. Далее разбор будет строиться по следующей схеме: простой способ сбора информации → анализ, почему он работает или нет и так далее.

Первое, что приходит в голову при решении задачи парсинга по конкретному полю — это использование API.

Возможны три варианта.

Читать далее

«И что?»: 5 неудобных истин об HR-аналитике, которые меняют правила игры

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели5.6K

В крупных корпорациях сотрудники всех уровней часто попадают в ловушку «зеленых дашбордов», когда на экранах всё светится успокаивающим изумрудным светом, а в реальности бизнес «горит»: люди уходят, вакансии висят месяцами, а вовлеченность падает. Аналитика в таких случаях превращается в дорогую декорацию. Чтобы перестать «махать цифрами» и начать реально влиять на бизнес, нужно признать несколько неудобных истин.

Ваш мозг - самый ненадежный инструмент

Любое управленческое решение принимается в условиях ограниченного времени, пространства и мышления. Мы часто полагаемся на «экспертную оценку», но на деле это часто лишь попытка «натянуть сову на глобус», основываясь на личных травмах и профдеформациях. В психологии выделено около 200 своеобразных проекций, через которые мы смотрим на мир.

Аналитика признана, и призвана для того, чтобы это мышление чуть-чуть расшатать и расширить. Если вы хотите глубоко разобраться в том, как мы обманываем сами себя, крайне советую книгу Никиты Непряхина «Анатомия заблуждений».

Читать далее

$110 млрд в тени: анатомия санкционного кластера после Garantex

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели8.5K

$56 млрд за 48 часов

15–17 апреля биржа Grinex — предполагаемый преемник Garantex — была взломана.

В это же время через связанный санкционный кластер на Tron прошло 56 млрд USDT крупными переводами ($100K).

Хак не остановил инфраструктуру. Трафик в отдельные часы — ускорился.

Либо выводили ликвидность. Либо хеджировались. Либо кластер просто продолжал работать параллельно — как работал всегда.

Читать далее

Критерии выживания и случайность — 4

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели11K

Продолжаем data mining путешествие в погоне за удачей. Сегодня разберем как устроена оценка интеллекта. Тут мы вступаем на очень скользкую почву. Объективности у большинства людей тут гораздо меньше и на это есть причины. Давайте попробуем разобрать это подробнее.

Читать далее

RAG: Как собрать свой ретривер для особых случаев

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели8.8K

С опытом у RAG-инженера накапливается солидный багаж эвристик и инструментов, которые в определенных задачах превосходят по качеству или скорости стандартные. Фраза «а для этого у меня есть собственный ретривер» звучит с некоторым снобизмом, но добавляет к профессионализму несколько пойнтов.

Хотите в свою коллекцию ретривер, который умеет работать с терминами, плохо различимыми в векторном пространстве эмбеддинга, в частности с именами и названиями? Тогда давайте перейдём от снобизма к практике. Начнём с обработки текста и сегментируем его на фрагменты - «чанки». Далее сделаем TFIDF модель, добавим поиск и обернём всё это в ретривер LangChain. Наконец сравним наш ретривер с двумя-тремя стандартными решениями. А Ollama поможет с вопросами для бенчмарка.

Читать далее

TAPe‑детекция против COCO и SOTA: как мы обошли RF‑DETR и YOLO, с легкостью уложившись в 100k параметров (вместо 100M)

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.4K

Мы довели TAPe‑детекцию на COCO до уровня лучших SOTA‑моделей по точности, но с двумя порядками выигрыша по параметрам и радикально меньшими требованиями к данным и ресурсам. При этом модель держит 7–8 мс на изображение при mAP50 на уровне RF‑DETR‑2XL и работает почти одинаково быстро на GPU и CPU. В этом финальном посте нашего "дневника" мы подведем итоги эксперимента, покажем ключевые бенчмарки и объясним, почему TAPe‑подход позволяет реально экономить данные, железо и время разработки.

В итоговой детекционной модели у нас меньше 100 000 параметров — примерно в 10 раз меньше, чем у ближайших «облегчённых» моделей уровня YOLO, и примерно в 1000 раз меньше, чем у сильных DETR‑подходов вроде RF‑DETR с 127 млн параметров.

Прикоснуться к магии

Критерии выживания и случайность — 3

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели10K

Продолжаем data mining путешествие в погоне за удачей. Сегодня разберем как устроены жизненные факторы. Эти категория достаточно скучна, но статистически хорошо подтверждена. И интуитивно понятна большинству людей. Но влияние ее очень сильное. Поэтому рассмотрим ее подробнее.

Читать далее
1
23 ...