Data Mining *

Глубинный анализ данных

12,73

Рейтинг

СтатьиПостыНовостиАвторыКомпании

oopatow вчера в 05:57

Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA

Простой

3 мин

4.9K

Машинное обучение * Data Mining *

Recovery Mode

Краткий манифест-тизер; запомните этот твит.

Повторяем как мантру, чтобы она дошла до как можно большего количества людей. У YOLO, семейства DINO и прочих сетей - сотни миллионов и миллиардов параметров для решения задач детекции, классификации, сегментации. На фундаменте этих сетей по всему миру рождаются сервисы, которые позволяют решать какие-то задачи детекции, классификации, сегментации.

У нас есть своя собственная универсальная модель компьютерного зрения – со своей собственной архитектурой – со своей собственной “математикой”. И нам для решения задач детекции, классификации, сегментации нужны не сотни и даже не десятки миллионов параметров, и уж тем более не миллиарды, а меньше 100 тыс. А точность при этом в худшем случае сопоставима с SOTA, а в обычном – превосходит SOTA.

Но как же так? С одной стороны миллионы и миллиарды параметров, а с другой – меньше 100 тыс. Это же гигантская разница. Что происходит? Что все это значит?

Это значит, что мы про что-то другое

-1

GenomeDust 14 июн в 09:54

Как я собрал эталонный Data Engineering проект: ClickHouse, Kafka, Spark, dbt, Airflow и Superset за одну команду

Средний

10 мин

12K

Data Engineering * Data Mining * КриптовалютыBig Data *

Туториал

Меня зовут Андрей, я работаю с данными. И так получается, что на реальных проектах у меня никогда не было возможности собрать идеальный, на мой взгляд стек. Поэтому я собрал его в идеальном пет проекте.

Стать инженером данных

GcVit 10 июн в 10:36

raFTI: как сопоставлять «хаотичные» названия вин

Средний

6 мин

6.3K

Data Mining * Natural Language Processing * Инженерные системы * Машинное обучение * Поисковые технологии *

Кейс

Из песочницы

Привет, я Вит Глинка, backend программист в компании Deeplace, в которой среди прочего активно работают в области winetech. Хочу презентовать нашу последнюю фичу в этой области — raFTI.v5.3 — систему полнотекстового поиска.

Разобраться в вине

Isma 30 мая в 16:57

Критерии выживания и случайность — 5

Сложный

27 мин

11K

Data Mining * GTD * Анализ и проектирование систем * Карьера в IT-индустрииНаучно-популярное

Продолжаем data mining путешествие в погоне за удачей. Адаптивность — последний фактор в нашем разборе, хотя и не последняя статья серии. Если интеллект отвечает на вопрос «насколько у человека мощный когнитивный аппарат», то адаптивность отвечает на вопрос «насколько устойчиво он функционирует под давлением и насколько быстро восстанавливается». В популярной литературе адаптивность считается едва ли не главным фактором жизненного успеха. Данные показывают более скромную, фрагментированную и в нескольких местах контринтуитивную картину.

algol78 29 мая в 07:30

Энтропия, которая измеряет порядок: IH-анализ находит закономерности в разнотипных данных

Средний

8 мин

C++ * Data Mining * Python * Математика * Машинное обучение *

Аналитика

Из песочницы

Обычно энтропия — мера хаоса. Но наш сегодняшний герой — IH-анализ (Information-Entropy analysis) — вычисляет информационную энтропию, чтобы измерить обратное: степень детерминированности связи между признаками и целевой переменной. Мы будем вычислять: насколько утверждение «если А, то Б, и, если не А, то и не Б» выполняется в наших данных устойчиво. Одновременная работа с категориальными и количественными признаками нас не затруднит.

oopatow 26 мая в 10:52

Почему вы тратите время не на переговоры, а на чужую внутреннюю драму. Как проходят переговоры с крупными компаниями

Простой

6 мин

6.7K

Искусственный интеллектМашинное обучение * Data Mining *

Мнение

Статья о наболевшем.

Есть удобная, почти благородная формулировка: «рынок плохо воспринимает новые технологии». Она красивая, интеллигентная и вежливая, поэтому почти наверняка неправильная. Но проблема, конечно, вовсе не в рынке, а в том, что до рынка ещё надо добраться. А до него, как правило, сидит цепочка людей, которые либо не понимают, что им показывают, либо понимают слишком мало, но с очень большим апломбом.

Разделить боль

khmelkoff 26 мая в 08:50

RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain

Средний

12 мин

7.4K

Искусственный интеллектNatural Language Processing * Data Mining * Машинное обучение *

Туториал

PM: Нам нужно актуализировать базу знаний для ИИ-ассистента,
там изменилась инструкция по смене пароля.
DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится.
Предупреди Заказчика о недоступности сервиса.

Знакомая ситуация? Полная зачистка векторной базы и реиндексация всех имеющихся документов с остановкой сервиса - решение простое и надёжное, но «прощается» только на этапе прототипа.

В продакшене могут быть сотни тысяч документов, живые пользователи и SLA с требованием по доступности сервиса. Обновилась одна, пусть и очень важная инструкция, и сервис недоступен два часа. А если таких обновлений десятки в неделю? Давайте исправим это и напишем ETL-скрипт, который умеет добавлять, обновлять и удалять отдельные документы без остановки сервиса.

Moxovich 26 мая в 08:30

Как мы анализировали поведение пользователей Яндекс Музыки на 50 млн событий

Средний

12 мин

Big Data * Python * Data Engineering * Data Mining * Звук

Аналитика

Из песочницы

Музыкальные стриминговые сервисы давно перестали быть просто каталогами треков. Сегодня значительная часть пользовательского опыта формируется рекомендательными системами: персональными подборками, автоматическими плейлистами, «волнами» и похожими механизмами. Пользователь может сам искать музыку, добавлять треки в библиотеку и слушать знакомых артистов, а может переходить по рекомендациям алгоритма. Возникает естественный исследовательский вопрос: рекомендации действительно расширяют музыкальный кругозор или, наоборот, закрепляют уже существующие предпочтения пользователя?

GlobalSign_admin 24 мая в 17:32

ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM

4 мин

20K

Поисковые технологии * Искусственный интеллектData Mining * Информационная безопасность *

Согласно статистическому отчёту State of AI Traffic от Human Security, за последний год резко увеличилась активность ИИ-агентов, ботов и ИИ-инструментов в интернете.

Например, трафик от ИИ-агентов увеличился почти в 80 раз (на 7851%), трафик от ИИ-скраперов — на 597%. Весь ИИ-трафик за последний год увеличился на 187%, а в целом он растёт в восемь раз быстрее, чем человеческий.

clapton 22 мая в 08:00

Математика кластеров: разбираемся в умной кластеризации данных на примере нашей системы поиска аномалий в логах. Часть 1

Средний

15 мин

7.9K

Блог компании МТСМашинное обучение * Data Mining * Математика *

Привет, Хабр! Меня зовут Андрей Басов, я руководитель команды технической поддержки стрима корпоративных продуктов и сервисов в MWS, занимаюсь технической поддержкой и сопровождением продуктов линейки Partner Experience Platform.

В прошлом материале я рассказал о том, как мы с коллегами попробовали искать аномалии в логах наших систем с помощью методов машинного обучения. Сейчас мы провели работу над ошибками, все переработали (архитектуру, математический аппарат), внедрили генеративную LLM и Principal Component Analysis — и в итоге создали новую систему анализа жизни продуктов, которая самостоятельно балансирует, обучается, выявляет аномалии, паттерны и даже заглядывает в будущее.

Но не только сама разработка этой «живой» системы стала для меня в проекте вызовом. Мы столкнулись с тем, что некоторые коллеги из разных подразделений не всегда понимают, чем конкретно мы занимаемся и как это все работает. Не всегда разделяют границы ИИ между машинным обучением и генеративным интеллектом.

Поэтому я открываю серию материалов о том, как математика способна превратить пассивную кластеризацию в активную и самосознающую систему: от основ байесовской адаптации, динамических границ и топологического анализа до внедрения в практику. Разбираться будем на примере нашей новой архитектуры.

+18

oopatow 18 мая в 09:07

ИИ в тупике, потому что его строят на неверных абстракциях, игнорируя важность зрительного восприятия

Простой

9 мин

7.2K

Data Mining * Машинное обучение *

Мнение

Recovery Mode

Индустрия строит модели на абстракциях, которые слабо связаны с реальной работой мозга и зрительного восприятия, в итоге платит за это дикой ценой в энергии и, возможно, принципиальными ограничениями. Но зрительное восприятие важнее любых архитектур ИИ.

История науки показывает, что прорывы происходят тогда, когда исследователь возвращается к конкретным примерам мира — как Хопфилд, который соединил физику твёрдого тела с наблюдениями нейробиологов. Если хотим сдвига, надо вернуться к тому, как устроено наше зрение — как к самому мощному и постоянно проверяемому «движку» обработки реальности. Этим мы и успешно и занимаемся.

Узреть

badcasedaily1 18 мая в 06:46

Ваша модель показывает 95% accuracy и при этом бесполезна: метрики для несбалансированных классов

Средний

8 мин

7.5K

Блог компании OTUSPython * Программирование * Машинное обучение * Data Mining *

Туториал

Модель может показывать 95–99% accuracy и при этом не решать задачу: особенно если редкий класс важнее всего для бизнеса. В статье разбираем, почему accuracy ломается на несбалансированных данных, как читать precision, recall и F1, зачем смотреть PR‑кривую и confusion matrix, а также как подбирать порог классификации с учетом стоимости ошибок.

Понять ошибки

TechRecruiter 18 мая в 05:53

Как создать свой бенчмарк: 6 уроков с туториала NeurIPS

2 мин

5.7K

Data Engineering * Data Mining *

Туториал

Посмотрела Туториал NeurIPS «The Art of Benchmarking» — панель с авторами SWE-bench, GPQA и ведущими исследователями из Google DeepMind, NYU и Berkeley.
Вот мой конспект. Делюсь с вами, так как бенчмарки теперь не только про науку, но и про безопасность, регуляторику и миллиардные решения о деплое.

* Тирания метрик
Оказывается, любая метрика имеет honey spots, которые модель может хакнуть. Проблема в том, что текущая мета-оценка (корреляция Пирсона) эти точки не показывает. А если метрика становится еще и reward'ом при обучении — могут быть проблемы

* Про долговечность
Бенчмарки действуют только определенный период, и нередко - далеко не 10 лет. Всё насыщается. ImageNet продолжает быть полезным, потому что его используют для 10 разных задач (диффузия, CLIP, zero-shot). А большинство бенчмарков теряют актуальность, но продолжают кочевать по paper'ам еще 5 лет — просто потому, что их удобно цитировать. Это плохая практика.

* Субъективность — везде
Даже в классификации изображений люди расходятся. Две принципиально разные причины: (а) задача плохо задана (underspecification), (б) люди реально думают по-разному. Проблема краудворкинга: если не кэпировать ответы, вы получите не мнение популяции, а мнение Боба, который сделал 80% аннотаций.

* LLM как источник оценки — это очень опасно
Они коррелируют с людьми только на той выборке, на которой их калибровали(!). Модель становится умнее — распределение данных меняется — корреляция падает. А при генерации бенчмарков LLM имеют сильнейший self-bias (даже с независимой метрикой). Единственный корректный подход — заставить модель генерировать примеры, на которых она ошибается

-1

zzeng 18 мая в 04:01

Насколько многомерным может быть многомерный точный индекс?

Средний

9 мин

9.3K

Алгоритмы * C * C++ * Data Mining *

Вот, например, Milvius(DiskANN) рассчитан на вектора размерности до 32 768, но это приближенный поиск. Но как насчёт поиска точного?

В данной статье рассматривается работоспособность 1024 мерного индекса, хранилищем которого служит обычное B‑дерево (насколько вообще может быть обычным такое дерево). Используемый диск — вполне себе «железный» старый добрый WD Purple, оперативная память сознательно ограничена 8 Гб. Можно ли что‑то из этого выжать на рядовом десктопе за приемлемое время?

samako 13 мая в 21:11

AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику

Средний

10 мин

12K

PHP * Машинное обучение * Data Mining * Алгоритмы * Поисковые технологии *

Аналитика

Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, статистики и векторов.

В этой статье разберём Bag of Words и TF–IDF – фундаментальные подходы, с которых начинались NLP, поисковые системы и анализ текста. А заодно реализуем поиск похожих документов на чистом PHP без библиотек.

stas_makarov 13 мая в 09:51

Process mining — это стратегическая основа, которой не хватает вашему корпоративному AI‑проекту

Простой

14 мин

6.8K

Искусственный интеллектData Mining * Анализ и проектирование систем * Исследования и прогнозы в IT *

Мнение

Перевод

Самое дорогое предложение в корпоративных технологиях — это «мы можем начать внедрение в следующем квартале», и я слышал его так часто, что оно уже снится мне.

Корпоративный AI съедает бюджеты с такой скоростью, что даже предприниматель из пузыря eCommerce 1996 года пустил бы скупую, достойную слезу. Во многих организациях бизнес-результаты от AI настолько скромны, что их можно разглядеть только под микроскопом. При этом счета за вычисления вполне реальны, и даже если вы не участвуете в моде на максимизацию токенов, годовой контракт с провайдером инференса и ваши Azure AI Foundry, WatsonX, Vertex, Bedrock или Einstein — очень и очень реальны. А вот трансформация, то есть фактический измеримый сдвиг в том, как работает компания, приходит с опозданием — где-то между третьей переработкой дорожной карты и тем руководителем, который продвигал всю инициативу и теперь тихо переведен на другую роль без пресс-релиза.

Я наблюдал, как этот сценарий повторяется с такой регулярностью, что это было бы впечатляюще, если бы не обходилось так дорого. Вот как обычно все происходит . . .

enamored_poc 4 мая в 08:31

Изучаем машинное обучение scikit-learn за одну статью: от понимания API до боевого пайплайна

Простой

11 мин

8.7K

Python * Программирование * Машинное обучение * Big Data * Data Mining *

Туториал

Осваиваем scikit-learn за 20 минут 🚀 Выкатил на Хабр гайд для тех, кто хочет понять классический ML на Python без воды. Внутри: — Главный секрет библиотеки (.fit, .predict, .transform) — Как не обмануть себя при оценке модели — Сборка правильного Pipeline, как у мидлов Залетайте читать и забирать шаблоны кода.

Mamalytic 3 мая в 18:25

Дерево решений vs граф работ: как я объединила Data Science и JTBD в одном проекте

8 мин

11K

Анализ и проектирование систем * Управление продуктом * Data Mining * Карьера в IT-индустрииМашинное обучение *

Мнение

Из песочницы

Небольшой мысленный эксперимент на стыке машинного обучения и продуктового менеджмента. О том, почему одна и та же задача «определить, что нужно клиенту» может выглядеть по-разному со стороны product'а и data scientist'а. Разбор на примере корпоративного ДМС, где у одного контракта сразу три стейкхолдера с разными работами.

Вводная: почему эта тема вообще возникла

Я много лет проработала начальником управления аналитики в страховой компании, а сейчас прохожу курс Ивана Замесина по Advanced JTBD. В какой-то момент на воркшопе меня зацепила структура, которую он назвал «графом работ» — и я поймала себя на мысли, что она похожа на знакомую мне из Data Science модель. Только с противоположным назначением.

Дальше — разбор этого наблюдения. Статья рассчитана на аналитиков, продактов и тимлидов, которые работают с корпоративной аналитикой и задумываются о том, что именно они измеряют и зачем.

TimurZhoraev 1 мая в 18:13

Вспомнить всё. Спектр весов нейросети

13 мин

14K

Машинное обучение * Обработка изображений * Искусственный интеллектData Mining * Python *

Туториал

В данной публикации попробуем сформировать простейшую нейросеть. Будем использовать Colab. Данный выбор также хорош тем, что то, что позволено Юpyтеру не позволено быку. Иметь локальные вычислительные мощности. В принципе довольно неплохая инфраструктура для проверки базовых алгоритмов налету. Если есть что то подобное на других платформах или можно сделать с использованием иных агентов, пожалуйста, прокомментируйте.

Целью является демонстрация сохранения информации об обучении в спектре весов, при его фильтрации и постеризации происходит не полное стирание этих данных, что можно использовать для дообучения в качестве начальных условий. При этом, после постеризации, коэффициенты весов выраженные в спектральных составляющих занимают существенно меньшее место. Также этот эффект интересен с точки зрения проектирования ИНС.

Вместо кода будут md-саммари по разделам, их можно использовать для генерации в качестве промптов для ИИ-агента.

>>ЧТЕНИЕ>>

Natalia_Prokopovich 1 мая в 13:11

Почему ваша HR-аналитика бесполезна и как научиться задавать вопросы, спасающие бюджет

Простой

4 мин

8.8K

Управление персоналом * ПрезентацииData Mining * Big Data * Мозг

Мнение

Всем привет!

Меня зовут Прокопович Наталья, я руковожу направлением зарплатной аналитики в Сбере и работаю на стыке HR, данных и бизнеса. Также являюсь амбассадором исследовательских подходов в people analytics. Еще преподаю в МГИМО и пишу о том, как превращать данные в практические решения для бизнеса. Сегодня поговорим о базе вопросах, с которыми к нам приходят.

Многие современные компании напоминают адептов карго-культа: они возводят алтари из BI-систем, приносят в жертву миллионы на сбор метрик и рисуют дашборды, надеясь, что боги эффективности ниспошлют им правильные решения. В целом, компании продолжают принимать катастрофические решения не потому, что у них «мало данных», а потому, что они используют аналитику как «одеяло безопасности», пытаясь легитимизировать интуицию руководства вместо того, чтобы заниматься реальным исследованием.

Как раз HR-аналитика - это не отчеты. Это процесс принятия качественных управленческих решений.

В основе практически любой аналитической неудачи лежит «плохой вопрос». Если вы неправильно определили проблему на старте, никакие нейросети и продвинутая статистика не спасут ваш бюджет, который вы потратили.

Ошибка №0: Почему математика не спасет плохой вопрос

В методологии доказательного менеджмента (Evidence-Based Management) аналитика - это строгая цепочка. Но, вопреки линейным представлениям новичков, это итеративный процесс с внутренними циклами:

2 3 ...

116 117