Обновить
64K+

Data Mining *

Глубинный анализ данных

12,21
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Тихая-тихая мировая революция. Мы сделали модель распознавания для любых задач компьютерного зрения – и выше уровня SOTA

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели9.9K

Практический эффект TAPe+ML v2 сейчас лучше всего видно в object detection. Так, TAPe+ML v2 на конкретной практической задаче рудозасорения (см главу про промышленный пилот), без COCO-головы, на новом backbone, основанном на данных клиента, дает точность детекции 96%, по mAP50 – точность  90% и по mAP50–95 – 85%. То есть TAPe‑детекция выходит на уровень RF‑DETR по mAP50 при числе параметров меньше 100 тысяч против порядка 127 миллионов у RF‑DETR 2XL.

Мы применили последовательность улучшений, которые не раскрываем публично как ноу‑хау, но их итоговые эффекты можно зафиксировать на COCO. На разных этапах получались следующие значения:

Божечки

Новости

Книга: «Анализ данных с LLM. Текст, таблицы, изображения и аудио»

Время на прочтение2 мин
Охват и читатели9.8K

Привет, Хаброжители! Большие языковые модели (LLM) позволяют оптимизировать и ускорить решение практически любой задачи в области анализа данных. Освойте методы для анализа больших массивов текстовых, табличных и графовых данных, изображений, видео и многого другого с помощью понятных запросов на естественном языке и нескольких строк кода на Python.

Читать далее

От имени Габенбота: измеряем во сколько обошёлся призыв оставить отзыв

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели7.2K

Игра Far Far West просила игроков оставить отзыв прямо через внутриигрового NPC — прямое нарушение правил Steam. Мы выгрузили данные и прогнали через модели детекции аномалий, чтобы посчитать, сколько отзывов оказались «добавленными». Спойлер: от 27% до 50%.

Читать далее

Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели5.7K

Краткий манифест-тизер; запомните этот твит.

Повторяем как мантру, чтобы она дошла до как можно большего количества людей. У YOLO, семейства DINO и прочих сетей - сотни миллионов и миллиардов параметров для решения задач детекции, классификации, сегментации. На фундаменте этих сетей по всему миру рождаются сервисы, которые позволяют решать какие-то задачи детекции, классификации, сегментации. 

У нас есть своя собственная универсальная модель компьютерного зрения – со своей собственной архитектурой – со своей собственной “математикой”. И нам для решения задач детекции, классификации, сегментации нужны не сотни и даже не десятки миллионов параметров, и уж тем более не миллиарды, а меньше 100 тыс. А точность при этом в худшем случае сопоставима с SOTA, а в обычном – превосходит SOTA.

Но как же так? С одной стороны миллионы и миллиарды параметров, а с другой – меньше 100 тыс. Это же гигантская разница. Что происходит? Что все это значит?

Это значит, что мы про что-то другое

Как я собрал эталонный Data Engineering проект: ClickHouse, Kafka, Spark, dbt, Airflow и Superset за одну команду

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели12K

Меня зовут Андрей, я работаю с данными. И так получается, что на реальных проектах у меня никогда не было возможности собрать идеальный, на мой взгляд стек. Поэтому я собрал его в идеальном пет проекте.

Стать инженером данных

raFTI: как сопоставлять «хаотичные» названия вин

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели6.3K

Привет, я Вит Глинка, backend программист в компании Deeplace, в которой среди прочего активно работают в области winetech. Хочу презентовать нашу последнюю фичу в этой области — raFTI.v5.3 — систему полнотекстового поиска.

Разобраться в вине

Критерии выживания и случайность — 5

Уровень сложностиСложный
Время на прочтение27 мин
Охват и читатели11K

Продолжаем data mining путешествие в погоне за удачей. Адаптивность — последний фактор в нашем разборе, хотя и не последняя статья серии. Если интеллект отвечает на вопрос «насколько у человека мощный когнитивный аппарат», то адаптивность отвечает на вопрос «насколько устойчиво он функционирует под давлением и насколько быстро восстанавливается». В популярной литературе адаптивность считается едва ли не главным фактором жизненного успеха. Данные показывают более скромную, фрагментированную и в нескольких местах контринтуитивную картину.

Читать далее

Энтропия, которая измеряет порядок: IH-анализ находит закономерности в разнотипных данных

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7K

Обычно энтропия — мера хаоса. Но наш сегодняшний герой — IH-анализ (Information-Entropy analysis) — вычисляет информационную энтропию, чтобы измерить обратное: степень детерминированности связи между признаками и целевой переменной. Мы будем вычислять: насколько утверждение «если А, то Б, и, если не А, то и не Б» выполняется в наших данных устойчиво. Одновременная работа с категориальными и количественными признаками нас не затруднит.

Читать далее

Почему вы тратите время не на переговоры, а на чужую внутреннюю драму. Как проходят переговоры с крупными компаниями

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели6.8K

Статья о наболевшем.

Есть удобная, почти благородная формулировка: «рынок плохо воспринимает новые технологии». Она красивая, интеллигентная и вежливая, поэтому почти наверняка неправильная. Но проблема, конечно, вовсе не в рынке, а в том, что до рынка ещё надо добраться. А до него, как правило, сидит цепочка людей, которые либо не понимают, что им показывают, либо понимают слишком мало, но с очень большим апломбом.

Разделить боль

RAG без downtime: настраиваем инкрементальное обновление документов на Qdrant и LangChain

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели7.4K

PM: Нам нужно актуализировать базу знаний для ИИ-ассистента,
там изменилась инструкция по смене пароля.
DevOps: Не проблема, сейчас запущу скрипт, через два часа всё обновится.
Предупреди Заказчика о недоступности сервиса.

Знакомая ситуация? Полная зачистка векторной базы и реиндексация всех имеющихся документов с остановкой сервиса - решение простое и надёжное, но «прощается» только на этапе прототипа.

В продакшене могут быть сотни тысяч документов, живые пользователи и SLA с требованием по доступности сервиса. Обновилась одна, пусть и очень важная инструкция, и сервис недоступен два часа. А если таких обновлений десятки в неделю? Давайте исправим это и напишем ETL-скрипт, который умеет добавлять, обновлять и удалять отдельные документы без остановки сервиса.

Читать далее

Как мы анализировали поведение пользователей Яндекс Музыки на 50 млн событий

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели8K

Музыкальные стриминговые сервисы давно перестали быть просто каталогами треков. Сегодня значительная часть пользовательского опыта формируется рекомендательными системами: персональными подборками, автоматическими плейлистами, «волнами» и похожими механизмами. Пользователь может сам искать музыку, добавлять треки в библиотеку и слушать знакомых артистов, а может переходить по рекомендациям алгоритма. Возникает естественный исследовательский вопрос: рекомендации действительно расширяют музыкальный кругозор или, наоборот, закрепляют уже существующие предпочтения пользователя?

Читать далее

ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM

Время на прочтение4 мин
Охват и читатели20K

Согласно статистическому отчёту State of AI Traffic от Human Security, за последний год резко увеличилась активность ИИ-агентов, ботов и ИИ-инструментов в интернете.

Например, трафик от ИИ-агентов увеличился почти в 80 раз (на 7851%), трафик от ИИ-скраперов — на 597%. Весь ИИ-трафик за последний год увеличился на 187%, а в целом он растёт в восемь раз быстрее, чем человеческий.

Читать далее

Математика кластеров: разбираемся в умной кластеризации данных на примере нашей системы поиска аномалий в логах. Часть 1

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели8K

Привет, Хабр! Меня зовут Андрей Басов, я руководитель команды технической поддержки стрима корпоративных продуктов и сервисов в MWS, занимаюсь технической поддержкой и сопровождением продуктов линейки Partner Experience Platform.

В прошлом материале я рассказал о том, как мы с коллегами попробовали искать аномалии в логах наших систем с помощью методов машинного обучения. Сейчас мы провели работу над ошибками, все переработали (архитектуру, математический аппарат), внедрили генеративную LLM и Principal Component Analysis — и в итоге создали новую систему анализа жизни продуктов, которая самостоятельно балансирует, обучается, выявляет аномалии, паттерны и даже заглядывает в будущее.

Но не только сама разработка этой «живой» системы стала для меня в проекте вызовом. Мы столкнулись с тем, что некоторые коллеги из разных подразделений не всегда понимают, чем конкретно мы занимаемся и как это все работает. Не всегда разделяют границы ИИ между машинным обучением и генеративным интеллектом.

Поэтому я открываю серию материалов о том, как математика способна превратить пассивную кластеризацию в активную и самосознающую систему: от основ байесовской адаптации, динамических границ и топологического анализа до внедрения в практику. Разбираться будем на примере нашей новой архитектуры.

Читать дальше

Ближайшие события

ИИ в тупике, потому что его строят на неверных абстракциях, игнорируя важность зрительного восприятия

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели7.2K

Индустрия строит модели на абстракциях, которые слабо связаны с реальной работой мозга и зрительного восприятия, в итоге платит за это дикой ценой в энергии и, возможно, принципиальными ограничениями. Но зрительное восприятие важнее любых архитектур ИИ.

История науки показывает, что прорывы происходят тогда, когда исследователь возвращается к конкретным примерам мира — как Хопфилд, который соединил физику твёрдого тела с наблюдениями нейробиологов. Если хотим сдвига, надо вернуться к тому, как устроено наше зрение — как к самому мощному и постоянно проверяемому «движку» обработки реальности.  Этим мы и успешно и занимаемся.

Узреть

Ваша модель показывает 95% accuracy и при этом бесполезна: метрики для несбалансированных классов

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели7.5K

Модель может показывать 95–99% accuracy и при этом не решать задачу: особенно если редкий класс важнее всего для бизнеса. В статье разбираем, почему accuracy ломается на несбалансированных данных, как читать precision, recall и F1, зачем смотреть PR‑кривую и confusion matrix, а также как подбирать порог классификации с учетом стоимости ошибок.

Понять ошибки

Как создать свой бенчмарк: 6 уроков с туториала NeurIPS

Время на прочтение2 мин
Охват и читатели5.7K


Посмотрела Туториал NeurIPS «The Art of Benchmarking» — панель с авторами SWE-bench, GPQA и ведущими исследователями из Google DeepMind, NYU и Berkeley.
Вот мой конспект. Делюсь с вами, так как бенчмарки теперь не только про науку, но и про безопасность, регуляторику и миллиардные решения о деплое.

* Тирания метрик
Оказывается, любая метрика имеет honey spots, которые модель может хакнуть. Проблема в том, что текущая мета-оценка (корреляция Пирсона) эти точки не показывает. А если метрика становится еще и reward'ом при обучении — могут быть проблемы

* Про долговечность
Бенчмарки действуют только определенный период, и нередко - далеко не 10 лет. Всё насыщается. ImageNet продолжает быть полезным, потому что его используют для 10 разных задач (диффузия, CLIP, zero-shot). А большинство бенчмарков теряют актуальность, но продолжают кочевать по paper'ам еще 5 лет — просто потому, что их удобно цитировать. Это плохая практика.


* Субъективность — везде
Даже в классификации изображений люди расходятся. Две принципиально разные причины: (а) задача плохо задана (underspecification), (б) люди реально думают по-разному. Проблема краудворкинга: если не кэпировать ответы, вы получите не мнение популяции, а мнение Боба, который сделал 80% аннотаций.

* LLM как источник оценки — это очень опасно
Они коррелируют с людьми только на той выборке, на которой их калибровали(!). Модель становится умнее — распределение данных меняется — корреляция падает. А при генерации бенчмарков LLM имеют сильнейший self-bias (даже с независимой метрикой). Единственный корректный подход — заставить модель генерировать примеры, на которых она ошибается

Читать далее

Насколько многомерным может быть многомерный точный индекс?

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели9.4K

Вот, например, Milvius(DiskANN) рассчитан на вектора размерности до 32 768, но это приближенный поиск. Но как насчёт поиска точного?

В данной статье рассматривается работоспособность 1024 мерного индекса, хранилищем которого служит обычное B‑дерево (насколько вообще может быть обычным такое дерево). Используемый диск — вполне себе «железный» старый добрый WD Purple, оперативная память сознательно ограничена 8 Гб. Можно ли что‑то из этого выжать на рядовом десктопе за приемлемое время?

Читать далее

AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели12K

Когда мы говорим, что нейросети "понимают текст", легко забыть: компьютер изначально вообще не понимает слова. Для него текст – это набор чисел, статистики и векторов.

В этой статье разберём Bag of Words и TF–IDF – фундаментальные подходы, с которых начинались NLP, поисковые системы и анализ текста. А заодно реализуем поиск похожих документов на чистом PHP без библиотек.

Читать далее

Process mining — это стратегическая основа, которой не хватает вашему корпоративному AI‑проекту

Уровень сложностиПростой
Время на прочтение14 мин
Охват и читатели6.8K

Самое дорогое предложение в корпоративных технологиях — это «мы можем начать внедрение в следующем квартале», и я слышал его так часто, что оно уже снится мне.

Корпоративный AI съедает бюджеты с такой скоростью, что даже предприниматель из пузыря eCommerce 1996 года пустил бы скупую, достойную слезу. Во многих организациях бизнес-результаты от AI настолько скромны, что их можно разглядеть только под микроскопом. При этом счета за вычисления вполне реальны, и даже если вы не участвуете в моде на максимизацию токенов, годовой контракт с провайдером инференса и ваши Azure AI Foundry, WatsonX, Vertex, Bedrock или Einstein — очень и очень реальны. А вот трансформация, то есть фактический измеримый сдвиг в том, как работает компания, приходит с опозданием — где-то между третьей переработкой дорожной карты и тем руководителем, который продвигал всю инициативу и теперь тихо переведен на другую роль без пресс-релиза.

Я наблюдал, как этот сценарий повторяется с такой регулярностью, что это было бы впечатляюще, если бы не обходилось так дорого. Вот как обычно все происходит . . .

Читать далее

Изучаем машинное обучение scikit-learn за одну статью: от понимания API до боевого пайплайна

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели8.8K

Осваиваем scikit-learn за 20 минут 🚀 Выкатил на Хабр гайд для тех, кто хочет понять классический ML на Python без воды. Внутри: — Главный секрет библиотеки (.fit, .predict, .transform) — Как не обмануть себя при оценке модели — Сборка правильного Pipeline, как у мидлов Залетайте читать и забирать шаблоны кода.

Читать далее
1
23 ...