Как стать автором
Обновить
44.42

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Книга DataDrivenConstruction. Навигация в эпоху данных в строительной отрасли

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 186

Руководство DataDrivenConstruction, воплотившее в себе исследования и изучения интеграции данных в строительстве, опубликовано.

В книге представлено более 200 уникальных иллюстраций, объясняющих тему данных в строительстве. Книга охватывает более 80 тем и 40 наиболее распространенных бизнес-кейсов по использованию данных в компаниях, работающих в строительном секторе.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Новости

Алгоритмы AdaBoost (SAMME & R2). Принцип работы и реализация с нуля на Python

Уровень сложности Сложный
Время на прочтение 11 мин
Количество просмотров 1.9K

Следующим мощным алгоритмом машинного обучения является AdaBoost (adaptive boosting), в основе которого лежит концепция бустинга, когда слабые базовые модели последовательно объединяются в одну сильную, исправляя ошибки предшественников.

В AdaBoost в качестве базовой модели используется пень решений (могут использоваться другие модели) — дерево с небольшой глубиной, которому присваивается вектор весов размера N, каждое значение которого соответствует определённому значению y_train и изначально равно 1 / N, где N — количество образцов в обучающей выборке. Каждый следующий пень обучается с учётом весов, рассчитанных на основе ошибок предыдущего прогноза. Также для каждого обученного пня отдельно рассчитывается вес, используемый для оценки важности итоговых прогнозов.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 2

Градиентный бустинг. Реализация с нуля на Python и разбор особенностей его модификаций (XGBoost, CatBoost, LightGBM)

Уровень сложности Сложный
Время на прочтение 28 мин
Количество просмотров 4.3K

На сегодняшний день градиентный бустинг (gradient boosting machine) является одним из основных production-решений при работе с табличными, неоднородными данными, поскольку обладает высокой производительностью и точностью, а если быть точнее, то его модификации, речь о которых пойдёт чуть позже.

В данной статье представлена не только реализация градиентного бустинга GBM с нуля на Python, но а также довольно подробно описаны ключевые особенности его наиболее популярных модификаций.

Читать далее
Всего голосов 16: ↑16 и ↓0 +16
Комментарии 7

Стекинг и блендинг в ML. Ключевые особенности и реализация с нуля на Python

Уровень сложности Сложный
Время на прочтение 11 мин
Количество просмотров 2.7K

Среди всех методов ансамблирования особое внимание заслуживают две очень мощные техники, известные как стекинг (stacked generalization) и блендинг, особенность которых заключается в возможности использования прогнозов не только однородных, но и сразу нескольких разных по природе алгоритмов в качестве обучающих данных для другой модели, на которой будет сделан итоговый прогноз. Например, прогнозы логистической регрессии и градиентного бустинга могут быть использованы для обучения случайного леса, на котором уже будет выполнен итоговый прогноз.

Стекинг и блендинг очень схожи между собой, однако между ними есть существенные различия, заключающиеся в разделении и использовании тренировочных данных. Рассмотрим более подробно как это происходит.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

Истории

Как я чтение всего контента на RSS переводил

Уровень сложности Простой
Время на прочтение 13 мин
Количество просмотров 4.6K

TL;DR В статье рассказывается о том, как мне удалось перевести чтение лент в ВКонтакте**, Telegram, Facebook*, Instagram**, Reddit и почтовых рассылок в единый сервис InoReader. Причем почти без написания своих велосипедов.

Подписаться на RSS
Всего голосов 39: ↑38 и ↓1 +37
Комментарии 32

Метод главных компонент (PCA). Принцип работы и реализация с нуля на Python

Уровень сложности Сложный
Время на прочтение 8 мин
Количество просмотров 5.9K

Метод главных компонент (Principal Component Analysis или же PCA) — алгоритм обучения без учителя, используемый для понижения размерности и выявления наиболее информативных признаков в данных. Его суть заключается в предположении о линейности отношений данных и их проекции на подпространство ортогональных векторов, в которых дисперсия будет максимальной.

Такие вектора называются главными компонентами и они определяют направления наибольшей изменчивости (информативности) данных. Альтернативно суть PCA можно определить как линейное проецирование, минимизирующее среднеквадратичное расстояние между исходными точками и их проекциями.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 0

Кластеризация в ML: от теоретических основ популярных алгоритмов к их реализации с нуля на Python

Уровень сложности Сложный
Время на прочтение 34 мин
Количество просмотров 7.7K

Кластеризация — это набор методов без учителя для группировки данных по определённым критериям в так называемые кластеры, что позволяет выявлять сходства и различия между объектами, а также упрощать их анализ и визуализацию. Из-за частичного сходства в постановке задач с классификацией кластеризацию ещё называют unsupervised classification.

В данной статье описан не только принцип работы популярных алгоритмов кластеризации от простых к более продвинутым, но а также представлены их упрощённые реализации с нуля на Python, отражающие основную идею. Помимо этого, в конце каждого раздела указаны дополнительные источники для более глубокого ознакомления.

Читать далее
Всего голосов 35: ↑35 и ↓0 +35
Комментарии 2

Типичные задачи аналитика. Часть 2. А есть ли тренд?

Уровень сложности Средний
Время на прочтение 18 мин
Количество просмотров 8.4K

В первой части статьи на Habr мы рассмотрели классические подходы к оценке изменений метрики при условии ее стационарности. В этом контексте статистические критерии, применяемые в A/B тестировании, оказались весьма эффективными.

Однако, если существует стабильный тренд, например, среднемесячная аудитория увеличивается из года в год, оценка разницы средних за два смежных периода времени может быть некорректной. В таком случае среднее значение предыдущего периода всегда будет отличаться от среднего постпериода, и это часто может быть не связано с исследуемым функционалом.

Одна из причин — тренд не всегда зависит от действий компании и часто является следствием внешних условий. Например, рост аудитории может быть связан с увеличением благосостояния населения, масштабированием бизнеса или сезонными факторами.

Таким образом, наличие или отсутствие тренда является важным аспектом анализа данных. Рассмотрим несколько успешных и неудачных подходов, которые можно применять для решения этой задачи.

Читать далее
Всего голосов 21: ↑21 и ↓0 +21
Комментарии 3

Нелинейные корреляции. Моя любимая статистическая мера: D Хёфдинга

Уровень сложности Средний
Время на прочтение 25 мин
Количество просмотров 4.4K

Предположим, у вас есть две последовательности чисел, которые вы хотите сравнить, чтобы измерить, насколько они связаны или зависимы друг от друга. Это действительно довольно общий сеттинг: две последовательности могут представлять временные ряды, так что у вас есть таблица с тремя столбцами и кучей строк. Первый столбец будет временем (скажем, с часовыми интервалами), а затем по одному столбцу для каждой последовательности; первый, например, может быть средней ценой акции за этот интервал, а второй - объемом торгуемых акций за этот интервал. Или вы могли бы сравнить процентное изменение цены одной акции по сравнению с другой. Конечно, это вовсе не обязательно должны быть временные ряды: у вас также может быть всего два столбца (то есть вообще без столбца времени). Первый может быть ростом американца старше 30 лет в дюймах, а второй — весом того же человека в фунтах. Или, чтобы использовать более актуальный пример, каждый столбец может представлять вектор эмбеддингов некоторых предложений на английском языке от определенной модели LLM. Первый столбец может быть вектором от модели Mixtral 8x7B для строки "I love my 3 sons" (Я люблю моих трех сыновей), а другой — от той же модели для строки "I cherish my 5 daughters" (Я дорожу моими пятью дочерьми).

В каждом из этих случаев у нас есть две последовательности данных, которые мы хотим сравнить. Проблема заключается в том, что в самой общей ситуации мы не имеем ни малейшего представления о том, какова может быть природа связи, или даже есть ли связь, о которой стоит говорить. Что, если две последовательности полностью независимы, как записи бросков двух разных честных кубиков? Что, если данные немного искажены и содержат некоторые экстремальные выбросы, которые искажают наиболее общие виды мер, на которые вы могли бы захотеть посмотреть, такие как среднее значение и дисперсия каждого столбца отдельно? Вы могли бы подумать сейчас: «Погодите, разве ответ на это — просто посмотреть на корреляцию?» И это действительно хорошая идея для проверки, поскольку это наиболее часто используемая мера ассоциации между двумя наборами данных.

Читать далее
Всего голосов 14: ↑14 и ↓0 +14
Комментарии 4

Искусство продуктовой аналитики: как преобразовать цифры в ценные инсайты для бизнеса

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 3.5K

В современном мире данные играют все более важную роль в развитии бизнеса. Они позволяют принимать обоснованные и осознанные решения, а также выявлять потенциальные возможности для оптимизации и роста. Однако, необходимо понимать, что накопление большого объема данных само по себе недостаточно для достижения успеха. Чтобы преобразовать цифры в ценные инсайты, требуется искусство продуктовой аналитики.

Узнать подробнее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 6

После RSS

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 2.1K

В свободное время я занимаюсь разработкой сервиса "Awakari", идея которого - фильтрация интересных событий из неограниченного числа различных источников. В этой статье я расскажу о способах извлечения публично доступной информации в интернете за пределами RSS-лент и телеграм-каналов.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 4

Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров

Время на прочтение 14 мин
Количество просмотров 20K

Привет, Хабр! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги.

В этой статье мы обсудим кластеризацию на графах, задачу выделения сообществ, распад карате-клуба, self-supervised и unsupervised задачи — и как всё это связано с матчингом.

Читать далее
Всего голосов 127: ↑127 и ↓0 +127
Комментарии 33

Требования к данным для систем ИИ по верификации людей

Уровень сложности Средний
Время на прочтение 4 мин
Количество просмотров 1.7K

Чтобы обеспечить надежную и точную верификацию людей при использовании систем ИИ, необходимо разработать и определить оптимальные требования к наборам данных. Целью данного исследования является определение стандартов формирования наборов данных для повышения качества работы систем верификации людей по изображению.

Читать далее
Всего голосов 6: ↑4 и ↓2 +2
Комментарии 2

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн

Сравнение локальных моделей машинного перевода для английского, китайского и русского языков

Уровень сложности Простой
Время на прочтение 10 мин
Количество просмотров 3.6K

"Машинный перевод – одна из наиболее актуальных и востребованных задач в сфере искусственного интеллекта, позволяющая снизить барьер в доступности информации на различных языках. Большинство данных в интернете представлены на английском и русском языках. Количество данных на китайском языке в открытом доступе становится с каждым днем всё больше.  Поэтому необходимо всё больше инструментов позволяющих использовать все эти языки для своей работы.

Читать далее
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 4

Фотограмметрия для создания датасета систем распознавания лиц

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.9K

Качество и объем датасетов играют решающее значение для обучения нейросетей. Разметка данных для датасетов это очень трудоемкая работа, для которой необходим ручной труд тысяч человек. Когда пользоватьель вводит капчу типа «укажите светофоры» на сайтах, он помогает ИТ‑компаниям размечать данные для датасетов. 20 лет назад считалось, что роботы не могут играть в шахматы, писать симфонии и рассказы. Сегодня в 2024 оказалось, что роботы могут писать симфонии, но не могут указать на каких картинках изображены светофоры. Поэтому для разметки датасетов используется люди. Для определения наличия на картинке светофора или пожарного гидранта используется низкоквалифицированная рабочая сила. Для определения признаков заболевания на рентгеновском снимке используются высококвалифицированные врачи. В любом случае используются люди. Поэтому данные для обучения нейросетей получаются очень дорогими. Есть даже поговорка: «Данные‑это новая нефть». Я бы уточнил, что «Размеченные данные‑это новая нефть».

Под катом будет описана методика добычи (или, как говорят нефтянники, дОбычи) относительно недорогих, но объемных датасетов для систем распознавания лиц.

Читать далее
Рейтинг 0
Комментарии 28

Анализ системы защиты от ботов на примере letu.ru

Уровень сложности Средний
Время на прочтение 40 мин
Количество просмотров 5.2K

Анализ системы защиты сайта от ботов на примере letu.ru с использованием javascript reverse engineering.

Читать далее
Всего голосов 30: ↑30 и ↓0 +30
Комментарии 15

Типичные задачи аналитика данных. Часть 1. Упала метрика

Уровень сложности Средний
Время на прочтение 15 мин
Количество просмотров 12K

В прошлой статье мы рассматривали неочевидные проблемы АБ тестирования и как можно с ними справляться [ссылка]. Но часто бывает так, что при внедрении новой функциональности АБ тестирование провести нельзя. Например, это типично для маркетинговых кампаний нацеленных на массовую аудиторию. В данной ситуации существует вероятность того, что пользователи контрольной группы, которым недоступна рекламируемая функциональность, начнут массово перерегистрироваться. Также возможен сценарий, при котором возникнет значительное количество негативных отзывов из-за воспринимаемой дискриминации. Но задача оценки таких нововведений одна из наиболее частых, которые приходится решать аналитикам. Если метрики только улучшаются, то это обычно легко объяснить хорошей работой, а если метрика ухудшилась, то сразу появляется задача на аналитика. В этой заметке мы рассмотрим первую часть задачи - а действительно ли метрика упала и если да, то имеет ли смысл разбираться дальше?

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 2

Визуализация статистики о том, что и так все знают

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 14K

Привет, Хабр! Меня зовут Тагир, я занимаюсь аналитикой игровых механик. Недавно я наткнулся на статью, в которой визуализировали жизни тысяч людей с точностью до минуты — люди отмечали, на что они тратят свое время в течение дня, а автор агрегрировал эти данные и сделал визуализацию, разбив активности по категориям. 

Я переложил эту логику на банковские транзакции, чтобы посмотреть, на что люди тратят свои деньги в определенный момент времени, и получил статистику, о которой все и так вроде бы знают. На обед люди ходят в ближайшее кафе и заправляют машину, после работы — в супермаркет, а на выходных — отдыхают в увеселительных заведениях. Но визуализировав эти данные, увидел, что выглядит это весьма залипательно.

Читать далее
Всего голосов 30: ↑29 и ↓1 +28
Комментарии 11

Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 2/2

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 24K

В первой части статьи я рассказывал о создании цифрового юриста, способного отвечать на вопросы на основе 200-страничного регламента. Цель — работа такого юриста в закрытом контуре организации, без использования облачных технологий.

Особенностью эксперимента является в том, что оценку ответов делают обычные люди. Юристы.

Во второй части мы рассмотрим как и зачем делать локальные токензайзеры и попробуем запустить всё полностью на локальной машине с видеокартой 4090.

В конце будет приведена полная сравнительная таблица разных моделей и токензайзеров.

Читать далее
Всего голосов 28: ↑28 и ↓0 +28
Комментарии 25

Hippotable — анализ данных прямо в браузере

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 4.7K

Сегодня я расскажу про hippotable — удобный инструмент для анализа данных. Мне часто нужно поковыряться в датасете среднего размера (1–100 Мб), чтобы ответить на довольно простые вопросы. Ни один из существующих инструментов (bash, google sheets, jupyter + pandas) не показался мне особо подходящим для такой задачи, и я... решил сделать свой! Хотел поделиться результатом, показать пару интересных JS-инструментов для обработки и отображения данных, и рассказать, как дальше планирую развивать продукт. Запрыгивайте, будет интересно.

Читать далее
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 13

Вклад авторов

Работа

Data Scientist
58 вакансий