Как стать автором
Поиск
Написать публикацию
Обновить
31.46

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Оцени, прежде чем доверять: как сделать AI-агента полезным

Время на прочтение7 мин
Количество просмотров2.1K

Часто недооцененным аспектом разработки AI-агентов остаётся этап оценки. Хотя создать proof of concept относительно просто, поиск оптимальной конфигурации для балансировки стоимости, скорости, релевантности и других параметров требует значительных временных затрат. Инструменты и фреймворки для оценки являются ключевыми элементами этой стадии оптимизации.

Читать далее

Свайп, дофамин, иллюзия выбора: как сервисы превратили любовь в цифровую рулетку

Время на прочтение7 мин
Количество просмотров1.5K

Современные сервисы знакомств оптимизированы не для создания пар, а для монетизации одиночества через манипуляцию дофаминовыми циклами. Конфликт интересов между пользователями и платформами усугубляется архаичными социальными стереотипами и отсутствием платформ использующих современных технологии для поиска (хотя вроде и есть ML, скоринг, кластеризация..) И в таргетинге работают уже в весь рост. Там это выгодно. А выгодно ли сервисам?

Читать далее

Обработка геоданных для ML-задач. Часть 2: пространственные объединения и расстояния

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров901

Статья продолжает обсуждение пространственных признаков в Python. Здесь мы рассматриваем пространственные объединения — аналог обычного объединения в мире геоданных, основанный на топологических отношениях между объектами, таких как пересечение, вложение или касание. Также мы узнаем, как правильно рассчитывать различные типы расстояний (и иногда это не просто евклидово расстояние между двумя точками). Например, геодезическое расстояние учитывает кривизну Земли, что особенно важно для анализа данных на больших территориях; расстояние маршрута учитывает направление: оптимальный маршрут от A до B не всегда равен маршруту от B до A. 

Читать далее

Реинжиниринг процессов контроля качества технической поддержки

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров762

Привет, Хабр! Я, Мадаров Артур, руководитель дирекции процессов эксплуатации и ИТ-услуг Страхового Дома ВСК. Недавно мы с командой произвели реинжиниринг процессов контроля качества ИТ поддержки. Хотим поделиться нашим опытом.

Предпосылки изменений

Тенденции по развитию ландшафта ИТ систем, увеличению каталога сервисов по предоставлению услуг технической поддержки, и, как следствие, увеличению количества пользователей приводят к трансформации процессов и подходов анализа, оценки и контроля качества ИТ поддержки.

Если вчера процессы контроля качества в поддержках разного уровня, различных контактных центрах выстраивались вокруг выборки обращений до1–2% обращаемости, их оценке по критериям чек-листа и включению результирующей оценки в KPI, то сегодня фокус на оценке качества обслуживания клиентов требует глубокого анализа направлений поддержки, автоматизированных инструментов по оценке и контролю, внедрения технологий по анализу 100% обращаемости.

Читать далее

Обработка геоданных для ML-задач. Часть 1

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.5K

Привет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с геоданными. Для многих эта тема кажется немного «магией» и я хотел бы на страницах Хабра пролить на нее немного света.

Эта статья — как шпаргалка для шеф-повара: берите готовые рецепты под ваши задачи. Здесь вы найдёте ключевые библиотеки (geopandas, h3-py) и принципы работы с геоданными — от парсинга OpenStreetMap до агрегации по шестиугольникам.

Читать далее

AutoEncoders and hidden states Analysis

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров810

Привет, друзья!

Я продолжаю цикл статей по туториалам, посвященным области explainable AI. Так, уже были разобраны метод Logit Lens на примере ViT, зондирование gpt2, CAM на примере Yolo NAS — всё можно найти по статьям в профиле. В этом же туториале мы разберем идею применения автокодировщиков для анализа и извлечения признаков из скрытых состояний модели.

Читать далее

Интеллектуальный фотофиниш

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров515

Во многих соревнованиях тема дополнительных показателей является достаточно острой, иногда даже холиварной. По-другому быть не может, ведь они выходят на сцену в самый драматичный момент, когда определяются судьбы кубков, медалей, а порой и карьер.

Есть, например, мнение, что если бы Саутгейт-игрок забил тот пенальти в 1996, то, возможно, стиль сборной Англии при Саутгейте-тренере был более смелым.

Конечно, основная тема для споров - это мера случайности различных доппоказателей, сама по себе или в сравнении с "настоящей игрой". В каждом виде соревнований эти показатели и споры об их случайности свои, тут сложно придумать какой-то универсальный ответ.

Я довольно много играю в спортивное "Что? Где? Когда?", поэтому хочу сделать заход в этой области.

Читать далее

Руководство по созданию датасета для машинного обучения

Время на прочтение5 мин
Количество просмотров3.9K

Создание хорошего датасета — это процесс, который требует внимательного планирования и глубокого понимания задачи.

В этом руководстве мы разберем каждый этап подготовки данных (от постановки цели до сбора, очистки и организации информации), рассмотрим частые ошибки и дадим рекомендации, которые помогут сделать ваш датасет максимально полезным.

Читать далее

AI (Computer Vision) для реальной жизни (или кто для кого готов)

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.4K

Профессия «плотник» полезна в обычной жизни, а что можно сказать о «программисте»? Когда государственной политикой является цифровизация, то правительство должно понимать: цифра она везде цифра! И в обычной жизни придется учитывать и такие истории.

Но сначала, чтоб не тратить время «продвинутых» хабберчан, краткое резюме:
1. уровень технической информации = junior
2. стек = python, ultralytics, YOLO (различных версий)
3. тема = распознование объектов, обучение модели
4. социальная польза = забота об экологии в городе Москва

История эта началась в нулевых, когда в очередной раз проходя мимо круга разворота автобусов, что находится у дома, я заплутал между громадного их количества, стоящих с включенными двигателями и чадящим прямо под окнами жителей.

детали под катом

LLM red teaming: полное руководство [+советы экспертов]

Время на прочтение12 мин
Количество просмотров1.1K

Давайте представим стратегию, зародившуюся в военной сфере, где команды притворяются врагами друг друга, чтобы проверить оборонительные механизмы. Этот подход, известный как red teaming, оказался чрезвычайно ценным и теперь нашёл новое применение. Сегодня, когда искусственный интеллект занимает всё больше места в нашей повседневной жизни, использование метода red teaming для тестирования этих систем становится необходимым. Red teaming для моделей-LLM помогает убедиться, что они не только эффективны в работе, но и безопасны и надежны.

Читать далее

Как спрогнозировать вес птицы с помощью XGBoost: от предобработки данных до оптимизации модели

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.2K

Привет, Хабр! Вот когда каждый грамм действительно имеет значение: если вам нужно спрогнозировать вес птицы перед продажей, чтобы экономить на кормах и оптимизировать производство. Меня зовут Михаил Чирков, я data scientist в R-Style Softlab и сегодня хочу поделиться с вами кейсом прогнозирования с помощью XGBoost, этот проект мы делали в рамках внедрения BI-системы для птицефабрики. 

Читать далее

Propensity Score Matching: как оценить эффект, если проведение A/B-теста не возможно?

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.7K

Как определить, влияет ли то или иное событие на ключевые метрики, если полноценный A/B-тест недоступен?

В этой статье мы разберём метод Propensity Score Matching (PSM): узнаем, как компенсировать отсутствие рандомизации, выровнять группы по ключевым признакам и избежать ложных выводов при оценке эффектов.

Читать далее

А не пора ли нам подкрепиться?

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.7K

Обучение с подкреплением – это одна из ключевых концепций ИИ. Пришло время подкрепить коммивояжера и его задачу поиска кратчайшего пути Q-обучением. Табличный вариант Q-обучения является сравнительно простой и эффективной реализацией обучения с подкреплением.

Читать далее

Ближайшие события

Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.2K

Всем привет! Это DS-ы Павел Парфенов и Максим Шаланкин из команды Финтеха Big Data МТС. Мы и наши коллеги Data Scientists и Data Analysts ежедневно обрабатываем огромные массивы информации, строим модели и выделяем целевые сегменты, чтобы принимать обоснованные решения. Наши рутинные задачи — предварительный анализ данных (EDA), обучение ML-моделей и сегментация аудитории — часто отнимают кучу времени и ресурсов. 

Для себя и коллег с другими компетенциями мы решили сделать инструмент, который сэкономит время на рутинных задачах. В этой публикации мы подробно расскажем, что именно оптимизировали с помощью автоматизации и на каких этапах рабочего процесса применяем нашу командную платформу. Используя этот опыт, вы сможете освободиться от монотонных действий при работе с данными и сосредоточиться на по-настоящему важных вещах.

Читать далее

Мир будущего: управление устройствами с помощью жестов

Время на прочтение13 мин
Количество просмотров1.6K

Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег.

Привет, Хабр! Это Александр Нагаев, техлид из SberDevices команды R&D компьютерного зрения. Расскажу, как создавать и использовать оптимизированные модели для управления устройствами с помощью жестов.

Читать далее

Программный код в Big data и Power law

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров898

В статье приводятся оригинальные модули Python и даётся пояснение по их применению в задачах распределённой децентрализованной сети по типу блокчейн или, другими словами, в процессах самоорганизованной критичности (SOC). В научных публикациях чаще встречается физический термин SOC в качестве концепции, включающей процессы турбулентности, детонации, землетрясения, нейросети, фондовая волатильность, социальный рейтинг и другие.

Для процессов SOC характерно отсутствие управляющих параметров и масштабная инвариантность. Универсальность сложных процессов SOC со степенным законом Power law имеет тот же характер, как и универсальность простых линейных систем, не обладающих масштабной инвариантностью, по отношению к закону нормального распределения вероятности.

Зависимость от масштаба возникает при аналого-цифровом преобразовании битов в позиционную систему счисления и проявляется в законе нормального распределения вероятности в виде дисперсии и математического ожидания. Потеря масштабной инвариантности в позиционной системе счисления компенсируется приобретением принципа причинности. Например, в Древнем Риме, где была принята непозиционная система счисления, вычисляли, что «после того - не вследствие того» и сильно удивились бы истории с падающим на Ньютона яблоком.

Значительные достижения в анализе Big data заставляют предположить связь с распределением вероятности Пуассона: чем больше данных, тем чаще должны встречаться пуассоновские события и вопрос лишь в поиске подходящей метрики и системы счисления.

Читать далее

Logit Lens & ViT model: туториал

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров938

Привет, Хабр! В этом туториале разобран метод для анализа внутренних представлений "логит-линза" (Logit Lens).

В результате практики по туториалу, вы:
1. Изучите подход и концепцию Logit Lens;
2. Реализуете Logit Lens для Visual Transformer;
3. Познакомитесь с анализом результатов применения логит-линзы.

Как всегда, весь код будет на гитхаб — step by step. Welcome!

Читать далее

Настройка PostgreSQL для LLM

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров5K

Итак, в этой статье я расскажу, как эффективно настроить PostgreSQL, чтобы вам было проще работать с большими языковыми моделями.

Пока звучит странно, не правда ли? Что я имею в виду? Я имею в виду повышение эффективности создания любых SQL-запросов в базу данных с использованием LLM (ChatGPT, DeepSeek, Llama и других).

Метод, о котором пойдет речь, до безобразия прост и от этого гениален. После прочтения этой статьи вы сможете самостоятельно или в рамках вашей компании увеличить скорость формирования SQL-запросов в 50 раз!

Читать далее

HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.1K

Датасет HaGRID, о котором мы писали в одном из постов, — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут, тут и тут).

Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M. Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M. Данные, код и предобученные модели можно найти в репозиториях HaGRID, dynamic gestures, а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M, HaGRID.

Читать далее

Как превратить сырые данные в аналитический отчет

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров3.1K

Делюсь опытом и готовыми решениями по сбору и структурированию сырых данных, превращая их в полезный инструмент для аналитиков.

Читать далее