Как стать автором
Обновить
123.92

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Что покажет бенчмарк? Оценка мультиагентных систем в действии

Время на прочтение6 мин
Количество просмотров437

Изучим бенчмарк для мультиагентных систем, его методологии и применение в оценке производительности агентов в сложных средах.

Читать далее

Глубокое Q-обучение (DQN)

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров3.3K

Подходит к завершению серия моих публикаций про использование идей искусственного интеллекта для решения задачи коммивояжера (TSP).

В этой заметке помогаю разобраться в авторской реализации Deep Q-learning для TSP.

Читать далее

Инструменты, задачи, рассуждения: как понять, на что способен твой LLM-агент

Время на прочтение15 мин
Количество просмотров3K

LLM-агенты — отстой. Я провёл последнюю неделю, разрабатывая LLM-агента с возможностью веб-краулинга, используя популярный Python-фреймворк, чтобы собирать информацию о потенциальных лидах из интернета. Результат оказался полным разочарованием.

Агент оказался медленным, нестабильным и с огромным числом багов (звучит знакомо? Передадим привет OpenAI!). Он постоянно делал ненужные вызовы функций, а иногда намертво застревал в бесконечных петлях "рассуждений", которые не имели никакого смысла. В итоге я на это забил и заменил его простым web-scraping скриптом, на написание кода которого у меня ушло 30 минут.

Читать далее

Data Science в рекрутинге: как структурировать хаос резюме и находить лучших кандидатов. (часть 1)

Время на прочтение3 мин
Количество просмотров396

Подбор персонала — это поиск иголки в стоге сена, с одной оговоркой: иголка должна хотеть работать именно у вас. Когда на входе — сотни резюме с hh.ru, а на выходе нужно выбрать топ-5 кандидатов, без автоматизации не обойтись. Но как научить алгоритм отличать будущего топ-менеджера от человека, который в графе «Опыт работы» указал «10 лет в Minecraft»?

Читать далее

Хочешь умного агента? Научись оценивать его правильно

Время на прочтение7 мин
Количество просмотров1.1K

В середине 2024 года AI-агенты стали главной темой обсуждений в технологическом сообществе — с помощью них теперь выполняют множество задач от заказа ингредиентов для ужина до бронирования билетов и записи на прием к врачу. Затем появились вертикальные AI-агенты — узкоспециализированные системы, о которых заговорили как о потенциальной замене привычных SaaS-решений. Но по мере роста влияния агентов увеличиваются и риски, связанные с их преждевременным внедрением.

Недостаточно протестированный AI-агент может стать источником множества проблем: от неточных предсказаний и скрытых байасов до плохой адаптивности и уязвимостей в безопасности. Такие ошибки дезориентируют пользователей и подрывают доверие к системе, нарушая принципы fairness и транспарентности.

Если вы разрабатываете AI-агента, наличие чёткой стратегии безопасного деплоймента критически важно. В этой статье мы рассмотрим, почему тщательная валидация необходима, разберём пошаговые подходы к тестированию и методы проведения комплексной оценки AI-агентов для обеспечения их надёжного развертывания.

Читать далее

Эра Big Data: новые возможности в принятии решений

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.6K

Big Data - это огромные объёмы данных, которые невозможно обработать с помощью традиционных методов.

Они могут быть структурированными (например, данные из баз данных) или неструктурированными (например, текстовые данные из социальных сетей).

Большие данные представляют собой колоссальные массивы информации, генерируемые в процессе повседневной деятельности индивидов и организаций.

Эти данные аккумулируются, подвергаются обработке и анализу с применением специализированных технологий и методологий, что позволяет извлекать из них ценные инсайты и прогнозировать будущие тенденции.

Подробнее читать статью

Как тестировать AI-агентов, чтобы не было больно

Время на прочтение9 мин
Количество просмотров2.5K

AI-агенты трансформируют индустрии — от чат-ботов в службе поддержки до продвинутых ассистентов для программирования. Однако, чтобы они действительно были эффективными и заслуживающими доверия, необходимо их тщательное тестирование. Строгая процедура тестирования и оценки позволяет оценить производительность агента, адаптивность к новым сценариям и соответствие требованиям безопасности.

В этой статье изложены структурированные шаги для тестирования и оценки AI-агентов с точки зрения надежности, устойчивости к сбоям и общего воздействия.

Читать далее

История исследования и анализа информации. Архитектура Data Mesh: концептуальные основы

Уровень сложностиСложный
Время на прочтение7 мин
Количество просмотров1.2K

С возникновением первых вычислительных машин предприятия осознали потребность в обработке и анализе информации.

В 1980-е годы они приступили к формированию информационных хранилищ, основанных на реляционных базах данных, которые стали ключевым инструментом для принятия взвешенных решений.

Но по мере того как компании накапливали всё больше разнородных сведений, недостатки реляционных баз данных становились всё более явными.

С началом нового тысячелетия мы вступили в эпоху больших данных. Специалисты разработали передовые инструменты для обработки огромных массивов разнообразных данных, которые генерируются с невероятной скоростью.

Для работы с данными и их структурой используются технологии, которые позволяют эффективно обрабатывать и анализировать большие объёмы информации.

Тем не менее, при внедрении таких аналитических инструментов компании всё ещё сталкивались с определёнными трудностями.

Архитектура сохраняла свою целостность, и одна команда специалистов занималась созданием платформы и интеграцией данных.

В крупных компаниях такой метод сразу же вызывал формирование значительных очередей за услугами по интеграции и аналитическими инструментами.

В данном контексте централизация оказалась ахиллесовой пятой крупных корпораций.

В крупных организациях попытка сосредоточить все усилия по интеграции данных в одной группе может оказаться неэффективной. Зачастую источники информации находятся в разных местах, не имея единого центра управления, что затрудняет поиск ответственных лиц. Такой подход не приводит к нужным результатам.

Подробный текст статьи

Обработка геоданных для ML-задач. Часть 3: агрегирование данных и оценка пространственных шаблонов

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.2K

Пространственное агрегирование помогает контролировать степень детализации данных в зависимости от пространственных характеристик отдельных записей. Эта операция может быть полезна, если вы хотите сравнить разные регионы по конкретному параметру, (например, плотность населения или динамика продаж), оценить значение признака на единицу площади (скажем, среднюю выручку магазинов на квадратный километр) или преобразовать набор точек в растровые пространственные данные.

Важно учитывать, что агрегирование упрощает анализ, но «схлопывает» внутреннюю вариативность данных, типа как усреднённая температура по больнице может скрывать локальные перегретые серверные. Существует, по крайней мере, три метода пространственного агрегирования...

Читать далее

Тайные сообщества товаров: обзор графовых методов

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров1.6K

Привет, Хабр! На связи команда матчинга и группировки из ecom.tech. Наша команда решает задачи поиска, группировки и сортировки товаров, с помощью алгоритмов машинного обучения. Например, такие алгоритмы объединяют товары от разных продавцов в одной карточке, что дает покупателям возможность сэкономить время и деньги. 

Сегодня мы расскажем, как исследовали алгоритмы community detection для группировки товаров, с какими проблемами столкнулись и при чём тут матчинг. Статья будет полезна всем, кто работает с большими объемами данных и ищет способы оптимизировать операции с этими данными. Поехали!

Читать далее

Оцени, прежде чем доверять: как сделать AI-агента полезным

Время на прочтение7 мин
Количество просмотров2K

Часто недооцененным аспектом разработки AI-агентов остаётся этап оценки. Хотя создать proof of concept относительно просто, поиск оптимальной конфигурации для балансировки стоимости, скорости, релевантности и других параметров требует значительных временных затрат. Инструменты и фреймворки для оценки являются ключевыми элементами этой стадии оптимизации.

Читать далее

Свайп, дофамин, иллюзия выбора: как сервисы превратили любовь в цифровую рулетку

Время на прочтение7 мин
Количество просмотров1.5K

Современные сервисы знакомств оптимизированы не для создания пар, а для монетизации одиночества через манипуляцию дофаминовыми циклами. Конфликт интересов между пользователями и платформами усугубляется архаичными социальными стереотипами и отсутствием платформ использующих современных технологии для поиска (хотя вроде и есть ML, скоринг, кластеризация..) И в таргетинге работают уже в весь рост. Там это выгодно. А выгодно ли сервисам?

Читать далее

Обработка геоданных для ML-задач. Часть 2: пространственные объединения и расстояния

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров830

Статья продолжает обсуждение пространственных признаков в Python. Здесь мы рассматриваем пространственные объединения — аналог обычного объединения в мире геоданных, основанный на топологических отношениях между объектами, таких как пересечение, вложение или касание. Также мы узнаем, как правильно рассчитывать различные типы расстояний (и иногда это не просто евклидово расстояние между двумя точками). Например, геодезическое расстояние учитывает кривизну Земли, что особенно важно для анализа данных на больших территориях; расстояние маршрута учитывает направление: оптимальный маршрут от A до B не всегда равен маршруту от B до A. 

Читать далее

Ближайшие события

Реинжиниринг процессов контроля качества технической поддержки

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров679

Привет, Хабр! Я, Мадаров Артур, руководитель дирекции процессов эксплуатации и ИТ-услуг Страхового Дома ВСК. Недавно мы с командой произвели реинжиниринг процессов контроля качества ИТ поддержки. Хотим поделиться нашим опытом.

Предпосылки изменений

Тенденции по развитию ландшафта ИТ систем, увеличению каталога сервисов по предоставлению услуг технической поддержки, и, как следствие, увеличению количества пользователей приводят к трансформации процессов и подходов анализа, оценки и контроля качества ИТ поддержки.

Если вчера процессы контроля качества в поддержках разного уровня, различных контактных центрах выстраивались вокруг выборки обращений до1–2% обращаемости, их оценке по критериям чек-листа и включению результирующей оценки в KPI, то сегодня фокус на оценке качества обслуживания клиентов требует глубокого анализа направлений поддержки, автоматизированных инструментов по оценке и контролю, внедрения технологий по анализу 100% обращаемости.

Читать далее

Обработка геоданных для ML-задач. Часть 1

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.4K

Привет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с геоданными. Для многих эта тема кажется немного «магией» и я хотел бы на страницах Хабра пролить на нее немного света.

Эта статья — как шпаргалка для шеф-повара: берите готовые рецепты под ваши задачи. Здесь вы найдёте ключевые библиотеки (geopandas, h3-py) и принципы работы с геоданными — от парсинга OpenStreetMap до агрегации по шестиугольникам.

Читать далее

AutoEncoders and hidden states Analysis

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров752

Привет, друзья!

Я продолжаю цикл статей по туториалам, посвященным области explainable AI. Так, уже были разобраны метод Logit Lens на примере ViT, зондирование gpt2, CAM на примере Yolo NAS — всё можно найти по статьям в профиле. В этом же туториале мы разберем идею применения автокодировщиков для анализа и извлечения признаков из скрытых состояний модели.

Читать далее

Интеллектуальный фотофиниш

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров514

Во многих соревнованиях тема дополнительных показателей является достаточно острой, иногда даже холиварной. По-другому быть не может, ведь они выходят на сцену в самый драматичный момент, когда определяются судьбы кубков, медалей, а порой и карьер.

Есть, например, мнение, что если бы Саутгейт-игрок забил тот пенальти в 1996, то, возможно, стиль сборной Англии при Саутгейте-тренере был более смелым.

Конечно, основная тема для споров - это мера случайности различных доппоказателей, сама по себе или в сравнении с "настоящей игрой". В каждом виде соревнований эти показатели и споры об их случайности свои, тут сложно придумать какой-то универсальный ответ.

Я довольно много играю в спортивное "Что? Где? Когда?", поэтому хочу сделать заход в этой области.

Читать далее

Руководство по созданию датасета для машинного обучения

Время на прочтение5 мин
Количество просмотров3.5K

Создание хорошего датасета — это процесс, который требует внимательного планирования и глубокого понимания задачи.

В этом руководстве мы разберем каждый этап подготовки данных (от постановки цели до сбора, очистки и организации информации), рассмотрим частые ошибки и дадим рекомендации, которые помогут сделать ваш датасет максимально полезным.

Читать далее

AI (Computer Vision) для реальной жизни (или кто для кого готов)

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.4K

Профессия «плотник» полезна в обычной жизни, а что можно сказать о «программисте»? Когда государственной политикой является цифровизация, то правительство должно понимать: цифра она везде цифра! И в обычной жизни придется учитывать и такие истории.

Но сначала, чтоб не тратить время «продвинутых» хабберчан, краткое резюме:
1. уровень технической информации = junior
2. стек = python, ultralytics, YOLO (различных версий)
3. тема = распознование объектов, обучение модели
4. социальная польза = забота об экологии в городе Москва

История эта началась в нулевых, когда в очередной раз проходя мимо круга разворота автобусов, что находится у дома, я заплутал между громадного их количества, стоящих с включенными двигателями и чадящим прямо под окнами жителей.

детали под катом

LLM red teaming: полное руководство [+советы экспертов]

Время на прочтение12 мин
Количество просмотров1.1K

Давайте представим стратегию, зародившуюся в военной сфере, где команды притворяются врагами друг друга, чтобы проверить оборонительные механизмы. Этот подход, известный как red teaming, оказался чрезвычайно ценным и теперь нашёл новое применение. Сегодня, когда искусственный интеллект занимает всё больше места в нашей повседневной жизни, использование метода red teaming для тестирования этих систем становится необходимым. Red teaming для моделей-LLM помогает убедиться, что они не только эффективны в работе, но и безопасны и надежны.

Читать далее

Работа

Data Scientist
45 вакансий