Обновить
32.36

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.3K

Под устареванием моделей понимается их постепенная потеря точности из-за изменения данных, на которых они были обучены. Если проще: модель начинает хуже предсказывать. 

Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага.

В этой части мы начнем с первого и самого важного шага – понимание устаревания в ML-моделях.

Мы выясним, что такое устаревание моделей на практике, и определим, в каких случаях эта проблема требует внимания, а в каких нет.

Читать далее

Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

Время на прочтение18 мин
Количество просмотров2.3K

Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сложность модели прямо пропорциональна размеру её выходного пространства, что, в свою очередь, создаёт больше возможностей для нежелательных рисков безопасности, таких как раскрытие личной информации и генерация дезинформации, предвзятости, разжигания ненависти или вредоносного контента. В случае с Gemini были выявлены серьёзные внутренние искажения, обусловленные составом обучающих данных, что и отразилось в его результатах.

Читать далее

Об OpenAI Deep Research

Уровень сложностиСредний
Время на прочтение28 мин
Количество просмотров10K

Всем привет! Меня зовут Владимир, я разработчик ИИ с 8-летним стажем (до этого много backend-frontend, веб-разработки и всего такого), увлеченный наукой и технологиями (в первую очередь наукой омоложения, физикой, автоматизацией -- в прочем как и Вы).

В своей карьере мне довелось пережить эволюцию поисковых инструментов: от эпохи простых поисковиков, через взрыв популярности форумов и Stack Overflow, до появления современных AI-ассистентов. И каждый новый виток этой эволюции менял наш подход к поиску и анализу информации.

Теперь же на горизонте замаячило нечто действительно революционное — автономные ИИ-агенты для проведения исследований. Сегодня я расскажу об одном из самых обсуждаемых таких инструментов — OpenAI Deep Research. Этот специальный режим ChatGPT обещает вывести поиск информации на новую глубину.

Давайте разберемся, что он из себя представляет, чем отличается от привычных нам инструментов, и как его можно применить с максимальной пользой...

Читать далее

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

Время на прочтение19 мин
Количество просмотров2.5K

В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли ваш процесс оценки к бесконечному циклу запуска LLM-приложений на наборе промптов, ручному анализу выходных данных и субъективной оценке их качества? Если да, то пора осознать, что оценка — это не разовая процедура, а многоэтапный итеративный процесс, оказывающий значительное влияние на производительность и жизненный цикл вашей LLM-системы. С развитием LLMOps (расширения MLOps, адаптированного для больших языковых моделей) интеграция процессов CI/CE/CD (непрерывная интеграция, непрерывная оценка и непрерывное развертывание) становится неотъемлемой частью управления жизненным циклом LLM-приложений.

Итеративный характер оценки включает в себя несколько ключевых компонентов. Во-первых, необходимо постоянно обновлять и улучшать тестовый датасет. Во-вторых, важно выбирать и внедрять метрики оценки, наиболее подходящие для конкретного сценария использования. Наконец, надежная инфраструктура оценки позволяет проводить тестирование в реальном времени на протяжении всего жизненного цикла LLM-приложения. Крайне важно признать значимость оценки как непрерывного и динамического процесса. Это компас, помогающий разработчикам и исследователям совершенствовать и оптимизировать LLM для повышения производительности и практического применения.

Читать далее

Распили её правильно. А/В разрез генеральной совокупности

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров605

В написании этой статьи ни один ИИ не пострадал участвовал. Весь текст написан с помощью мощного естественного интеллекта автора

В настоящее время АВ тестирование приобрело всеобъемлющий и неоспоримый формат исследования своих действий в предложении товаров и услуг, да и любого исследования человеческих сообществ.

И главное, что всё просто - берете исследуемое множество, выделяете часть и исследуете эту часть. В надежде, что свойства этой части такие, же как и у всего сообщества.

Главное тут - правильно разделить.

посмотри на А/В тест с другой стороны

Как я объединил перевод и суммаризацию текстов, и что из этого вышло

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2K

Перевод и суммаризация текстов – это две задачи, которые на первый взгляд кажутся совершенно разными. Перевод требует точного передачи исходного содержания на другой язык, сохраняя все детали и нюансы. Суммаризация же предполагает сокращение текста до его основных идей, часто убирая второстепенные детали.

Однако при ближайшем рассмотрении эти задачи имеют много общего...

Читать далее

Применение технологии RAG при построении интегрированных систем для цифровых продуктов: детальный разбор

Время на прочтение8 мин
Количество просмотров3.8K

В 2024 году популярными словами и постоянной темой для обсуждения в IT были большие языковые модели (LLM), обработка естественного языка (NLP), искусственный интеллект и создание ценностей. Однако вкатиться в эту экосистему без подготовки может быть довольно сложно. Давайте начнём с того, что рассмотрим понятие генерации с дополненной выборкой (Retrieval Augmented Generation, RAG), чтобы лучше понять эту технологию и возможность её использования в наших цифровых продуктах.

Читать далее

У SAMURAI есть цель — zero-shot решение задачи Visual Object Tracking(VOT)

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров938

Визуальный трекинг объектов без обучения – сложная задача, особенно в динамических сценах. Новый метод SAMURAI расширяет возможности SAM-2, интегрируя механизмы моделирования движения и улучшая архитектуру памяти.

SAMURAI использует фильтр Калмана для моделирования движения и стабилизации предсказаний, что позволяет значительно повысить точность трекинга в сложных условиях. Метод превосходит существующие zero-shot методы и демонстрирует конкурентоспособные результаты по сравнению с обучаемыми моделями.

Подробнее об архитектуре SAMURAI

Прогнозируем движение беспилотного автомобиля (или как я вышел в тройку лидеров на Yandex Cup 2024)

Время на прочтение9 мин
Количество просмотров2.6K

Хабр, привет! Меня зовут Николай Назаров, я работаю аналитиком данных в X5 Tech. Недавно завершился чемпионат по программированию Yandex Cup ML Challenge 2024, в котором я занял второе место в задаче “Self-driving cars: предсказание движения беспилотного автомобиля”. В статье расскажу про задачу и подходы, которые использовал для решения.

Читать далее

Внимание правильный ответ

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.5K

Если читатель был достаточно внимателен, то, наверное, заметил, что в предыдущей заметке я обошел стороной непосредственно блок механизма внимания, точнее сказать, описание было дано методом черного ящика: вот тут такие-то входы, там такие-то выходы. Теперь, внимание, вопрос знатокам: Что лежит в черном ящике? В действительности, крайне важно понимать, что там внутри и логично посвятить данной теме отдельный текст. Понимание механизма внимания определяет ход дальнейших размышлений вплоть до самых передовых архитектур ИИ и поэтому сложно переоценить важность этой темы.

Читать далее

Оценка чат-ботов LLM: основные метрики и методы тестирования

Время на прочтение9 мин
Количество просмотров2.8K

В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель.

В этой статье вы узнаете:

* Разницу между оценкой LLM-чат-ботов и стандартной оценкой LLM

* Различные подходы к оценке LLM-диалогов

* Различные типы метрик для оценки LLM-чат-ботов

* Как реализовать оценку LLM-диалогов в коде с использованием DeepEval

Читать далее

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

Время на прочтение17 мин
Количество просмотров3.2K

Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM.

Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов, в то время как критерии оценки формализуются в виде метрик оценки LLM.

На повестке дня:

В чем разница между оценкой LLM и оценкой системы LLM, а также их преимущества

Офлайн-оценки, что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки

Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок

Реальные примеры использования систем LLM и как их оценивать, включая chatbotQA и Text-SQL

Читать далее

Внимание — это все, что нужно коммивояжеру

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров3K

Заголовок отсылает к знаменитой работе Attention Is All You Need, которая фактически перевернула мир ИИ, сделав его другим, не таким, как прежде. В этой научной публикации описаны принципы реализации архитектуры трансформеров, но в ее названии упоминается именно механизм внимания. Долгое время я пытался ответить себе на один простой вопрос: где все-таки заканчивается ML и начинается AI для задачи коммивояжера и вообще? Мне кажется, ответ пролегает где-то рядом с проростанием механизма внимания, который в 2014 году был предложен Dzmitry Bahdanau (извиняюсь, не знаю, как правильно писать по-русски его фамилию). Безусловно, были работы Хопфилда, получившего в 2024 Нобелевскую премию по физике, в том числе, за свою архитектуру нейронной сети, которая способна решать задачу коммивояжера. Были и другие работы, но, в случае разбора еще одного алгоритма из прошлого века, боюсь, нарваться на обратную связь в стиле: “дядь, не мороси, давай уже там про свой ИИ пиши, а не вот эти свои нафталиновые алгоритмы описывай”, поэтому про нейронную сеть Хопфилда готов написать, но только если будет ощутимая обратная связь.

Механизм внимания был предложен как способ улучшить seq-to-seq модели, применяемых для перевода текста с одного языка на другой. Кто бы мог подумать, но токены слов можно заменить координатами городов и попробовать решить задачу TSP той же моделью. В конце концов человек тоже использует одно и тоже серое вещество для решения разных задач. Первые попытки реализации этой идеи подразумевали наличие оптимального эталонного маршрута в виде, например, посчитанного решения Concorde. Но позже появилась идея использования техники обучения с подкреплением или Reinforcement learning. Таким образом, появилась нейронная сеть Pointer Networks, о которой собственно я и хотел сегодня поговорить.

Читать далее

Ближайшие события

Data-driven культура и подход по версии аналитика

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.3K

Привет! Я работаю в аналитике и с данными уже 13+ лет. Про data-driven от заказчиков-пользователей трудов моей работы слышу тоже, почти 13+ лет. И очень разные интерпретации этого явления встречал. Думаю, что я один из тех, чья трудовая деятельность ближе всего к data-driven. Хочу рассказать о том, какой data-driven = хорошо, а какой != хорошо.

Эта статья может быть полезна как управленцам, так и аналитикам. Давайте говорить на «одном языке».

Читать далее

Метрики оценки LLM: полное руководство по оценке LLM

Время на прочтение21 мин
Количество просмотров11K

Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования, является обязательным для построения надежного конвейера оценки LLM.

В этой статье вы научитесь всему, что нужно знать о метриках оценки LLM, включая примеры кода. Мы рассмотрим следующие вопросы:

Что такое метрики оценки LLM, как их можно использовать для оценки систем LLM, а также распространенные ошибки и что делает метрики отличными.

Различные методы вычисления метрик оценки LLM и почему подход LLM-as-a-judge («LLM как судья») является наиболее эффективным.

Как реализовать и выбрать подходящий набор метрик оценки LLM с использованием библиотеки DeepEval (GitHub: DeepEval).

Читать далее

Улучшаем RAG с помощью графов знаний

Время на прочтение15 мин
Количество просмотров8.5K

Генерация с дополненной выборкой (RAG) — это метод, который соединяет внешние источники данных для улучшения вывода больших языковых моделей (LLM). Этот метод идеально подходит для LLM для доступа к частным или специфичным для предметной области данным и решения проблем, связанных с галлюцинациями. Поэтому RAG широко используется для поддержки многих приложений GenAI, таких как чат-боты AI и системы рекомендаций.

Базовый RAG обычно объединяет векторную базу данных и LLM, где векторная база данных хранит и извлекает контекстную информацию для пользовательских запросов, а LLM генерирует ответы на основе извлеченного контекста. Этот подход хорошо работает во многих случаях, однако он испытывает трудности со сложными задачами, такими как многоадресное рассуждение или ответы на вопросы, требующие соединения разрозненных фрагментов информации.

Например, вопрос «Какое имя было дано сыну человека, который победил узурпатора Аллектуса?»

Читать далее

Алгоритм Кристофидеса-Сердюкова

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров6.8K

В прошлой заметке я коснулся принципа работы некоторых популярных алгоритмов неточного решения задачи коммивояжера (TSP). Материал получился объемным и сунуть туда еще одно описание алгоритма было бы чрезмерностью. Тем не менее, считаю важным рассказать еще об одном решении, которое носит название - Алгоритм Кристофидеса-Сердюкова. Причины, по которым мне хочется об этом поговорить следующие:

1. Речь идет про алгоритм, который часто используется в качестве бенчмарка при оценке эффективности поиска решений сетками с использованием трансформеров, например в работе TranSPormer: A Transformer Network for the Travelling Salesman Problem и не только

2. Несмотря на то, что алгоритм назван в честь русского математика в русскоязычном сегменте интернета не так много публикаций на эту тему, можно отметить статью Сердюкова от 1978 и упоминание в Википедии

3. Наконец, алгоритм просто красив. Понимаю, что математическая эстетика – это нечто скрытое в глубине вещей и недоступное суетливому взору, но верю, что и такая категория красоты найдет своего читателя.

Читать далее

AI для аналитики

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров4.7K

Случается, что мои знакомые и друзья внезапно возбуждаются на тему ИИ и начинают тревожно звонить с вопросами: ну что там с ИИ? Уже случилась революция? Пора всех увольнять и срочно заменять чат-ботами?

Уволить конечно можно, особенно бездельников и когда на заводах/пароходах работать некому, но касаемо реальных бизнес-кейсов с ИИ все не то чтобы прям заладилось. Бизнес конечно по-прежнему возбуждается и визионирует на конференциях, но реальные проекты пока драйвово буксуют, а ванильный AI-вайб начинает попахивать болотной тиной.

Надо с этим что-то делать и срочно насыпать каких-нибудь корповых бизнес-кейсов и потом к этим кейсам прикрутить какую-нибудь новую ИИ-штуку чтобы вернуть радугу приунывшим единорогам.

Читать далее

GraphRAG: Повышение точности и полноты GenAI

Время на прочтение4 мин
Количество просмотров7.2K

GraphRAG предоставляет «граф знаний» LLM. В отличие от текстовых документов, эти структуры данных четко отображают взаимосвязи между объектами.

Читать далее

Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

Время на прочтение29 мин
Количество просмотров1.2K

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей больших языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацией о неспособности моделей успешно масштабироваться из-за предполагаемой низкой производительности. Критики также указывают на исчерпание доступных данных для обучения и замедление масштабирования оборудования для обучения.

Читать далее