Open Data Science, Москва - Крупнейшее русскоязычное Data Science сообщество / Статьи / Хабр

ПрофильСтатьи189Посты1Новости3Подписчики12K

averkij 25 июл в 09:18

DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке

Средний

12 мин

1.8K

Блог компании СберБлог компании Open Data ScienceМашинное обучение*Open source*Natural Language Processing*

Обзор

С появлением больших языковых моделей (LLM) стало казаться, что они умеют всё: от генерации кода до написания статей в научные журналы. Но, как только дело доходит до фактов, особенно актуальных и узкоспециализированных, начинаются проблемы. LLM — это не поисковики и не базы данных, знания у них статичны: что было в обучающей выборке, то модель и «знает» (да и то не всегда твёрдо). Постоянно дообучать её на актуальных данных — уже вызов. Тут на сцену выходят RAG-системы (Retrieval-Augmented Generation).

Если коротко, RAG — это способ «подкормить» LLM свежими данными: перед генерацией ответа модель получает не только сам вопрос, но и релевантные тексты, найденные внешней поисковой системе или во внутренней базе знаний. Идея звучит просто, но как понять, насколько хорошо это работает? Какие документы действительно помогли модели, а какие запутали её ещё больше? А главное — как сравнить разные RAG-системы между собой по-честному?

Оценка таких систем — нетривиальная задача. С одной стороны, нужно учитывать и качество извлечённых документов, и финальный ответ модели. С другой — важно избегать контаминации: когда модель «угадывает» правильный ответ просто потому, что уже видела его в процессе обучения. Это особенно актуально при использовании статических наборов данных вроде Natural Questions или HotpotQA: они давно «протекли» в открытые датасеты, в том числе для обучения популярных LLM.

+15

balezz 18 июл в 12:39

RKNN Toolkit2: конвертация моделей и симуляция NPU Rockchip

Средний

8 мин

834

Блог компании Open Data SciencePython*Raspberry Pi*TensorFlow*Интернет вещей

Туториал

Rockchip — довольно крупная китайская компания, которая разрабатывает микросхемы для ТВ-приставок, смартфонов и планшетов. Мне довелось поработать с одноплатным компьютером Orange Pi 5, оснащенным ARM чипом RK3588 и NPU (neural processing unit) с заявленной производительностью до 6 TOPS.

В этой статье я хочу поделиться своим опытом по конвертации нейросети в формат rknn с помощью библиотеки rknn-toolkit2. Анализ процесса преобразования поможет лучше разобраться с тем, как работает эта платформа. Это полезно как для учебных целей, так и для будущих исследований.

alenusch 18 июл в 12:18

MERA Code: всесторонняя оценка генерации кода в прикладных сценариях

Средний

9 мин

1.1K

Блог компании СберБлог компании Open Data ScienceМашинное обучение*

Кейс

Всем привет! Авторы бенчмарка MERA этим летом не только анонсировали отраслевую ветку — MERA Industrial, но и рады сообщить о расширении проекта на кодовые задачи.

Большие языковые модели (LLM) сегодня умеют не только вести диалог, но и писать код, помогать с документацией и автоматизировать задачи разработчиков. Однако возникает вопрос: «Как мы измеряем качество этих способностей?» Большинство бенчмарков сосредоточены на проверке понимания языка и, частично, на генерации кода. Но насколько такой код применим на практике? Учитываются ли требования, сформулированные на русском? Как модели работают с документацией на других языках, кроме английского? Мультиязычные бенчмарки вроде HumanEval-X, MultiPL-E и mxEval делают шаг в нужную сторону, но по большей части сосредоточены на языках программирования. Связь между кодом и естественным языком, особенно в многоязычном контексте, пока освещена слабо.

Чтобы учесть все эти моменты, мы разработали MERA Code — первый комплексный бенчмарк для оценки больших языковых моделей на реальных прикладных задачах, с которыми сталкивается программист в русскоязычном контексте.

+19

DataWondering 28 мар в 12:17

Байесовская собака: анализ пёсьего компаса

Средний

23 мин

6.7K

Блог компании Open Data SciencePython*Визуализация данных*

Туториал

✏️ Победитель Технотекста 7

Ориентируются ли собаки по компасу, когда делают свои грязные дела? Оказывается — да! Если вам интересно, как можно это подтвердить в домашних условиях, используя компас, Байесовскую статистику и собаку (собака не включена), то добро пожаловать под кат.

+52

averkij 3 янв в 15:02

Создаем воспоминания. Осваиваем FLUX, LoRA и ComfyUI

7 мин

26K

Блог компании Open Data ScienceОбработка изображений*Искусственный интеллектDIY или Сделай самМашинное обучение*

Туториал

Разбираюсь на праздниках с дообучением моделей для генерации изображений. Было интересно, насколько сложно дообучить модель для генерации изображений по тексту в домашних условиях, сколько нужно обучающих данных и как затем генерировать качественные фотографии и иллюстрации.

Чтобы через время не забыть про особенности процесса и как-то его зафиксировать, решил поделиться наработками. Под катом подробности и еще немного фотографий АБССС.

Читать

+60

kseniiakeera 22 дек 2024 в 14:19

Как нейросети, RL и байесовскую оптимизацию стали использовать на ускорителях заряженных частиц

6 мин

3.2K

Блог компании Open Data ScienceМашинное обучение*ФизикаИнженерные системы*Научно-популярное

Обзор

✏️ Технотекст 7

Ускорители заряженных частиц — уникальные машины, играющие ключевую роль в фундаментальной науке и прикладных исследованиях. Они помогают заглянуть внутрь материи, создавать новые материалы и лекарства, а также раскрывать тайны Вселенной — от бозона Хиггса до реликтового излучения.

Ускорители заряженных частиц — сложные установки, которые требуют высокой точности работы. Даже небольшое отклонение пучка, сравнимое с долей толщины человеческого волоса, может иметь значение. Чтобы справляться с такими задачами, всё чаще используют методы машинного обучения.

В статье мы расскажем о том, как применяют методов машинного обучения на ускорителях по всему миру. Например, нейронные сети стабилизируют орбиту пучка и оптимизируют параметры ускорителей, обучение с подкреплением используется для управления пучками заряженных частиц в сложных условиях, а байесовская оптимизация помогает решать многокритериальные задачи настройки ускорителей.

+11

stalkermustang 18 сен 2024 в 05:00

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Простой

27 мин

117K

Блог компании Open Data ScienceМашинное обучение*Искусственный интеллектБудущее здесьNatural Language Processing*

Обзор

Последние пару лет развитие языковых нейросетей как будто бы шло по принципу «больше, длиннее, жирнее»: разработчики пытались раздуть свои модели на как можно большее число параметров и прогнать через них максимальный объем тренировочных данных. 12 сентября OpenAI выпустили новую LLM, которая добавляет в это уравнение еще одно измерение для прокачки: теперь можно масштабировать объем «мыслей», который модель будет тратить в процессе своей работы. В этой статье мы разберемся, чему научилась новая GPT o1, и как это повлияет на дальнейшую эволюцию ИИ.

Давайте выясним →

+252

351

stalkermustang 11 сен 2024 в 04:55

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

Средний

30 мин

69K

Блог компании Open Data ScienceМашинное обучение*Научно-популярноеИскусственный интеллектБудущее здесь

Обзор

ChatGPT вышел уже почти два года назад, а датасаентисты до сих пор никак не могут определиться — являются ли нейросети тварями дрожащими, или всё же мыслить умеют? В этой статье мы попробуем разобраться: а как вообще учёные пытаются подойти к этому вопросу, насколько вероятен здесь успех, и что всё это означает для всех нас как для человечества.

Узнать →

+178

maks-sh 15 авг 2024 в 10:55

Как организовать процесс А/В тестирования на коленке

Простой

10 мин

5.6K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Open Data ScienceБлог компании OkkoАнализ и проектирование систем*Управление продуктом*

Роадмэп

Привет, Хабр!

Меня зовут Максим Шевченко и последние два года я занимаюсь развитием платформы экспериментов в Okko, одном из ведущих онлайн-кинотеатров в России. Наша команда разрабатывает инструменты, которые позволяют продуктовым командам самостоятельно проводить А/В тесты и анализировать их результаты. Мы отвечаем за весь цикл экспериментов – от помощи в дизайне и выдаче пользователям разного опыта до предоставления рекомендаций по принятию решений.

Когда речь заходит об А/В-тестах, первыми в голову приходят статистические методы: различные параметрические или непараметрические критерии и многое другое. Но если взглянуть шире, становится понятно, что статистика – лишь часть экспериментов. Довольно важная часть, но не единственная. В контролируемых онлайн-экспериментах также важны сплитование трафика, удобное управление изменениями пользовательского опыта, обработка данных, дашборды, система мониторинга и многое другое.

В этой статье я поделюсь опытом и результатами организации процесса экспериментов в компании, где нет собственной платформы для экспериментов или она только начинает развиваться. Если в вашей компании есть собственная платформа экспериментов и вы собаку съели на A/B-тестах, я вряд ли смогу вас удивить. Всех остальных интересующихся темой милости прошу под кат.

+22

egorborisov 31 июл 2024 в 21:06

Введение в MLflow

Средний

19 мин

23K

Блог компании Open Data ScienceOpen source*Python*Визуализация данных*Машинное обучение*

Туториал

MLflow - это инструмент для управления жизненным циклом машинного обучения: отслеживание экспериментов, управление и деплой моделей и проектов. В этом руководстве мы посмотрим, как организовать эксперименты и запуски, оптимизировать гиперпараметры с помощью optuna, сравнивать модели и выбирать лучшие параметры. Также рассмотрим логирование моделей, использование их в разных форматах, упаковку проекта в MLproject и установку удаленного Tracking Server MLflow.

+18

yorko 16 июл 2024 в 09:11

В 48 собесах от оффера в Гугл

Средний

21 мин

20K

Блог компании Open Data ScienceData Mining*Машинное обучение*Карьера в IT-индустрииNatural Language Processing*

Обзор

Здравствуй, хабр! Что-то я давно не писал, отбился от рук, а ведь когда-то мы целый курс машинного обучения на Хабре вели. Расскажу про свой недавний заход по собесам, что спрашивали, какие выводы сделал. Контекст: Applied Machine Learning science (в том числе этот ваш Generative AI), Нидерланды, уровень синьор+. Я долго получал отказы, старался не унывать и в конце таки нашил лычку Staff GenAI Field Solutions Architect в Google Cloud. Тут поделюсь статистикой собесов, полезными ресурсами и, конечно, всякими советами.

+66

EddyLan 15 мая 2024 в 08:09

ChatGPT + YandexGPT API = ЛЮБОФ. Часть 1

Средний

17 мин

18K

Блог компании Open Data SciencePython*Программирование*Управление разработкой*Искусственный интеллект

Туториал

Сказ о том, как мы, дата-сайентист и аналитик данных, на троих с ChatGPT, без программиста и девопса, создали сервис пересказа новостей TechMix с текстом и озвучкой. ChatGPT писал код, а мы ему только поддакивали.

Авторы: Эдуард Ланчев, Илья Кузнецов, ChatGPT

+17

stalkermustang 18 дек 2023 в 14:28

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

Средний

21 мин

115K

Блог компании Open Data ScienceNatural Language Processing*Будущее здесьИскусственный интеллектМатематика*

Обзор

14го декабря в одном из самых авторитетных общенаучных журналов Nature была опубликована статья с, кажется, сенсационным заголовком: «ИИ-модели Google DeepMind превосходят математиков в решении нерешённых проблем». А в блогпосте дочки гугла и вовсе не постеснялся указать, что это — первые находки Больших Языковых Моделей (LLM) в открытых математических проблемах. Неужели правда? Или кликбейт — и это в Nature? А может мы и вправду достигли техносингулярности, где машины двигают прогресс? Что ж, давайте во всём разбираться!

Ну давай разберёмся →

+175

273

alex_golubev13 4 дек 2023 в 06:51

Кто такие LLM-агенты и что они умеют?

Средний

24 мин

44K

Блог компании Open Data ScienceИскусственный интеллектМашинное обучение*

Обзор

В последнее время большие языковые модели (Large Language Models, LLM) стали невероятно популярными — кажется, их обсуждают везде, от школьных коридоров до Сената США. Сфера LLM растёт бурными темпами, привлекая внимание не только специалистов в области машинного обучения, но и обычных пользователей. Кто-то высказывает массу опасений насчет их дальнейшего развития, а кто-то и вовсе предлагает бомбить дата-центры — и даже в Белом Доме обсуждают будущее моделей. Но неужели текстом можно кому-то навредить? А что если такая модель приобрела бы агентность, смогла создать себе физическую оболочку и полностью ей управлять? Ну, это какая-то фантастика из (не)далёкого будущего, а про агентов нашего времени я расскажу в этой статье. И не переживайте — знание машинного обучения вам не понадобится!

+23

stalkermustang 11 ноя 2023 в 06:57

Главное событие в мире AI: создатель ChatGPT рассказал, в какое будущее он нас всех ведет

Простой

25 мин

99K

Блог компании Open Data ScienceМашинное обучение*Искусственный интеллектБудущее здесь

Обзор

В этой статье мы расскажем вам про самые важные фичи, внедренные за последние полгода в ChatGPT (самую мощную нейросетку в мире), а также обсудим – каким видением будущего поделился Сэм Альтман на прошедшей 7 ноября конференции от OpenAI. Спойлер: они хотят запилить «агентов Смитов», которые смогут самостоятельно взаимодействовать с миром!

Это мы читаем →

+95

104

madrugado 6 сен 2023 в 13:00

Пять книг про NLP, с которых можно начать

Простой

3 мин

19K

Блог компании МТСБлог компании MWS AIБлог компании Open Data ScienceNatural Language Processing*Профессиональная литература*

Обзор

Всем привет! Меня зовут Валентин Малых, я — руководитель направления NLP-исследований в MTS AI, вот уже 6 лет я читаю курс по NLP. Он проходит на платформе ODS, а также в нескольких университетах. Каждый раз при запуске курса студенты спрашивают меня про книги, которые можно почитать на тему обработки естественного языка. Поскольку я все время отвечаю одно и то же, появилась идея сделать пост про мой список книг, заодно описав их.

+13

blondered 25 авг 2023 в 09:47

Дропаем ранжирующие метрики в рекомендательной системе, часть 3: платформа для экспериментов

Средний

11 мин

4.7K

Блог компании Open Data ScienceМашинное обучение*

Кейс

В прошлых частях статьи я описывала, как мы экспериментировали с рекомендательными моделями на датасете онлайн-кинотеатра Kion. Считали метрики, проводили визуальный анализ, диагностировали popularity bias и другие проблемы алгоритмов, строили двухэтапные модели.

Кроме онлайн приложения мы построили небольшую, но цельную платформу для экспериментов с рекомендательными моделями. Сегодня я подробно на ней остановлюсь:
- Расскажу о workflow экспериментов и пайплайнах обработки данных.
- О том, какие инструменты мы использовали для реализации платформы.
- Нарисую полную инфраструктуру проекта.

А также опишу, как мы построили эксперименты с кросс-валидацией скользящим окном для моделей, которые используют фичи, зависящие от времени. В том числе как мы сделали валидацию для двухэтапной модели с градиентным бустингом.

Будет много MLOps для RecSys.

RecSys dive ->

blondered 18 авг 2023 в 07:00

Дропаем ранжирующие метрики в рекомендательной системе, часть 2: двухэтапные модели

Средний

9 мин

5.4K

Блог компании Open Data ScienceМашинное обучение*

Кейс

В первой части статьи я рассказала, как мы с напарником решили выкатить модель из соревнования в онлайн рекомендации, увидели проблему popularity bias, и затем построили новую модель, сбалансированную по метрикам.

В этой части я опишу, как мы улучшали результат выдачи рекомендаций с помощью двухэтапной модели.

RecSys dive ->

blondered 11 авг 2023 в 09:45

Дропаем ранжирующие метрики в рекомендательной системе, часть 1: визуальный анализ и popularity bias

Средний

12 мин

9.1K

Блог компании Open Data ScienceМашинное обучение*

Кейс

Привет, Хабр! Поговорим о RecSys?

Что нужно для построения рекомендательной системы, которая будет полезна бизнесу? Топовые метрики, максимум предсказательной силы, machine learning на полную? Проверим. Сегодня покажу:

• Как (и почему) мы дропнули в 3 раза ранжирующие метрики в пет-проекте по рекомендациям фильмов
• Как искали свой идеальный алгоритм
• Как подобрали релевантные рекомендации на самые разные запросы

Будем говорить обо всех аспектах экспериментов в RecSys: метрики, визуальный анализ, workflow. А результат проверим в онлайн-приложении.

RecSys dive ->

+18

Reshin 11 авг 2023 в 08:58

Социалистическое медиа «Диалектик» рассказывает о своих NLP проектах в 2023, публикует датасеты и делится кодом

Простой

15 мин

7.1K

Блог компании Open Data ScienceDIY или Сделай самIT-компанииNatural Language Processing*Машинное обучение*

Репортаж

Почти сразу после публикации поста про систему поиска новостей о трудовых конфликтах в СНГ я познакомился с коллективом проекта «Диалектик». Ребята отмечали важность отслеживания зарубежных забастовок и анализа опыта мирового рабочего движения в отстаивании трудовых прав. Поэтому я начал помогать «Диалектику» своими навыками работы с алгоритмами машинного обучения.

Было решено разработать систему, которая бы автоматически находила новости о зарубежных трудовых конфликтах. Во время разработки этой системы я познакомился с другими техническими проектами «Диалектика», о которых хочу рассказать в этом посте. Почти каждый проект включает в себя анализ данных, поэтому публикуемые в открытый доступ данные и код могут быть полезными Data Science сообществу.

Читать дальше →

+22

2 3 ...

9 10

DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке

RKNN Toolkit2: конвертация моделей и симуляция NPU Rockchip

MERA Code: всесторонняя оценка генерации кода в прикладных сценариях

Байесовская собака: анализ пёсьего компаса

Создаем воспоминания. Осваиваем FLUX, LoRA и ComfyUI

Как нейросети, RL и байесовскую оптимизацию стали использовать на ускорителях заряженных частиц

о1: почему новая GPT от OpenAI — это не хайп, а переход к новой парадигме в ИИ

Большие и чёрные (ящики): что мы знаем о том, как «думают» нейросети?

Как организовать процесс А/В тестирования на коленке

Введение в MLflow

В 48 собесах от оффера в Гугл

ChatGPT + YandexGPT API = ЛЮБОФ. Часть 1

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

Кто такие LLM-агенты и что они умеют?

Ближайшие события

Главное событие в мире AI: создатель ChatGPT рассказал, в какое будущее он нас всех ведет

Пять книг про NLP, с которых можно начать

Дропаем ранжирующие метрики в рекомендательной системе, часть 3: платформа для экспериментов

Дропаем ранжирующие метрики в рекомендательной системе, часть 2: двухэтапные модели

Дропаем ранжирующие метрики в рекомендательной системе, часть 1: визуальный анализ и popularity bias

Социалистическое медиа «Диалектик» рассказывает о своих NLP проектах в 2023, публикует датасеты и делится кодом

Информация