Статьи / Профиль kucev / Хабр

Куцев Роман @kucev

Тестируйте и сравнивайте лучшие LLM на LLMarena.ru

ПрофильСтатьи194ПостыНовостиКомментарии66

kucev 10 янв в 09:30

Улучшаем RAG с помощью графов знаний

15 мин

8.4K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Генерация с дополненной выборкой (RAG) — это метод, который соединяет внешние источники данных для улучшения вывода больших языковых моделей (LLM). Этот метод идеально подходит для LLM для доступа к частным или специфичным для предметной области данным и решения проблем, связанных с галлюцинациями. Поэтому RAG широко используется для поддержки многих приложений GenAI, таких как чат-боты AI и системы рекомендаций.

Базовый RAG обычно объединяет векторную базу данных и LLM, где векторная база данных хранит и извлекает контекстную информацию для пользовательских запросов, а LLM генерирует ответы на основе извлеченного контекста. Этот подход хорошо работает во многих случаях, однако он испытывает трудности со сложными задачами, такими как многоадресное рассуждение или ответы на вопросы, требующие соединения разрозненных фрагментов информации.

Например, вопрос «Какое имя было дано сыну человека, который победил узурпатора Аллектуса?»

kucev 30 дек 2024 в 18:03

GraphRAG: Повышение точности и полноты GenAI

4 мин

7.1K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

GraphRAG предоставляет «граф знаний» LLM. В отличие от текстовых документов, эти структуры данных четко отображают взаимосвязи между объектами.

kucev 27 дек 2024 в 11:09

Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

29 мин

1.2K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей больших языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацией о неспособности моделей успешно масштабироваться из-за предполагаемой низкой производительности. Критики также указывают на исчерпание доступных данных для обучения и замедление масштабирования оборудования для обучения.

kucev 26 дек 2024 в 12:43

Будущее LLM: 7 прогнозов на 2025 год

6 мин

5.6K

Машинное обучение * Искусственный интеллект

Языковые модели, или LLM, продолжают впечатлять своим развитием. Технологии становятся умнее, их возможности шире, а применение в бизнесе и жизни — еще полезнее. В 2024 году LLM обрели зрение и память, получили доступ к актуальной информации и подтянули знания в кодинге. Чего ожидать от 2025 года? Собрал наиболее правдоподобные прогнозы и добавил свои. Спойлер: Джарвиса, который будет делать за нас всю работу, ждать не стоит.

kucev 16 дек 2024 в 13:46

Лучшие большие языковые модели в ноябре 2024 г

8 мин

8.3K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

kucev 12 дек 2024 в 09:59

Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

10 мин

4.1K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4.

Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex.

Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.

kucev 11 дек 2024 в 13:31

Сможет ли ИИ принять правильное решение? Ответы нейросетей на моральные вызовы

Простой

5 мин

4.2K

Машинное обучение * Искусственный интеллект

Нейросети научились писать симфонию и превращать холсты в шедевры. Они умеют даже чувствовать и сопереживать. Если попросить ChatGPT написать грустный стих или весело описать процесс теплообмена — справится быстро не хуже профессионального поэта. А вот умение искусственного интеллекта решать моральные дилеммы и логические задачи пока под вопросом. Нейросети все еще обучают мыслить как человек и выбирать правильные решения там, где их нет.

Если модель справляется с логическими задачами, она точно сможет помочь в сложных рабочих процессах. А если ответы совпадают с вашими моральными взглядами, то советы ощущаются как разговор с другом, а не с бездушной машиной.

Проверим самые передовые модели с помощью сервиса LLMArena. Это бесплатная платформа, где можно тестировать сразу две нейросети, чтобы выбрать лучшую для себя. Главная фишка сервиса — анонимное сравнение. Система сама выбирает модели и скрывает их названия, чтобы выбор был честным и объективным. Настоящий поединок искусственного интеллекта, где побеждает сильнейший.

Давайте посмотрим, как разные модели справятся с моральными дилеммами и задачками на логику.

kucev 10 дек 2024 в 09:30

5 лучших фреймворков с открытым исходным кодом для оценки больших языковых моделей (LLM) в 2024 году

4 мин

3.1K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

«У меня такое чувство, что решений для оценки LLM больше, чем проблем, связанных с их оценкой», — сказал Дилан, руководитель отдела ИИ в компании из списка Fortune 500.

И я полностью согласен — кажется, что каждую неделю появляется новый репозиторий с открытым исходным кодом, пытающийся сделать то же самое, что и другие 30+ уже существующих фреймворков. В конце концов, чего действительно хочет Дилан, так это фреймворка, пакета, библиотеки, как угодно, который просто количественно оценил бы производительность LLM (приложения), которую он хочет запустить в продакшен.

Итак, как человек, который когда-то был на месте Дилана, я составил список из 5 лучших фреймворков для оценки LLM, существующих в 2024 году :) 😌

Начнем!

kucev 6 дек 2024 в 10:04

Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS

7 мин

2.2K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения (RAG), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.

kucev 3 дек 2024 в 10:34

Оценка приложений RAG с помощью RAGA

8 мин

2.5K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

Фреймворк с метриками и данными, сгенерированными LLM, для оценки производительности конвейера с дополненной генерацией данных.

kucev 2 дек 2024 в 09:55

Генерация дополненного извлечения (RAG): от теории к реализации LangChain

7 мин

5.2K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain

kucev 24 ноя 2024 в 09:35

Полное руководство по оценке компонентов системы RAG: что необходимо знать

10 мин

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».

kucev 14 ноя 2024 в 13:33

Сравнение бенчмарков LLM для разработки программного обеспечения

11 мин

3.3K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

В этой статье мы сравним различные бенчмарки, которые помогают ранжировать большие языковые модели для задач разработки программного обеспечения.

kucev 7 ноя 2024 в 07:34

Оценка LLM: комплексные оценщики и фреймворки оценки

10 мин

1.4K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности больших языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

kucev 28 окт 2024 в 07:06

Как оценить LLM модель

13 мин

2.8K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

В одном из прошлых блогов я представил концепцию тестирования LLM. Однако тестирование больших языковых моделей - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.

kucev 24 окт 2024 в 06:34

Оценка LLM: метрики, фреймворки и лучшие практики

12 мин

4.4K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

Дженсен Хуанг в своем выступлении на саммите «Data+AI» сказал: «Генеративный ИИ есть везде, в любой отрасли. Если в вашей отрасли еще нет генеративных ИИ, значит вы просто не обращали внимания на это».

Однако широкое распространение вовсе не означает, что эти модели безупречны. В реальных бизнес-кейсах модели очень часто не достигают цели и нуждаются в доработке. Вот тут-то и приходят на помощь оценки LLM: они помогают убедиться, что модели надежны, точны и соответствуют бизнес-предпочтениям.

В этой статье мы подробно разберем, почему оценка LLM имеет решающее значение, и рассмотрим метрики, фреймворки, инструменты и сложности оценки LLM. Мы также поделимся некоторыми надежными стратегиями, которые мы разработали в ходе работы с нашими клиентами, а также расскажем о лучших практиках.

kucev 17 окт 2024 в 07:15

Краткий обзор LLM бенчмарков

6 мин

1.5K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

Когда мы говорим о бенчмаркинге LLM в какой-то предметной области, то имеем в виду две разные концепции: бенчмарки моделей LLM и бенчмарки систем LLM. Бенчмаркинг моделей LLM заключается в сравнении базовых моделей общего назначения (например, GPT, Mistral, Llama, Gemini, Claude и так далее). Нам не следует вкладывать ресурсы в их сравнение, потому что: 1. Для них существуют публикуемые таблицы лидеров, 2. В использовании этих моделей существует множество нюансов (например, изменчивость модели, промт, сценарий использования, качество данных, конфигурация системы), что снижает полезность обсуждения их высокоуровневых параметров, 3. Важнее точности модели могут быть другие факторы: локальность данных, соответствие требованиям защиты конфиденциальности, поставщик облачных услуг, степень возможности кастомизации (например, fine-tuning или повторного обучения).

Что мы должны обсуждать, так это бенчмаркинг систем LLM. Это осмысленный и важный процесс, при котором мы рассматриваем применение конкретных моделей LLM (вместе с промтом и конфигурацией системы) в наших конкретных сценариях использования. Нам следует курировать датасеты из конкретных предметных областей, задействовать в их разметке и людей, и LLM для создания «золотого» датасета, позволяющего оценивать вносимые нами постоянные улучшения. Можно даже рассмотреть возможность публикации «золотых» датасетов бенчмарков.

Читать дальше →

kucev 14 окт 2024 в 07:27

Как устроен бенчмарк LLM? Знакомство с оценкой моделей

6 мин

2.7K

Big Data * Data Engineering * Искусственный интеллектМашинное обучение * Data Mining *

Перевод

В условиях, когда полным ходом идет (генеративная) революция искусственного интеллекта, каждый день появляются новые большие языковые модели (LLM). Существуют общие модели и усовершенствованные версии этих общих моделей для конкретных целей. В настоящее время на Huggingface размещено около 750 000 различных моделей. Но как выбрать ту, которая подойдет вашим целям?

Найти модель, которая лучше всего подойдет для поставленной задачи, сложно. Также определить, что такое «хорошая производительность» при выполнении некоторых задач, может быть непросто. Существует ряд доступных бенчмарков, которые помогут вам сравнить эти LLM. В этой статье объясняются основы оценки LLM и подробно рассматриваются общие метрики оценки и бенчмарки LLM.

kucev 30 сен 2024 в 11:02

Как оценить качество LLM модели

11 мин

4.6K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

Представьте модели LLM размером до более чем 100 миллиардов параметров, каждая из которых мощнее предыдущей. Среди них есть гиганты: Mistral (7 миллиардов), Mixtral (8x7 миллиардов), Llama (70 миллиардов) и колоссальная Falcon (180 миллиардов). Однако существуют и модели наподобие Phi1, Phi1.5 и Falcon 1B, стремящиеся к сравнимому уровню мощности, имея всего от 1 до 4 миллиардов параметров. У каждой модели, и большой, и маленькой, есть одна цель: стать мастером в искусстве языка, превосходно справляться с такими задачами, как резюмирование текстов, ответы на вопросы и распознавание именованных сущностей.

Но во всех этих задачах у всех больших языковых моделей (Large Language Model, LLM) проявляются сильные изъяны:

Некоторые промты заставляют LLM создавать мусорные результаты; они называются «промтами джейлбрейкинга».
LLM не всегда правильно излагают факты; это явление называется «галлюцинациями».
LLM могут вести себя неожиданно, из-за чего потребителям бывает небезопасно ими пользоваться.

Очевидно, что простого обучения LLM недостаточно. Поэтому возникает вопрос: как нам обеспечить уверенность в том, что LLM А (с n параметров) лучше LLM Б (с m параметров)? Или сделать вывод, что LLM А надёжнее, чем LLM Б, на основании исчисляемых, обоснованных наблюдений?

Необходим стандарт для бенчмаркинга LLM, гарантирующий их этическую надёжность и фактическую точность. Хотя было проведено множество исследований бенчмаркинга (например, MMLU, HellaSwag, BBH и так далее), одних лишь исследований недостаточно для надёжного специализированного бенчмаркинга продакшен-систем.

Читать дальше →

kucev 24 сен 2024 в 12:28

Полный гид по бенчмаркам LLM

12 мин

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

В последние годы большие языковые модели (large language model, LLM) совершили революцию в мире искусственного интеллекта, став фундаментом для множества различных сфер, от чат-ботов до генерации контента. Однако такой прогресс несёт с собой и новые сложности; в частности, разработчикам нужно обеспечить оптимальность и этичность моделей. При выполнении этой задачи критически важны бенчмарки, представляющие собой стандартизированные способы численного измерения и сравнения моделей ИИ с целью обеспечения согласованности, надёжности и справедливости. В условиях быстрого развития LLM возможности бенчмарков тоже существенно расширились.

В этом посте мы представим подробный каталог бенчмарков, разбитый на категории по сложности, динамике, целям оценки, спецификациям конечных задач и типам рисков. Понимание их различий поможет вам разобраться в бенчмарках LLM в условиях их стремительного развития.

Читать дальше →

1 2 3

5 6 ...

9 10