nikitayusupov May 30 2024 at 05:27

Обзор новых Open Source LLM. Или как локально запустить аналог ChatGPT

Easy

5 min

51K

Artificial IntelligenceMachine learning * Programming * Open source * Python *

From sandbox

+36

Comments 47

UFO landed and left these words here

janvarev May 30 2024 at 06:24

Проверить как работают маленькие модели можно бесплатно на многих сайтах, это мрак полнейший, даже не близко к ChatGPT 3.5 Turbo.

"Доказательств, приводить, конечно, никто не собирался..."

Вот вам скрин с текущего рейтинга Арены, с двумя упомянутыми моделями.

UFO landed and left these words here

nikitayusupov May 30 2024 at 06:44

Это таблица с сайта https://chat.lmsys.org/ - Chatbot Arena. Там любой человек может вслепую проголосовать за модель - написать свой запрос, получить 2 ответа от разных моделей и выбрать какой из ответов лучше, при этом он не видит названия моделей до своего голоса. На основе этих голосов потом и складывается рейтинг

UFO landed and left these words here

nikitayusupov May 30 2024 at 06:57

Это правда, что вопросы к рейтингу возникают регулярно, поэтому авторы добавляют разные фильтры - можно посмотреть рейтинг по разным типам запросов, например, только сложные промпты. Или по разным языкам.

Для китайского языка, кстати, Claude 1 в рейтинге выше, чем Llama. Но все равно рейтинг не всегда будет объективным, потому что голосуют обычные люди, не имея четких критериев.

Другой вопрос, что объективного рейтинга сейчас, кажется, нет :(

syrus_the_virus May 30 2024 at 11:05

Каким боком какой-то рейтинг на каком-то сайте может отражать картину того, что хорошо обученная модель, которая крутится на сервере с сотнями петафлопс производительности, быть хуже или равна плохо обученной модели, запущенной на ПК с абстрактным RTX4080? Даже если сравнивать модели в лоб, по количеству параметров и слоев, даже тут близко ламы и мистрали не подбираются к chatgpt 3.5, и я молчу о качестве датасетов у коммерческой gpt.

nikitayusupov May 30 2024 at 11:31

Можно еще обратиться к бенчмаркам, которые приводят здесь.

Результаты бенчмарков уже слегка другие - большинство версий ChatGPT-3.5 обгоняют Llama, но, тем не менее, и Mistral 7B, и Llama 3 выглядят очень неплохо и в этом рейтинге.

Тут нужно добавить, что Llama - это разработка Meta. Здесь они сами сравнивают свою open source модель с Gemini Pro 1.5 и Claude 3 Sonnet.

Можно предположить, что у Meta (ex. Facebook) довольно много и ресурсов, и качественных датасетов, и продвинутых технологий, чтобы обучить качественную модель, способную конкурировать с младшими версиями ChatGPT

Wwyn May 30 2024 at 18:01

Мне кажется, что после обучения, где будет крутиться твоя модель не важно. На компе медленно, на сервере быстрее.

janvarev May 30 2024 at 06:52

Про рейтинг Арены я писал здесь, если что: https://habr.com/ru/companies/timeweb/articles/805261/

Вкратце - метрики для оценки моделей работают плохо, поэтому сейчас топовым является рейтинг моделей на Арене (Там юзеры сами делают запрос к двум нейросетям, а затем оценивают, какой ответ лучше. Возникает набор оценок “выиграл-проиграл”, на основании которых считается рейтинг ЭЛО — и чем выше рейтинг, тем выше вероятность того, что модель ответит лучше, чем другая модель с более низким рейтингом.)

UFO landed and left these words here

nikitayusupov May 30 2024 at 08:28

Как раз недавно авторы Chatbot Arena добавили фильтр для сложных запросов, вот тут можно посмотреть разбор, что изменилось в рейтинге

Главный вывод — действительно, многие open source модели сильно упали в рейтинге, то есть они и правда справляются хуже со сложными запросами, чем модели типа ChatGPT и Claude.

Но тем не мене, если сравнивать не с топовыми представителями, а со старыми версиями (ChatGPT-3.5 и тд), то новые open source модели выглядят неплохо даже в обновленном рейтинге

nikitayusupov May 30 2024 at 06:43

Здравствуйте!

Согласен с вами, что на русском языке open source модели работают плохо.

Я опираюсь на рейтинг Chatbot Arena - https://chat.lmsys.org/, там в основном результаты для английского языка. Рейтингу можно доверять, как так модели тестируются людьми вслепую

Syavick Jun 3 2024 at 05:35

Кстати русскоязычная ллама3 - это модель saiga_llama3_8b от автора IlyaGusev, которую выпустили менее чем через сутки после выхода модели llama3.

palyaros02 May 30 2024 at 16:33

А вы на русском спрашивали наверное? На русском мрак, но это прямо было заявлено метой, что у них только 5% датасета были не на английском, это на все языки кроме него вместе взятые. Не общайтесь с опенсорс ллм на русском!

Я попросил llama3 70b написать мне шаблон бекенда интернет-магазина на fastapi и был крайне удивлен. Она без дополнительных указаний и просьб придумала структуру проекта, обосновала, написала код каждого файла и даже про безопасность подумала. Потом вежливо сама предложила инструкции по развертыванию, но тут уже я отказался.

В разы лучше 3.5. И не ленится, как 3.5 типа "вот вам заголовки функций, код напишите сами".

MountainGoat May 30 2024 at 06:36

KoboldCPP. Использовать нужно KoboldCPP. Ощутимо лучшая производительность чем ollama, настраивается через параметры командной строки, имеет более простой, но более функциональный интерфейс чем LMStudio, и opensource.

nikitayusupov May 30 2024 at 07:16

Спасибо за рекомендацию! Посмотрел гайды, выглядит удобно.

Про ollama еще можно добавить, что у них есть интересная подборка Community Integrations: https://github.com/ollama/ollama/blob/main/README.md#community-integrations

Там много open source реализаций с интеграцией ollama, например, локальная RAG-система, которая позволит задавать вопросы к локальным PDF и другим файлам. Или бот в телеграме на базе ollama. Думаю, все это можно реализовать и без ollama, а список просто использовать для вдохновения

legodark Jun 3 2024 at 05:35

+только у них видел форк на ROCm для карточек АМD

MountainGoat Jun 3 2024 at 06:28

Ещё надо померять, а нужен ли он, если там же есть реализации на vulkan и OpenCL. Там есть удобная опция benchmark, было бы неплохо, если бы кто-то с большой видяхой AMD сравнил все три варианта.

IgorAlentyev May 30 2024 at 09:05

Есть еще https://jan.ai/ с приятным gui и api для локального запуска.

alfa41 Jun 1 2024 at 10:13

Спасибо! Интересная штука и не требует установки под линуксом

Barabashkad May 30 2024 at 09:09

если ли где то сравнение скорости работы на локальном железе ?

nikitayusupov May 30 2024 at 09:24

Качество модели VS количество токенов обработано за 1 доллар

Не совсем про скорость, но думаю, что это очень коррелирует. Вот тут есть интересная табличка - по оси Х рейтинг модели на Chatbot Arena, а по оси Y - количество токенов, которые обработаются за 1 доллар. Для LLM моделей скорость работы часто коррелирует с их размером, соответственно и со скоростью работы, и вероятно с ценой. Но это мой субъективный опыт, бывают исключения, нужно перепроверять.

Llama 3 8B выглядит очень неплохо на этом графике.

nikitayusupov May 30 2024 at 09:50

Вот тут еще нашел табличку как раз про скорость:

количество токенов в секунду для разных LLM

Числа таблице - кол-во токенов в секунду для разных open source LLM. Видно, что корреляция с размером прямая - llama 2 7B генерирует почти в 2 раза больше токенов за секунду, чем llama 2 13B.

Это уже не очень актуальные модели, статья старовата, но примерно можно ориентироваться. Интересно, что Mistral и Llama почти не отличаются при одинаковых размерах. Поэтому можно предположить, что сильнее всего на скорость влияет именно размер модели

Barabashkad May 30 2024 at 10:42

то есть можно прикупить RTX 4070 16G и использовать его для реальной работы
с финансовой точки зрения это не выгодно
но за приватность и автономность не сильно завышаная плата :-)

nikitayusupov May 30 2024 at 10:52

Согласен, что для личного использования не слишком выгодно покупать GPU, особенно когда ChatGPT-4o бесплатно доступен сейчас всем)

Но если локально хранится много документов (PDF, таблицы и тд), то можно легко прикрутить RAG систему, используя open source LLM (пример), которая будет отвечать на вопросы по этим документам. В ChatGPT их всех не загрузишь, а по API OpenAI часто ходить будет дорого. Для этого кейса уже вполне выгодно покупать видеокарту

sneg2015 May 30 2024 at 16:19

А что отвечает в этом коде за векторизацию? Платная система или опенсорс?

nikitayusupov May 30 2024 at 17:51

Судя по этой строчке — open source модель, но думаю можно и свое что-то подставить, в т.ч. платное

sneg2015 May 30 2024 at 18:02

Я как раз и ищу, что-то адекватное и бесплатное. Иначе приходится платить за openai, векторизатор, сервер. При таком раскладе можно уже выбирать или сервер попроще и opanai, или сервер покруче и все в локалке.

Ob-iVan May 30 2024 at 18:42

RTX 4070 16G - экономически не очень выгодный вариант.
RTX 4060 Ti 16G на локальных моделях почти не отличается по скорости инференса, особенно если модель не влазит в память целиком и используется лишь частичный GPU Offload (а на моделях 70+ происходит именно так), при разнице в цене более чем в полтора раза.

Barabashkad May 30 2024 at 12:25

я вижу еще один способ личного использования
например в местах где запрещают использование LLM и физически закрывают к ним доступ ;-)
но можно принести свой лэптоп :-)
и на нем гонять персонального асистента :-)
даже если он будет без доступа в интернет :-)

nikitayusupov May 30 2024 at 12:28

100%, моему знакомому, который работает в одном российском банке, запрещено использовать любые ChatGPT и аналоги на работе (по соображениям безопасности), в таком случае я бы точно запускал какую-нибудь Llama локально)

LanMaster May 30 2024 at 17:39

А что с цензурой на "домашней" модели? Политкорректность прибита гвоздями? Отрисовка нюдсов запрещена бай дизайн?

Ob-iVan May 30 2024 at 18:46

Нет, есть много моделей со снятой (или почти снятой) цензурой.
Например, Lexi-Llama-3-8B-Uncensored или Llama-3-70b-Uncensored-Lumi-Tess.
Также есть модели, у которой цензура не очень жесткая "из коробки".

StarJohn Jun 1 2024 at 17:18

По последнему вопросу: ставьте Stable Diffusion by AUTOMATIC1111, потом регистрируйтесь на Civitai.com, просите сайт вам показывать вообще всё и выбираете модель по вкусу - там будет более чем достаточно вариантов. Не забудьте прочитать описание, там бывают разные типы моделей, которым нужны разные настройки. Скачиваете и запускаете.

В итоге иногда даже получается NSFW там, где был обычный запрос, типа: красивая девушка, букет цветов, улица, Париж. :)

Ob-iVan May 30 2024 at 18:38

Удалось ли кому-то осуществить ввод изображений через GUI LM Studio?
(если что - кнопки аттачмента в строке ввода запросов там нет)

0x00fe May 30 2024 at 19:36

А подскажите - есть локальные llm api с function calling? lm studio не умеет, как и все выше перечисленные (ollama, lama.cpp koboldcpp, jan, ...)

nikitayusupov May 31 2024 at 06:56

https://ollama.com/library/mistral

Здравствуйте! Попробуйте вот тут посмотреть, у Mistral как раз одно из нововведений — function calling, и ollama на сайте даёт пример, как этим пользоваться через API локально.

https://github.com/ollama/ollama/blob/main/docs/api.md#api

Вот тут подробнее про API

saege5b May 30 2024 at 20:10

Phi-3-vision - на азуре при вопросе "что ты умеешь?", у меня стабильно уходил в бесконечный цикл. А на вопрос "как тобой пользоваться?" генерировал рекламу про какой он хороший.

alfa41 May 30 2024 at 20:11

Спасибо за статью и отдельное спасибо за ollama ;)

pood May 31 2024 at 06:56

В качестве UI есть вот такой Open Web UI https://github.com/open-webui/open-webui

Из фишек которые есть - умеет подгружать в чат файлы или ссылки на статьи, и даже забирать субтитры к видео с Ютуба, и отвечать на вопросы по этим данным. Кажется есть встроенный аналог RAG, но пока не тестировал

pood May 31 2024 at 11:47

Тут речь про web ui для ollama

alfa41 Jun 1 2024 at 07:35

Создалось впечатление, что скорость ответов чуть пониже чем в терминале. Из дополнительных плюсов: возможность подключать внешние модели через api

pood Jun 5 2024 at 10:51

Насчёт скорости ответов, если ставить через докер, то там есть разные варианты установки. Есть вариант со встроенной ollama и поддержкой GPU. Вы какой вариант использовали ? Там как вариант, можно поставить только UI и подключиться к запущенной на вашем хосте ollama.

Pol1mus May 31 2024 at 06:57

Кто как использует маленькие модели в своих задачах? Реально работающие проекты для реальных задач а не просто запустить на локальном железе ради запустить на локальном железе или нагенерировать бутора для фейковых сайтов лишь бы было что то похожее на настоящие тексты.

Не обязательно локальные, мне интересно как и для чего можно использовать ллм которые с трудом 2 слова могут связать.

MountainGoat May 31 2024 at 08:39

Я в кодинге использую сразу три модели. Большой (Mixtral 8x22B) я задаю руками общефилосовские вопросы. Средняя (какая-то мешанина на базе 8x7) через дополнение Continue пишет мне комментарии, docstringи и тесты. А мелкая через то же расширение работает постоянным автодополнением.

Сделал подружке GTP-4o в телефоне по API. При этом мелкая модель получает текст вопроса и ответа и по ним генерирует заголовок к беседе, для сортировки бесед в UI.

Хочу попробовать прикрутить её же к Obsidian чтобы делал заголовки для заметок. Мелкой вероятно не обойдусь, но только потому, что у меня в ходу 3 языка. Был бы пиндосом - обошёлся бы точно.

DrrRos May 31 2024 at 13:36

А как запускали Phi-3-vision? Пытался через oobabooga - это же единственный вариант запуска через transformers с Web ui? - не отвечает, хотя видно, что модель грузится, плагин multimodal стоит