Comments 47
В каком месте качество ламы3 8б сравнимо с ChatGPT 3.5 Turbo?
Проверить как работают маленькие модели можно бесплатно на многих сайтах, это мрак полнейший, даже не близко к ChatGPT 3.5 Turbo.
Даже распиаренная lama3 70b на фоне ChatGPT 3.5 Turbo выглядит не очень здорово... Если и лучше чем то то только знаниями событий после 2021.
Проверить как работают маленькие модели можно бесплатно на многих сайтах, это мрак полнейший, даже не близко к ChatGPT 3.5 Turbo.
"Доказательств, приводить, конечно, никто не собирался..."
Вот вам скрин с текущего рейтинга Арены, с двумя упомянутыми моделями.
А что то за таблица? Я вот сейчас зашел на опенроутер и попросил у самой модной ph3 - 14b простенький текст написать. Там получился текст в духе "твая мая большой друг индейцев карифана...". ChatGPT себе такого никогда не позволял.
Это таблица с сайта https://chat.lmsys.org/ - Chatbot Arena. Там любой человек может вслепую проголосовать за модель - написать свой запрос, получить 2 ответа от разных моделей и выбрать какой из ответов лучше, при этом он не видит названия моделей до своего голоса. На основе этих голосов потом и складывается рейтинг
В этой таблице Клауд 2.1 ниже чем лама 8б. Это абсолютно нереально. Ни в какой вселенной. Только если нашли какой то специальный тест на который ламу натаскивали, типа повтори 10 раз одну букву задом наперед.
А еще Клауд-1 выше чем Клауд 2 и 2.1. Может эту таблицу перевернуть надо?
Это правда, что вопросы к рейтингу возникают регулярно, поэтому авторы добавляют разные фильтры - можно посмотреть рейтинг по разным типам запросов, например, только сложные промпты. Или по разным языкам.
Для китайского языка, кстати, Claude 1 в рейтинге выше, чем Llama. Но все равно рейтинг не всегда будет объективным, потому что голосуют обычные люди, не имея четких критериев.
Другой вопрос, что объективного рейтинга сейчас, кажется, нет :(
Каким боком какой-то рейтинг на каком-то сайте может отражать картину того, что хорошо обученная модель, которая крутится на сервере с сотнями петафлопс производительности, быть хуже или равна плохо обученной модели, запущенной на ПК с абстрактным RTX4080? Даже если сравнивать модели в лоб, по количеству параметров и слоев, даже тут близко ламы и мистрали не подбираются к chatgpt 3.5, и я молчу о качестве датасетов у коммерческой gpt.
Можно еще обратиться к бенчмаркам, которые приводят здесь.
Результаты бенчмарков уже слегка другие - большинство версий ChatGPT-3.5 обгоняют Llama, но, тем не менее, и Mistral 7B, и Llama 3 выглядят очень неплохо и в этом рейтинге.
Тут нужно добавить, что Llama - это разработка Meta. Здесь они сами сравнивают свою open source модель с Gemini Pro 1.5 и Claude 3 Sonnet.
Можно предположить, что у Meta (ex. Facebook) довольно много и ресурсов, и качественных датасетов, и продвинутых технологий, чтобы обучить качественную модель, способную конкурировать с младшими версиями ChatGPT
Мне кажется, что после обучения, где будет крутиться твоя модель не важно. На компе медленно, на сервере быстрее.
Про рейтинг Арены я писал здесь, если что: https://habr.com/ru/companies/timeweb/articles/805261/
Вкратце - метрики для оценки моделей работают плохо, поэтому сейчас топовым является рейтинг моделей на Арене (Там юзеры сами делают запрос к двум нейросетям, а затем оценивают, какой ответ лучше. Возникает набор оценок “выиграл-проиграл”, на основании которых считается рейтинг ЭЛО — и чем выше рейтинг, тем выше вероятность того, что модель ответит лучше, чем другая модель с более низким рейтингом.)
Ну очевидный же бред. Либо эти люди не просили генерировать тексты (основная работа для ллм) либо они не читали результаты. Крошечные модели сильно заметно уступают всем крупным моделям, даже таким слабым как лама3-70 и клауд-1.
Как раз недавно авторы Chatbot Arena добавили фильтр для сложных запросов, вот тут можно посмотреть разбор, что изменилось в рейтинге
Главный вывод — действительно, многие open source модели сильно упали в рейтинге, то есть они и правда справляются хуже со сложными запросами, чем модели типа ChatGPT и Claude.
Но тем не мене, если сравнивать не с топовыми представителями, а со старыми версиями (ChatGPT-3.5 и тд), то новые open source модели выглядят неплохо даже в обновленном рейтинге
Здравствуйте!
Согласен с вами, что на русском языке open source модели работают плохо.
Я опираюсь на рейтинг Chatbot Arena - https://chat.lmsys.org/, там в основном результаты для английского языка. Рейтингу можно доверять, как так модели тестируются людьми вслепую
А вы на русском спрашивали наверное? На русском мрак, но это прямо было заявлено метой, что у них только 5% датасета были не на английском, это на все языки кроме него вместе взятые. Не общайтесь с опенсорс ллм на русском!
Я попросил llama3 70b написать мне шаблон бекенда интернет-магазина на fastapi и был крайне удивлен. Она без дополнительных указаний и просьб придумала структуру проекта, обосновала, написала код каждого файла и даже про безопасность подумала. Потом вежливо сама предложила инструкции по развертыванию, но тут уже я отказался.
В разы лучше 3.5. И не ленится, как 3.5 типа "вот вам заголовки функций, код напишите сами".
KoboldCPP. Использовать нужно KoboldCPP. Ощутимо лучшая производительность чем ollama, настраивается через параметры командной строки, имеет более простой, но более функциональный интерфейс чем LMStudio, и opensource.
Спасибо за рекомендацию! Посмотрел гайды, выглядит удобно.
Про ollama еще можно добавить, что у них есть интересная подборка Community Integrations: https://github.com/ollama/ollama/blob/main/README.md#community-integrations
Там много open source реализаций с интеграцией ollama, например, локальная RAG-система, которая позволит задавать вопросы к локальным PDF и другим файлам. Или бот в телеграме на базе ollama. Думаю, все это можно реализовать и без ollama, а список просто использовать для вдохновения
+только у них видел форк на ROCm для карточек АМD
Есть еще https://jan.ai/ с приятным gui и api для локального запуска.
если ли где то сравнение скорости работы на локальном железе ?
Не совсем про скорость, но думаю, что это очень коррелирует. Вот тут есть интересная табличка - по оси Х рейтинг модели на Chatbot Arena, а по оси Y - количество токенов, которые обработаются за 1 доллар. Для LLM моделей скорость работы часто коррелирует с их размером, соответственно и со скоростью работы, и вероятно с ценой. Но это мой субъективный опыт, бывают исключения, нужно перепроверять.
Llama 3 8B выглядит очень неплохо на этом графике.
Вот тут еще нашел табличку как раз про скорость:
Числа таблице - кол-во токенов в секунду для разных open source LLM. Видно, что корреляция с размером прямая - llama 2 7B генерирует почти в 2 раза больше токенов за секунду, чем llama 2 13B.
Это уже не очень актуальные модели, статья старовата, но примерно можно ориентироваться. Интересно, что Mistral и Llama почти не отличаются при одинаковых размерах. Поэтому можно предположить, что сильнее всего на скорость влияет именно размер модели
то есть можно прикупить RTX 4070 16G и использовать его для реальной работы
с финансовой точки зрения это не выгодно
но за приватность и автономность не сильно завышаная плата :-)
Согласен, что для личного использования не слишком выгодно покупать GPU, особенно когда ChatGPT-4o бесплатно доступен сейчас всем)
Но если локально хранится много документов (PDF, таблицы и тд), то можно легко прикрутить RAG систему, используя open source LLM (пример), которая будет отвечать на вопросы по этим документам. В ChatGPT их всех не загрузишь, а по API OpenAI часто ходить будет дорого. Для этого кейса уже вполне выгодно покупать видеокарту
А что отвечает в этом коде за векторизацию? Платная система или опенсорс?
Судя по этой строчке — open source модель, но думаю можно и свое что-то подставить, в т.ч. платное
RTX 4070 16G - экономически не очень выгодный вариант.
RTX 4060 Ti 16G на локальных моделях почти не отличается по скорости инференса, особенно если модель не влазит в память целиком и используется лишь частичный GPU Offload (а на моделях 70+ происходит именно так), при разнице в цене более чем в полтора раза.
я вижу еще один способ личного использования
например в местах где запрещают использование LLM и физически закрывают к ним доступ ;-)
но можно принести свой лэптоп :-)
и на нем гонять персонального асистента :-)
даже если он будет без доступа в интернет :-)
А что с цензурой на "домашней" модели? Политкорректность прибита гвоздями? Отрисовка нюдсов запрещена бай дизайн?
Нет, есть много моделей со снятой (или почти снятой) цензурой.
Например, Lexi-Llama-3-8B-Uncensored или Llama-3-70b-Uncensored-Lumi-Tess.
Также есть модели, у которой цензура не очень жесткая "из коробки".
По последнему вопросу: ставьте Stable Diffusion by AUTOMATIC1111, потом регистрируйтесь на Civitai.com, просите сайт вам показывать вообще всё и выбираете модель по вкусу - там будет более чем достаточно вариантов. Не забудьте прочитать описание, там бывают разные типы моделей, которым нужны разные настройки. Скачиваете и запускаете.
В итоге иногда даже получается NSFW там, где был обычный запрос, типа: красивая девушка, букет цветов, улица, Париж. :)
Удалось ли кому-то осуществить ввод изображений через GUI LM Studio?
(если что - кнопки аттачмента в строке ввода запросов там нет)
А подскажите - есть локальные llm api с function calling? lm studio не умеет, как и все выше перечисленные (ollama, lama.cpp koboldcpp, jan, ...)
https://ollama.com/library/mistral
Здравствуйте! Попробуйте вот тут посмотреть, у Mistral как раз одно из нововведений — function calling, и ollama на сайте даёт пример, как этим пользоваться через API локально.
https://github.com/ollama/ollama/blob/main/docs/api.md#api
Вот тут подробнее про API
Phi-3-vision - на азуре при вопросе "что ты умеешь?", у меня стабильно уходил в бесконечный цикл. А на вопрос "как тобой пользоваться?" генерировал рекламу про какой он хороший.
Спасибо за статью и отдельное спасибо за ollama ;)
В качестве UI есть вот такой Open Web UI https://github.com/open-webui/open-webui
Из фишек которые есть - умеет подгружать в чат файлы или ссылки на статьи, и даже забирать субтитры к видео с Ютуба, и отвечать на вопросы по этим данным. Кажется есть встроенный аналог RAG, но пока не тестировал
Тут речь про web ui для ollama
Создалось впечатление, что скорость ответов чуть пониже чем в терминале. Из дополнительных плюсов: возможность подключать внешние модели через api
Кто как использует маленькие модели в своих задачах? Реально работающие проекты для реальных задач а не просто запустить на локальном железе ради запустить на локальном железе или нагенерировать бутора для фейковых сайтов лишь бы было что то похожее на настоящие тексты.
Не обязательно локальные, мне интересно как и для чего можно использовать ллм которые с трудом 2 слова могут связать.
Я в кодинге использую сразу три модели. Большой (Mixtral 8x22B) я задаю руками общефилосовские вопросы. Средняя (какая-то мешанина на базе 8x7) через дополнение Continue пишет мне комментарии, docstringи и тесты. А мелкая через то же расширение работает постоянным автодополнением.
Сделал подружке GTP-4o в телефоне по API. При этом мелкая модель получает текст вопроса и ответа и по ним генерирует заголовок к беседе, для сортировки бесед в UI.
Хочу попробовать прикрутить её же к Obsidian чтобы делал заголовки для заметок. Мелкой вероятно не обойдусь, но только потому, что у меня в ходу 3 языка. Был бы пиндосом - обошёлся бы точно.
А как запускали Phi-3-vision? Пытался через oobabooga - это же единственный вариант запуска через transformers с Web ui? - не отвечает, хотя видно, что модель грузится, плагин multimodal стоит
Обзор новых Open Source LLM. Или как локально запустить аналог ChatGPT