Comments 23
Интересно, действительно ли надо реализовывать свой API, может как-то с помощью LiteLLM или Oobabooga можно, пока не очень понимаю.
Можно, но там проблемы с токенизацией. У Ильи сделаны спецсимволы на end message.
Впрочем, можно и обычным способом запустить, да - просто качество будет похуже без точного следованию паттерну, на котором тренировалась модель. Я видел, так запускают, результаты тоже есть.
Похоже у людей с Oobabooga такая же проблема:
https://github.com/oobabooga/text-generation-webui/issues/4111
Мистраль, я думаю, допилят - уж очень популярна.
А вот у Сайги - опять же, по описанию что я видел у Ильи - вообще кастомные токены < /s >, так что вроде там их только ручками пока расставлять.
Круто, сервисом пользуюсь, спасибо! Какая GPU используется (и сколько)? Сервер на личных мощностях развернут или арендованные?
Спасибо :) GPU арендованная серверная, A10. Пробовал гонять на старой Nvidia T4 - получилось почему-то оооочень медленно.
Вообще история с GPU - это так скажем, показать модель. Я не думаю, что я отобью её аренду при таких ценах на генерацию, это скорее про фан :)
Да, это вам спасибо, можно сказать, что на практике с нейронками я познакомился с вашего проекта "Ирина":) Да, цены на сервера с GPU, скажем так, не радуют... Одно время сам присматривался, арендовать на поиграться, но по итогу отказался, для меня слишком дорогое удовольствие.
С такими ценами на генерацию, я полагаю, через модель нужно пропустить порядка 1М символов для достижения окупаемости.) Штош, кто знает, кто знает...
Там 0.04 руб за 1000 символов - т.е. 40 р за 1М - это где-то 1.5 часа аренды сервера ))) так что по-моему, без шансов ) Вот если бы 1000М знаков, то да, но я что-то слабо себе представляю желающих столько генерировать.
С другой стороны, куча сетей вообще раздают генерации бесплатно ради набора пользователей, и приходится соответствовать. Правда, у OpenAI и Antropic инвестора...
А сколько памяти надо? В 11 гигабайт реально уместить?
Есть ли GGML/GGUF версия этой модельки?
Есть - https://huggingface.co/IlyaGusev/saiga_mistral_7b_gguf - только вроде классический запуск не учитывает специфичные токены модели, и поэтому качество может проседать.
Скажите, есть ли у вас соображения, почему такая маленькая модель показала такие успехи? Можно ли масштабировать? Ходят слухи, что Open Assistant 70B должен будет обогнать ChatGPT. Это возможно?
Сложно сказать, но пример Мистраль воодушевляющий.
Насчет обгона ChatGPT - думаю, в ближайшем будущем это будет сделано, так или иначе. Вот даже картинка из статьи Ильи: https://habr.com/ru/articles/759386/
Где показано, что Сайга2_70b уже выигрывает в оценках пользователей по сравнению с ChatGPT (turbo). Так что результат, в общем-то, не за горами.
А можно в следующий раз в ваших статьях указывать другие хабы кроме "Я пиарюсь"? А то я на этот хаб не подписан и пропустил эту статью. Но зато подписан на Искусственный интеллект. И вроде как эта статья как раз проходит по теме этого хаба.
интересно, а можно дообучить эту модель под свои данные через QLoRa?
она вроде уже обучена через LoRa, а тут получается обучить модель с LoRa через QLoRa - непонятен результат
LLM от Ильи считает его одним из самых известных ученых :-)
Сайга-Мистраль — третья русская нейросеть после YaGPT и GigaChat, публично доступная по API