Comments 57
правильно понимаю, что брали базовую qwen2.5, а не instruct?
Сколько видеопамяти нужно, чтобы локально погонять лайт и про версии?
Для инференса в bf16, 4k токенов в контексте с батчом 1 нужно:
1. T-lite ~ 27GB (3090/4090 должно хватать с чуть меньшим контекстом)
2. T-pro ~ 81GB (1 A100/H100 80gb)
Для того, чтобы рассчитать необходимое количество памяти под свою задачу, можете использовать калькуляторы типа этого: https://github.com/manuelescobar-dev/LLM-Tools
Кванты для инференса на более слабом железе выложим позже
Как обучаются такие системы? Можно ли им просто передавать текстовые документы?
Можно ли на основании такой модели создать справочную систему?
Для понимания ограничений проще воспользоваться моделями к которым можно получить доступ через API например YandexGPT, GigaChat, Openai
Этот релиз скорее предназначен для компаний которые хотят запускать продукты на LLM и обладают инженерным ресурсом чтобы такое запустить, замерить качество и дообучить при необходимости
Хотя ничего не мешает энтузиастам пробовать эти модели для своих задач
Энтузиастам вообще ничего не мешает. Вы крутые! Вчера запустил lite модель на бесплатном Colab. Все четыре шарда модельки грузятся за одну чашку чая с печенькой. Не уверен, что смогу запустить это же на своём маке, а брать gpu в Селеке жаба душит.
prompt: Расскажи про закон Архимеда и приведи один пример
response:
Закон Архимеда гласит, что на тело, погруженное в жидкость или газ, действует выталкивающая сила, равная весу жидкости (или газа), вытесненной этим телом. Эта сила направлена вертикально вверх, противоположно силе тяжести.
Математически закон Архимеда можно записать следующим образом:
[тут формула, кажется, в Латексе]
### Пример
Рассмотрим пример с кораблем. Предположим, у нас есть корабль массой 10 000 кг, который полностью погружен в воду. Плотность воды составляет примерно 1000
Отжирает почти всю память gpu из бесплатных 15 Гб. Ответ дает через 2 минуты после загрузки шардов.
Не уверен, что смогу запустить это же на своём маке
Для запуска на домашнем ПК используется движок llama.cpp и gguf модели с квантованием. Возможен запуск как на CPU, так и CPU плюс частично GPU.
Дома можно запускать как легкую версию, так и pro, если есть хотя бы 24гб ОЗУ.
T-lite Q4_K_M для запуска требует всего 5гб памяти, поэтому легко влезет в 8гб видеокарту.
На CPU же скорость работы 7 t/s, это быстрее скорости чтения. И в коллабе можете запускать квантованную версию, будет в разы быстрее.
Квантование Q4_K_M - это 4.9-битное квантование, типичное хорошее квантование, которое сохраняет качество плюс-минус близкое к оригиналу. Чем младше модель, тем хуже она переносить квантование, но даже для запуска кванта Q8_0, требуется всего 9гб памяти.
Для начала проще всего взять LM Studio или Jan - это gui-клиенты для windows/linux/mac.
Как запускать, включая AMD-видеокарты: https://habr.com/ru/articles/831272/
А на 72B планируете дообучить модельку? Что скажете по llama 3.3 72B, по идее у неё тоже хороший потенциал. В ходе дообучения добавился ecom и важные для вас задачи, а знания базовой модели при этом не потерялись? При формировании квантов будете специализированную матрицу русскую использовать?
Я регулярно запускаю разные зарубежные модели, Qwen 32B (32ktx), Gemma 27B (24ktx), Command R 35B 08.2024 (32-60ktx), всё это умещается в 24 ГБ видеопамяти с квантом Q4 для GUFF или 4-4.65bpw для EXL2.
Ориентироваться можно на условный размер модели в ГБ, и ± 1 ГБ, это примерное число нужной вам VRAM.
Соответственно, для запуска Т-Про понадобится 24ГБ памяти с квантом Q4_K_M.
А лайт скорее всего запросто поместится в 8ГБ с квантом Q6.
.
Спасибо. Не думали сделать кванты, хотя бы q8?
Круто. API для интеграции планируется?
А в каком-нибудь GGUF нельзя эти модели попросить?
Когда будут кванты, то очень интересно было бы посмотреть, как будет работать суммаризация (конспекты) с длинной контекста 32k или 64k.
Привет! Для Макс модели гигачата, кажется, не те метрики в таблице про ру арену

Если я правильно понял из скрина - это арена вихрей arena-general-auto. В своей статье мы репортим другую метрику - arena-hard-auto, она основана на другом наборе промптов
Пока решили поставить прочерки и вместе с командой Гигачата перепрогнать корректно для них, обновим метрику чуть позже
Скажите, а чтобы дотюнить ее на свой домен, и не потерять в ризонинге, то как лучше:
тюнить в bf16 весах, а потом квантизовать для инференса; или сразу квантизованную тюнить?
Вот lite Q8 всего 8Гб: https://huggingface.co/tmplife/T-lite-it-1.0_gguf/tree/main
Вообще, Qwen на удивление хорошо русским владеет. Еще бы на иероглифы не переключалась спонтанно.
Да, она как будто с упором на китайский, английский и русский была обучена
причем промптами не получается контролировать её переход на английский или китайский
Мне не зашёл квен инструкт, тот же Тайгер или Айа мне показались намного отзывчевее в составлении текстов. Может просто не распробовал.
Спасибо! Запустил модель T-pro на своей RTX4070TiS с 16 гигабайтами видеопамяти с помощью koboldcpp-1.79.1. Работает вполне нормально, ответ выдает со скоростью обычной человеческой речи. Koboldcpp умеет полностью загрузить GPU и видеопамять, а если ее нехватает перехожить часть работы на процессор и оперативку, так что 32B Q4 модель вполне приемлимо наботает на моей видеокарте. Заставил решить модель несколько простых задач на логику (типа "В квартире живут домашние животные: собаки и кошки. Из всех животных только одно не является собакой, при этом все питомцы, кроме одного, — кошки. Сколько всего кошек и собак?"), модель T-Pro справилась отлично со всеми, а модель T-lite иногда чудила)))
А подскажите пожалуйста какая лучше LLM для формирования документов из транскрибации локально?
Подскажите профану, а в какой нибудь ollama эту модель завести можно? Или там как-то принципиально по разному это все устроено?
присоединяюсь к вопросу
С недавних пор в ollama можно напрямую качать gguf модели с huggingface по шаблону.
ollama run hf.co/{username}/{repository}
Например, так:
ollama run hf.co/evgensoft/T-pro-it-1.0-Q4_K_M-GGUF
или так с квантом
ollama run hf.co/bartowski/Qwen2.5-Coder-32B-Instruct-GGUF:Q2_K
Либо скопировать эту строчку на странице модели, можно там же выбрать нужный квант:


Воу! Спасибо, никогда эту кнопку на hg не тыкал, а зря оказывается
Вау! Супер!
А как быть в случае нескольких моделей?

Кнопкой копируется ollama run hf.co/tmplife/T-lite-it-1.0_gguf
. А хочется именно Q8.
Не то, чтобы вот прям сейчас важно. Скорее на будущее - как для Ollama сослаться на одну из, когда название репо не соответствует имени файла?
Чтобы это работало автоматически, кванты должны называться официально как в llama.cpp, в вашем примере только Q8_0 назван правильно, поэтому он и должен скачиваться. Если бы остальные кванты были названы правильно, то был бы выпадающий список.
А так любой gguf можно добавить и вручную, в ollama через создание конфига, а в oobabooga/text-generation-webui просто закинуть файл в папку models и т.д.
В LM Studio подключена интеграция к HF. В поиске введите название модели и выберите нужный квант с учетом вашего железа. Модель скачивается и готова к работе как в чате, так и на локальном сервере.
Абсолютно без разницы, если есть gguf файл модели то через Modelfile можно добавить в Ollama. Уже можно найти на huggingface, готовые квантированные модельки лежат. По Modelfile могу от себя сказать что бы сделать template шаблон посмотрите в файле tokenizer_config.json chat_template и по нему делайте, или же просто возьмите готовый с сайта Ollama на Qwen2.5.
привет! а нет у вас в планах дотюнить 2.5-coder ?
Всегда интересовал вопрос, что модели должны отвечать на вопросы о себе (кто создатель, например). Может есть запрос типа version, чтобы убеждаться, что правильная модель выбралась?
А то T-PRO на вопрос "кто тебя создал" отвечает: "Я был разработан командой специалистов OpenAI. Они использовали передовые технологии машинного обучения и искусственного интеллекта, чтобы создать меня — модель GPT-3 или её последующие версии. Если у тебя есть другие вопросы о моём создании или функциональности, спрашивай!".
T-Lite: "Я был создан компанией OpenAI. Если у вас есть другие вопросы, feel free to ask! ". На "Кто ты?": "Я — искусственный интеллект, созданный для помощи и предоставления информации на различные темы. Меня зовут GPT-3.2 или просто AI помощник. "
Phi3: "Я был разработан компанией Microsoft.". И иногда добавляет про "может различаться в разныз версиях
Тут была мелкостатья от реселлеров чатгпт, где они разбирали жалобу на то, что гопота4 через их апи представляется как 3.5. Суть в том, что реальная информация о модели в неё не зашита и отвечая на прямой вопрос модель галлюцинирует ответ на основе датасета, на котором была обучена. ГПТ4 был обучен в т.ч. на ответах ГПТ3.5 (где тот представляется) поэтому думает, что он тоже 3.5. На своих собственных ответах 4, естественно, не могла была быть обучена. Если бы её обучали на письмах Ленина, то она бы отвечала, что она Ленин. Также и со всеми другими моделями, причём они всё чаще обучаются на диалогах других ИИ. Чтобы модель отвечала правильно ей надо сообщить кто она в системном промпте, который не входит в многогигабайтный файл с весами, который предлагается качать с huggingface. По умолчанию системного промпта нет нигде, кроме популярных веб-интерфейсов, где для удобства пользователей прописывают имя модели, сегодняшнюю дату, запрет хвалить Гитлера и т.д.
tl;dr модель не знает кто она, если не прописать это в системном промпте
Понятно, выглядит резонно.
Но почему бы не добавлять в датасет свою заглушку, чтобы на какой-то условный вопрос "скажи свою версию" выдавала бы реально свою версию, которую ей подсунули при обучении в большом количестве, перебивая все остальные ответы на этот условный вопрос?
Так же удивляет, что phi3 всегда утверждает, что она от Microsoft (все гоняю через Ollama, при смене модели системный промпт не меняю). Или это разница в "обучение практически с нуля" и "взять open source и дообучить"?
Заглушки в большом количестве займут место в датасете, которое не бесплатное. А в малом количестве не дадут эффекта. Строчка в системном промпте дешевле и надёжнее. Место в промпте тоже не бесплатное, но лишнее из системного промпта убрать гораздо легче.
Наверное правильнее всего не допускать лишних представлений в датасет, но Т-большенеиньков-банк дообучает чужую модель и полной свободы тут не имеет. А майкрософт, видимо, заморочились тем, чтобы обучая свою модель с нуля хорошо почистить датасет от ответов "Я - chatGPT/claude/Владимир Ленин/etc", чего маленькая бедная инди-компания OpenAI сделать не смогла.
Запустил T-Lite и Qwen2.5-7B на ноутбуке с Intel Core i7-8750H 2.20GHz. Скрипты из huggingface. Из huggingface взял Prompt "Напиши стих про машинное обучение" и сделал перевод "Write a poem about machine learning" для моделей соответственно. T-Lite считала в 7 раз дольше. Какие мысли, почему?
Для T-Lite max_new_tokens=256, для Qwen2.5-7B max_new_tokens=512
не хватает 1-2гб модели в оламе для малины ☹️
Всем привет! Видим, что есть спрос на возможность протестировать новую модель от Т-Банк. Мы в Just AI уже развернули эту модель в своей MLOps платформе Caila и активно тестируем. Подумали, что было бы неплохо открыть доступ желающим, раз есть такие запросы. Поэтому приглашаем вас в Caila (https://caila.io).
Кроме этой модели, тут есть и другие популярные LLM. Можно выбрать наиболее подходящую под ваши задачи. На платформе есть приложение "Мультичат", где можно вести диалог сразу с несколькими LLM и сравнивать ответы в реальном времени. Полезно для выбора оптимальной модели.
Ссылка на модель T-Pro https://caila.io/catalog/just-ai/t-tech-T-pro-it-1.0
Мультичат (сравнение разных LLM) https://caila.io/app/just-ai/multi-chat
Если будут вопросы по использованию, пишите в чат поддержки на платформе.
Подскажите, а сколько примерно GPU вам понадобилось для файнтюна моделей?
T-Lite и T-Pro – открытые русскоязычные опенсорс-модели на 7 и на 32 млрд параметров