daniilshat 13 фев в 22:50

Nvidia представила Chat with RTX — приложение для локального запуска LLM

1 мин

14K

Машинное обучение*СофтИскусственный интеллект

+17

Комментарии 26

ivanstor 14 фев в 07:26

Скачал и установил.
По первому впечатлению работает бойко. C установками по умолчанию на модели "mistral" комфортно. Тест "Муму" прошел, а вот стихотворение Эдгара По "Анабель Ли" (1849 г.) обсуждать отказался из копирайтных соображений.
Пока не экспериментировал с другими моделями/наборами данных. Если получится прикрутить что-то не отцензурированное — можно практически применять. По крайней мере в плане скорости.
Оборудование: 2 × Xeon E5-2697v4, 512 ГБ, RTX4090, Windows 10

ev_i 14 фев в 08:50

512 ГБ рамы?

ivanstor 14 фев в 09:37

Да, 512 Гб. Комп предназначен для расчетов.

MrB4el 14 фев в 08:42

del

просто долгая установка с уже разархивированного вида

НЛО прилетело и опубликовало эту надпись здесь

DonStron 14 фев в 11:43

Как это не требовательна к железу? В память видеокарты грузятся все слои нейросети (если влезает, тогда хотя бы часть слоёв). Для генерации ответа проход информации через все слои нужно "посчитать". То есть массово вычислить все перемножения весов модели при прохождении данных. А нейронов и связей между ними там много. В крупных моделях десятки миллиардов весов.
Когда в компе модель крутится без видеокарты, то обсчитывает это CPU с горсткой ядер (10-20 всего). Если модель обрабатывается видеокартой, то у видюхи 3000-10000 ядер и все эти ядра параллельно молотят.
Прирост скорости генерации ответов на видеокарте в 10 и более раз.

vikarti 14 фев в 13:14

Там не в горстке ядер проблема. Особо разницы в скорости например Ryzen 5 1600 (6 ядер/12 гиперпотоков)и 2-х процессорным ксеоном с 28 ядер (56 гиперпотоков) - нет.

Проблема в том, что (упрощенно) для каждого токена надо читать всю модель и обрабатывать, у видеокарт значительно более быстрая память.

Собственно на этом в том числе базируются способы с тем что взять старую Tesla P40, воткнуть в комп, пусть даже там старый чип но там 24 Gb видеопамяти. Ну или брать не RTX 4090 а б/у RTX 3090 и скорость почти та же будет.

ozlik 8 мар в 18:13

А вот и не угадали)) Скорость на 3090 у меня в разы ниже с запуском Mistral 7b. Я жду 30 сек за 100 токенов, друг с 4090 - 5-15 секунд)) Видеопамяти у обеих 24G GDDR6X. Там влияет как раз новая технология ядер cuda, они в разы быстрее на новых видюхах, да и их количество больше на треть, как тензорных ядер, так и cuda.

7313 14 фев в 11:47

у меня на 3070 8Гб и 64 ОЗУ не получилось вообще ничего запустить.. Хотя на text-generation-webui Mistral 8B вполне себе крутится.

ivanstor 14 фев в 12:20

Возможно, нужно обновить драйверы видиокарты. Там при установке что-то мелькало на эту тему.

7313 14 фев в 20:13

Драйвера последние, винду даже попробовал переустановить и все равно просто ничего не происходит. Даже никаких ошибок не выплевывает.

Red_FOX_021 15 фев в 02:13

у меня на конфиге ryzen 5700x, 32гб, 3070 запустилось, но пока доступна 1 модель - Мистраль.

KonstantinTokar 15 фев в 10:54

У Вас 32+8=40 гигабайт памяти, 13B модель с натягом помещается но может и не хватать для чего то еестандариного. Можно попробовать вручную установить не ту модель какую грузит автоматом, а 8B.

Во время загрузки гляньте как занята память GPU, может не хватает.

Mark7751 14 фев в 19:12

Подскажите пожалуйста, как можно удалить её? Устанавливал на диск F, но и места на С очень много ест.

Antra 14 фев в 20:32

35 GB дистрибутив??? Или там уже с кучей моделей?

А на Win 10 не заживет?

И можно ли ее через сеть юзать (браузер, API...) или только локальный клиент?

mr_stepik 14 фев в 23:38

там две модели, Mistral и LLAMA 13B

ivanstor 14 фев в 23:41

После установки каталог занимает 61 Гб. Во время установки тащит много из сети. На Win 10 у меня работает. Интерфейс через браузер

Antra 15 фев в 09:38

Тогда есть смысл попробовать. Спасибо!

n9nych 15 фев в 02:13

Кто-нибудь разобрался как сделать публичную ссылку?
В консоли пишет прописать параметр запуска, но никак не могу найти куда...)

n9nych 15 фев в 14:12

Разобрался путем научного тыка... Может кому будет полезно :)
В файле user_interface.py (\RAG\trt-llm-rag-windows-main\ui) нужно в функции render дописать в конце после show_api=False, следующие строки

server_port=27015, (порт менять по желанию)

share=True

Ссылки пока генерируются через одно место. Нужно взять "Публичную ссылку" из консоли, локальную ссылку с "?cookie..." и соединить вручную чтобы открылась сессия.

KonstantinTokar 15 фев в 07:59

Что она может, в реальности, в дополнение к обычным возможностям, анализ массива текстов, поиск в интернете - например? В описании как то неясно.

isakov 15 фев в 19:29

У меня отдача в чат в переводе на Английский, хотя исходники все на русском, контекст запроса пониамет корректно, как включить отдачу результата на Русском языке?

isakov 15 фев в 20:34

Добавляю в промпт "Ответь по Русски:" срабатывает, но через раз :)

Red_FOX_021 16 фев в 13:38

Тут вот пишут о текущих проблемах, возможно кому-то будет полезно. Ошибка при запуске после установки в кастомный каталог и отсутствие второй модели (мои кейсы) - присутствуют.

https://forums.developer.nvidia.com/c/ai-data-science/ai-foundation-models/669

Milamimiimi 16 фев в 13:42

После установки поработала неплохо. Но после перезагрузки компа выдаёт 2 ошибки:

FileExistsError: [WinError 183] Невозможно создать файл, так как он уже существует:
'C:\Users\komp2\AppData\Local\Temp\gradio\946cc0f8fd54a01ceb843d292b97820cdd838796'

PermissionError: [WinError 5] Отказано в доступе:
'C:\Users\komp2\AppData\Local\Temp\gradio\946cc0f8fd54a01ceb843d292b97820cdd838796'

panteleymonov 22 мар в 11:16

Дошли руки попробовать этот дистрибутив. На win 10 с 16 оперативками и 3050 видеокартой - работает на Mistral. Это конечно ужасно, без youtube вкладки почему-то и вообще выглядит как-то убито по сравнению с презентационной версией.

Попробовал свой датасет из рассказа подсунуть на 150 страниц в формате docx. На вопрос "кто главный герой" отвечает, что непонятно по тексту. Но на вопрос "что ты можешь сказать об этом рассказе" берет какого-то рандомного персонажа и называет его трансгендером. После запроса информации об этом персонаже по имени оказывается, что такого персонажа на самом деле нет, хотя он есть. Ну и тд. В общем полный 100% бред.

Несмотря на то, что он принимает docx файлы, охотнее и правильнее разбирает только с doc. Если рассказ разбит на разные файлы, то даже при их нумерации путает хронологию событий, поэтому все должно быть в одном файле doc или txt. В противном случае текст будет обработан не полностью, но даже без бреда добиться от него чего-то вразумительного пока не получится.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Nvidia представила Chat with RTX — приложение для локального запуска LLM

Комментарии 26

Другие новости

Истории