Как стать автором
Обновить

Комментарии 26

Скачал и установил.
По первому впечатлению работает бойко. C установками по умолчанию на модели "mistral" комфортно. Тест "Муму" прошел, а вот стихотворение Эдгара По "Анабель Ли" (1849 г.) обсуждать отказался из копирайтных соображений.
Пока не экспериментировал с другими моделями/наборами данных. Если получится прикрутить что-то не отцензурированное — можно практически применять. По крайней мере в плане скорости.
Оборудование: 2 × Xeon E5-2697v4, 512 ГБ, RTX4090, Windows 10

512 ГБ рамы?

Да, 512 Гб. Комп предназначен для расчетов.

НЛО прилетело и опубликовало эту надпись здесь

Как это не требовательна к железу? В память видеокарты грузятся все слои нейросети (если влезает, тогда хотя бы часть слоёв). Для генерации ответа проход информации через все слои нужно "посчитать". То есть массово вычислить все перемножения весов модели при прохождении данных. А нейронов и связей между ними там много. В крупных моделях десятки миллиардов весов.
Когда в компе модель крутится без видеокарты, то обсчитывает это CPU с горсткой ядер (10-20 всего). Если модель обрабатывается видеокартой, то у видюхи 3000-10000 ядер и все эти ядра параллельно молотят.
Прирост скорости генерации ответов на видеокарте в 10 и более раз.

Там не в горстке ядер проблема. Особо разницы в скорости например Ryzen 5 1600 (6 ядер/12 гиперпотоков)и 2-х процессорным ксеоном с 28 ядер (56 гиперпотоков) - нет.

Проблема в том, что (упрощенно) для каждого токена надо читать всю модель и обрабатывать, у видеокарт значительно более быстрая память.

Собственно на этом в том числе базируются способы с тем что взять старую Tesla P40, воткнуть в комп, пусть даже там старый чип но там 24 Gb видеопамяти. Ну или брать не RTX 4090 а б/у RTX 3090 и скорость почти та же будет.

А вот и не угадали)) Скорость на 3090 у меня в разы ниже с запуском Mistral 7b. Я жду 30 сек за 100 токенов, друг с 4090 - 5-15 секунд)) Видеопамяти у обеих 24G GDDR6X. Там влияет как раз новая технология ядер cuda, они в разы быстрее на новых видюхах, да и их количество больше на треть, как тензорных ядер, так и cuda.

у меня на 3070 8Гб и 64 ОЗУ не получилось вообще ничего запустить.. Хотя на text-generation-webui Mistral 8B вполне себе крутится.

Возможно, нужно обновить драйверы видиокарты. Там при установке что-то мелькало на эту тему.

Драйвера последние, винду даже попробовал переустановить и все равно просто ничего не происходит. Даже никаких ошибок не выплевывает.

у меня на конфиге ryzen 5700x, 32гб, 3070 запустилось, но пока доступна 1 модель - Мистраль.

У Вас 32+8=40 гигабайт памяти, 13B модель с натягом помещается но может и не хватать для чего то еестандариного. Можно попробовать вручную установить не ту модель какую грузит автоматом, а 8B.

Во время загрузки гляньте как занята память GPU, может не хватает.

Подскажите пожалуйста, как можно удалить её? Устанавливал на диск F, но и места на С очень много ест.

35 GB дистрибутив??? Или там уже с кучей моделей?

А на Win 10 не заживет?

И можно ли ее через сеть юзать (браузер, API...) или только локальный клиент?

там две модели, Mistral и LLAMA 13B

После установки каталог занимает 61 Гб. Во время установки тащит много из сети. На Win 10 у меня работает. Интерфейс через браузер

Тогда есть смысл попробовать. Спасибо!

Кто-нибудь разобрался как сделать публичную ссылку?
В консоли пишет прописать параметр запуска, но никак не могу найти куда...)

Разобрался путем научного тыка... Может кому будет полезно :)
В файле user_interface.py (\RAG\trt-llm-rag-windows-main\ui) нужно в функции render дописать в конце после show_api=False, следующие строки

server_port=27015, (порт менять по желанию)

share=True

Ссылки пока генерируются через одно место. Нужно взять "Публичную ссылку" из консоли, локальную ссылку с "?cookie..." и соединить вручную чтобы открылась сессия.

Что она может, в реальности, в дополнение к обычным возможностям, анализ массива текстов, поиск в интернете - например? В описании как то неясно.

У меня отдача в чат в переводе на Английский, хотя исходники все на русском, контекст запроса пониамет корректно, как включить отдачу результата на Русском языке?

Добавляю в промпт "Ответь по Русски:" срабатывает, но через раз :)

Тут вот пишут о текущих проблемах, возможно кому-то будет полезно. Ошибка при запуске после установки в кастомный каталог и отсутствие второй модели (мои кейсы) - присутствуют.

https://forums.developer.nvidia.com/c/ai-data-science/ai-foundation-models/669

После установки поработала неплохо. Но после перезагрузки компа выдаёт 2 ошибки:

FileExistsError: [WinError 183] Невозможно создать файл, так как он уже существует:
'C:\Users\komp2\AppData\Local\Temp\gradio\946cc0f8fd54a01ceb843d292b97820cdd838796'

PermissionError: [WinError 5] Отказано в доступе:
'C:\Users\komp2\AppData\Local\Temp\gradio\946cc0f8fd54a01ceb843d292b97820cdd838796'

Дошли руки попробовать этот дистрибутив. На win 10 с 16 оперативками и 3050 видеокартой - работает на Mistral. Это конечно ужасно, без youtube вкладки почему-то и вообще выглядит как-то убито по сравнению с презентационной версией.

Попробовал свой датасет из рассказа подсунуть на 150 страниц в формате docx. На вопрос "кто главный герой" отвечает, что непонятно по тексту. Но на вопрос "что ты можешь сказать об этом рассказе" берет какого-то рандомного персонажа и называет его трансгендером. После запроса информации об этом персонаже по имени оказывается, что такого персонажа на самом деле нет, хотя он есть. Ну и тд. В общем полный 100% бред.

Несмотря на то, что он принимает docx файлы, охотнее и правильнее разбирает только с doc. Если рассказ разбит на разные файлы, то даже при их нумерации путает хронологию событий, поэтому все должно быть в одном файле doc или txt. В противном случае текст будет обработан не полностью, но даже без бреда добиться от него чего-то вразумительного пока не получится.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Истории