Pull to refresh

Comments 8

Не очень оптимистично. О когнитивных промптах, которые упростят работу на результат с ИИ лучше обсуждать с инженерными психологами, которых тут нет, как я понимаю, кроме меня. И самое важное, между ИИ и Человеком нужен современный интерфейс, а не просто токены и железо. Он нужен и для глубокого обучения, и для файнтюнинга, и для непосредственной работы, генерации. Это если коротко.. Мнения?

Если бы был какой то проект распределеных вычислений, с удовольствием бы отдал 3090 на нужды народа ). Электричество у нас недорогое, лишнее тепло зимой не помешает, не шумит.

Да и весь комп можно отдать, с этой мобильностью он в основном пыль собирает )

Нужен такой проект способный раскидывать кусочки работы на весь мир и собирать обратно в идеале децентрализовано

Каждый сам выбирает какую работу делать какую нет, по любым своим причинам, истинная демократия

Когда-то хотел такой движок игровой написать.. "распределенный". В универские годы. Образовались долги по учёбе и пришлось вернуться к реальности.

Идея очень крутая, но..

Это не выгодно тем, кто каждый год штампует игровое железо. Это никогда не будет иметь поддержки

Гляньте проект io.net
Возможно это то, что вы искали

Это надстройка над llama.cpp, это одна из тех библиотек, которые позволяют пользоваться LLM. Однако, для того чтоб попытаться запустить с ее помощью Llama 3.1 405B, потребуется 250Гб памяти. Видеопамяти, если попытаться задействовать GPU.

Есть библиотеки вроде AirLLM, которые позволяют значительно обойти ограничения по памяти, читая потоком параметры модели с SSD. Но модели, обсчитываемые таким образом выдают пару слов в минуту, поскольку ограничены скоростью чтения с диска.

То есть по законам масштабирования можно ожидать, что в дальнейшем передовые модели будут все хуже и хуже соответствовать в своих дизайнерских решениям задаче "быть самой лучшей автономной LLM, что может быть запущена на ПК для одного пользователя."

У меня на домашнем дексктопе модель Llama 3.1 405B IQ2_XS вполне нормально работает на 128GB RAM и двух недорогих карточках GeForce RTX 4060Ti 16G с опять же дешевым десктопным 8-ядерником AMD Ryzen 7 7700. Контекст до 32К, скорость выдачи - приблизительно 0.25 токена/сек. Что я делаю не так?

P.S.: Две видеокарты сугубо для скорости инференса, на одной тоже бы все запустилось, просто чуть медленнее.

На MacBook с большим объемом памяти можно запустить 70b. Там используется модель объединеной памяти и модель вполне работает и отвечает. M3 max есть со 128 GB . Аналог по vram это 4-5 3090/4090.

Sign up to leave a comment.

Articles