Pull to refresh

Comments 18

На деле это значит, что отныне для создания конкурента OpenAI и Anthropic может сгодиться дообучение модели Grok-1. Отсутствие необходимости создавать собственный претрейн потенциально сэкономит миллионы долларов. 

И у какого же процента сообщества есть средства и мощности чтобы адекватно работать с такой моделью?

У любой занимающейся какими-либо расчетами на GPU компании?
Не все модели должны быть для простых смертных, более того - по имеющимся 70b-120b моделям очевидно, что нормальные умные модели в потребительское железо на текущем этапе точно не влезут.

Я потому и не понимаю, почему ClosedAi и прочие мистрали трясуться над своими моделями аки Кощей над златом и не выкатывают в OpenSource. Сообщество их запустить всё равно не сможет, а потенциально могущие составить конкуренцию демпингом цен компании отсекаются лицензией.

Китайцы, они и запустят и на лицензию положат болт

Возможно. Но, к сожалению, только для себя (ибо дешевых API c утекшей Miqu так и не появилось, а оно GPT-3.5 уделывает).

Все потому, что люди думают, будто мегакорпы используют 500-1000b+ модели, а на самом деле они выкручиваются за счет датасетов и надстроек, тюнов и тп, наверняка также используя кванты моделей гораздо меньшего размера, чем кажется.

Пока нет способа консистентно ускорить работу с большими моделями, а исследователи openAI такие же люди, как вы, с тем же гуглом, теми же публичными моделями и подходами, на которых они учатся.

Ценность, которую скрывают компании находится на грани доступности обывателю

Хвала небесам, у компаний всё в порядке. Как гора с плеч.

>по имеющимся 70b-120b моделям очевидно, что нормальные умные модели в потребительское железо на текущем этапе точно не влезут.

Вроде же наоборот? Даже 70б сейчас значительный оверхед, выглядит так что 10-20б параметров вполне достаточно. Осталось только решить проблему с тем, чтобы модель перестала заучивать факты - и у каждого в телефоне будет своя полноценная универсальная сетка.

У государств разных, есть.

У сообщества для подобных задач есть petals.dev

Ждём поддержку в llamacpp и Axolotl, будем файнтюнить и запускать в облаке или даже дома в ~3bpw. Аренда такого большого видеокарт будет недешева, но вполне посильна для энтузиастов.

И какой же минимальный конфиг?

Более 300Гб GPU памяти. По слухам 8шт h100(80Gb ОЗУ каждая)

Если у вас 300+ Гб системной RAM, то можно запустить на CPU. Старенький Threadripper добыть легче, чем топовый ускоритель класса H100. Другое дело, что работать это будет крайне медленно.

Да, вот как раз о таком конфиге думал. Благо серверная память дешёвая. А крайне медленно, это сколько примерно токенов в секунду?

Не рискну ванговать, я не трогал ничего даже близко похожего на сабж. Ради смеха запускал, через GGML, StarCoder 2 на 15 млрд. параметров. Квантизированная версия q8_0 на моём Ryzen 3700x выдаёт в среднем 1 токен в секунду.

Полагаю, это сильно зависит от скорости доступа к памяти, и какой-нибудь девайс с памятью HBM, типа MacPro, вероятно, справился бы лучше. Однако, там всего 192Гб ? и ценник конский... ну это так, мысли вслух.

Ну что, ждем квантованную версию в gguf формате на обниморде.

Судя по размеру, выложена как раз таки квантизированная модель. 314 млрд параметров в формате float32_t это ~1256 Гб. Хотя, мы не знаем, какой формат был исходным, но я лично сомневаюсь, что они тренировали 8-битную модель.

Ну вот, а я уже размечтался.

Sign up to leave a comment.

Other news