Comments 18
На деле это значит, что отныне для создания конкурента OpenAI и Anthropic может сгодиться дообучение модели Grok-1. Отсутствие необходимости создавать собственный претрейн потенциально сэкономит миллионы долларов.
И у какого же процента сообщества есть средства и мощности чтобы адекватно работать с такой моделью?
У любой занимающейся какими-либо расчетами на GPU компании?
Не все модели должны быть для простых смертных, более того - по имеющимся 70b-120b моделям очевидно, что нормальные умные модели в потребительское железо на текущем этапе точно не влезут.
Я потому и не понимаю, почему ClosedAi и прочие мистрали трясуться над своими моделями аки Кощей над златом и не выкатывают в OpenSource. Сообщество их запустить всё равно не сможет, а потенциально могущие составить конкуренцию демпингом цен компании отсекаются лицензией.
Китайцы, они и запустят и на лицензию положат болт
Все потому, что люди думают, будто мегакорпы используют 500-1000b+ модели, а на самом деле они выкручиваются за счет датасетов и надстроек, тюнов и тп, наверняка также используя кванты моделей гораздо меньшего размера, чем кажется.
Пока нет способа консистентно ускорить работу с большими моделями, а исследователи openAI такие же люди, как вы, с тем же гуглом, теми же публичными моделями и подходами, на которых они учатся.
Ценность, которую скрывают компании находится на грани доступности обывателю
Хвала небесам, у компаний всё в порядке. Как гора с плеч.
![](https://habrastorage.org/getpro/habr/upload_files/828/7c2/e04/8287c2e047e1afa6de66af3a6a5971d3.png)
>по имеющимся 70b-120b моделям очевидно, что нормальные умные модели в потребительское железо на текущем этапе точно не влезут.
Вроде же наоборот? Даже 70б сейчас значительный оверхед, выглядит так что 10-20б параметров вполне достаточно. Осталось только решить проблему с тем, чтобы модель перестала заучивать факты - и у каждого в телефоне будет своя полноценная универсальная сетка.
У государств разных, есть.
У сообщества для подобных задач есть petals.dev
Ждём поддержку в llamacpp и Axolotl, будем файнтюнить и запускать в облаке или даже дома в ~3bpw. Аренда такого большого видеокарт будет недешева, но вполне посильна для энтузиастов.
И какой же минимальный конфиг?
Более 300Гб GPU памяти. По слухам 8шт h100(80Gb ОЗУ каждая)
Если у вас 300+ Гб системной RAM, то можно запустить на CPU. Старенький Threadripper добыть легче, чем топовый ускоритель класса H100. Другое дело, что работать это будет крайне медленно.
Да, вот как раз о таком конфиге думал. Благо серверная память дешёвая. А крайне медленно, это сколько примерно токенов в секунду?
Не рискну ванговать, я не трогал ничего даже близко похожего на сабж. Ради смеха запускал, через GGML, StarCoder 2 на 15 млрд. параметров. Квантизированная версия q8_0 на моём Ryzen 3700x выдаёт в среднем 1 токен в секунду.
Полагаю, это сильно зависит от скорости доступа к памяти, и какой-нибудь девайс с памятью HBM, типа MacPro, вероятно, справился бы лучше. Однако, там всего 192Гб ? и ценник конский... ну это так, мысли вслух.
Ну что, ждем квантованную версию в gguf формате на обниморде.
xAI открыл веса и архитектуру языковой модели Grok-1