Комментарии 8
?
Насчёт специализированных чипов - ЕМНИП, AMD уже выпустила технологию, которая позволяет видеокарте читать данные напрямую с SSD, минуя процессор. Да и есть уже концепт видеокарты со встроенным слотом для SSD (который не для этого, но всё равно забавно).
Насчёт "нет смысла хранить в ОЗУ" - смысл в скорости чтения. В GPT-моделях вам нужно будет прочесть все веса модели, чтобы превратить строчку
"Столица Англии - " в
"Столица Англии - Лон", а затем ещё раз, чтобы получить
"Столица Англии - Лондон".
Объём чтения зависит от размера и квантизации модели, для скромной 13B модели потребуется прочесть ~8 ГБ.
Это сложно. Сначала нужно найти моделей с большими языками. Потом ещё уговорить их эти самые большие языки куда-то запустить, да ещё и с помощью чего-то.
Проще добавить ЫХ.
В Apple разрабатывают способ запуска больших языковых моделей с использованием флеш-памяти мобильных устройств