В дальнейшем может быть добавлю, просто с fedora-based опыта нет, а у Fedora свои инструменты для этих пакетов, с ними я не знаком, но можно поэксперементировать
Модель не влезла в vram, поэтому я оставил в видеопамяти attention, kv-кэш, эмбеддинг, FFN принудительно выгрузил в озу. Модель примерно наполовину влезла, но работать стала быстрее
Ну просто для такого железа 50 токен/с это почти предел возможностей, на такой скорости заведутся полностью пощещающиеся в vram модели. Я показал как оптимизировать запуск крупных Ultra MoE, скорость генерации выросла с нулевой до минимально рабочей, этим стало возможно пользоваться
В дальнейшем может быть добавлю, просто с fedora-based опыта нет, а у Fedora свои инструменты для этих пакетов, с ними я не знаком, но можно поэксперементировать
Спасибо за комментарий. Я чуть подправил статью, т.к. нашел --no-mmap, в вк отпишусь обязательно
Интересно. А какую оперативку используете и сколько ее?
Модель не влезла в vram, поэтому я оставил в видеопамяти attention, kv-кэш, эмбеддинг, FFN принудительно выгрузил в озу. Модель примерно наполовину влезла, но работать стала быстрее
Ну просто для такого железа 50 токен/с это почти предел возможностей, на такой скорости заведутся полностью пощещающиеся в vram модели. Я показал как оптимизировать запуск крупных Ultra MoE, скорость генерации выросла с нулевой до минимально рабочей, этим стало возможно пользоваться
Ну у Google намечается проблема с Android, Huawei и Xiaomi уже создали свои операционки, могут появится и другие желающие свалить с Android