Pull to refresh
8K+
6
18
Rating
Send message

В дальнейшем может быть добавлю, просто с fedora-based опыта нет, а у Fedora свои инструменты для этих пакетов, с ними я не знаком, но можно поэксперементировать

Спасибо за комментарий. Я чуть подправил статью, т.к. нашел --no-mmap, в вк отпишусь обязательно

Интересно. А какую оперативку используете и сколько ее?

Модель не влезла в vram, поэтому я оставил в видеопамяти attention, kv-кэш, эмбеддинг, FFN принудительно выгрузил в озу. Модель примерно наполовину влезла, но работать стала быстрее

Ну просто для такого железа 50 токен/с это почти предел возможностей, на такой скорости заведутся полностью пощещающиеся в vram модели. Я показал как оптимизировать запуск крупных Ultra MoE, скорость генерации выросла с нулевой до минимально рабочей, этим стало возможно пользоваться

Ну у Google намечается проблема с Android, Huawei и Xiaomi уже создали свои операционки, могут появится и другие желающие свалить с Android

Information

Rating
512-th
Location
Находка (Приморский край), Приморский край, Россия
Registered
Activity

Specialization

Specialist
Linux