В зависимости от хотелок, движка и степени шакальности "ужатия" модели - минимально хватит 8GB. Конкретно для DeepSeek-R1-Distill-Qwen-1.5B хватит 4 гигов, ~2 гига если использовать модели с квантованием.
В 128 гигов можно поместить Mistral Large 2 123B Q6 или Llama 3.1 405B IQ2_XS. Не GPT-4, но лучше чем GPT-3. С mmap можно разгуляться на все 4 ТБ, правда скорость упадёт в ноль.
LLM из-за особенностей архитектуры фокусируются на начале промпта и на его конце. Середина присутствует, но как бы "смазывается" в кучу. И чем длиннее чат, тем больше информации смазывается. Особенности attention-алгоритма в целом, насколько я понимаю.
LLM тренируют на контекстах определённой длины. Когда промпт (то есть весь чат целиком) выходит за пределы этой длины, то модель начинает "теряться". Плюс сверху накладываются последствия от использования GQA (группировка фрагментов контекста для оптимизации использования памяти) и масштабирование через RoPE\PoSE (хитрый костыльный матан, который "увеличивает" длину контекста ценой attention'а). Про ChatGPT и Gemini сказать ничего не могу, но вот обещанный контекст в 130к токенов у Llama 3.1+ - это то самое растягивание совы на глобус. Причём непонятно как растягивали, потому что у Llama 3 контекст был 8к.
Дополнительно могут быть использованы фокусы типа слияния слоёв, квантование моделей и квантование кэша, но я не уверен, что OAI или Google станут таким заниматься, у них с железом проблем нет.
Ну да, а расстрел в Кентском университете - это так, пранк был, со стороны нацгвардии. И ACAB на пустом месте взялся, работа же нервная.
Я к чему - грязь можно в истории любого правительства\государства накопать. А уж обвинять кого-либо в политической манипуляции\цензуре и заявлять "а мы вот не такие" - и вовсе смешно.
Почему не было-то? Было, ради чего OpenAI и цензурила свои модели. Просто этим новостям год уже. И по DALL-E тогда проехались, мол, изображения неповесточные генерирует, скотина генеративная.
Часто зависит от инструкции и имени пользователя. В идеале, весь чат должен быть на одном языке. Если где-то в промпте всплывает английский текст, то модель местами с ума сходит.
На фото - Mistral Large 2411 с Le Platforme. Оказалось, что забыл очистить системный промпт от волшебных заклинаний уровня You are a world-class AI system, capable of complex reasoning and reflection.
Да вроде он ничем особо не отличился в плане скандалов.
Вероятно, ему не понравилось что там ChatGPT может про него нагенерировать не моргнув, и воспользовался правом на забвение. OpenAI подчинилась, но максимально дубовым способом (отвал генерации ответа при срабатывании фильтра).
Неинформативно. Что за модель, что за движок (vLLM, TabbyAPI, Aphrodite, LlamaCPP), какое качество модели (FP16 или что-то подрезанное)?
В зависимости от хотелок, движка и степени
шакальности"ужатия" модели - минимально хватит 8GB. Конкретно для DeepSeek-R1-Distill-Qwen-1.5B хватит 4 гигов, ~2 гига если использовать модели с квантованием.И придумывать не надо. Судя по описанию на сайте, там под капотом Orange Pi 5 4GB. Уж больно полное совпадение по характеристикам.
В 128 гигов можно поместить Mistral Large 2 123B Q6 или Llama 3.1 405B IQ2_XS. Не GPT-4, но лучше чем GPT-3. С mmap можно разгуляться на все 4 ТБ, правда скорость упадёт в ноль.
Отупевание связано с двумя моментами:
LLM из-за особенностей архитектуры фокусируются на начале промпта и на его конце. Середина присутствует, но как бы "смазывается" в кучу. И чем длиннее чат, тем больше информации смазывается. Особенности attention-алгоритма в целом, насколько я понимаю.
LLM тренируют на контекстах определённой длины. Когда промпт (то есть весь чат целиком) выходит за пределы этой длины, то модель начинает "теряться". Плюс сверху накладываются последствия от использования GQA (группировка фрагментов контекста для оптимизации использования памяти) и масштабирование через RoPE\PoSE (хитрый костыльный матан, который "увеличивает" длину контекста ценой attention'а). Про ChatGPT и Gemini сказать ничего не могу, но вот обещанный контекст в 130к токенов у Llama 3.1+ - это то самое растягивание совы на глобус. Причём непонятно как растягивали, потому что у Llama 3 контекст был 8к.
Дополнительно могут быть использованы фокусы типа слияния слоёв, квантование моделей и квантование кэша, но я не уверен, что OAI или Google станут таким заниматься, у них с железом проблем нет.
Ну да, а расстрел в Кентском университете - это так, пранк был, со стороны нацгвардии. И ACAB на пустом месте взялся, работа же нервная.
Я к чему - грязь можно в истории любого правительства\государства накопать. А уж обвинять кого-либо в политической манипуляции\цензуре и заявлять "а мы вот не такие" - и вовсе смешно.
Продолжение оффтопа
Я жалуюсь? Процитируйте, пожалуйста. Потому что сообщение выше - это не жалоба, это сарказм. Точнее, отсылка на этот комикс:
Почему не было-то? Было, ради чего OpenAI и цензурила свои модели. Просто этим новостям год уже. И по DALL-E тогда проехались, мол, изображения неповесточные генерирует, скотина генеративная.
Их "грязная авторитарная цензура" против наших "светлых моральных норм".
Уже не хватает. Фрагменты на 5 секунд грузит по минуте.
Sherpa AI Server доказывает: можно использовать все преимущества лицензии MIT, а потом рассказывать окружающим, какой вы маладэц.
"Фотографии" выглядят как нейронка с легким слоем фотошопа. Особенно клавиатура на первом изображении и кресло на втором.
Часто зависит от инструкции и имени пользователя. В идеале, весь чат должен быть на одном языке. Если где-то в промпте всплывает английский текст, то модель местами с ума сходит.
На фото - Mistral Large 2411 с Le Platforme. Оказалось, что забыл очистить системный промпт от волшебных заклинаний уровня
You are a world-class AI system, capable of complex reasoning and reflection.
Давно ли это было: https://www.bleepingcomputer.com/news/software/mozilla-warns-chrome-firefox-100-user-agents-may-break-sites/
Обязательно хана! Весь сектор в труху! Но потом.
Да вроде он ничем особо не отличился в плане скандалов.
Вероятно, ему не понравилось что там ChatGPT может про него нагенерировать не моргнув, и воспользовался правом на забвение. OpenAI подчинилась, но максимально дубовым способом (отвал генерации ответа при срабатывании фильтра).
Под полной нагрузкой OrangePi 5 Plus потребляет 20 ватт (5V@4A).
Ротшильда - да, но там есть список других имён.
То ли дело когда свободно-демократический ChatGPT отваливается посреди ответа про Дэвида Майера [де Ротшильда].
Так оно есть, с оговорками: https://github.com/exo-explore/exo