Comments 6
Сегодня уже возможно запустить LLM на Raspberry Pi, и она будет умнее оригинального ChatGPT (версии ноября 2022 года)
Ну крайне спорное утверждение, хочу я вам сказать. Даже с версией 22 года сравнивать некорректно мелкие модельки, у которых чуть через каждое слово артефакты. В deepseek это ещё заметнее - там если общаться на русском, то возникают артефакты на китайском внутри артефактов на английском. И это наверное самое безобидное, в основном мелкие модели, по крайней мере у меня, забывают про контекст уже при генерации ответа и поэтому посреди текста бредить начинает и отвечает все что угодно, только не на поставленный вопрос.
Может я что-то делаю не так?)
Как часто вы встречаете такие артефакты? Я пока не сталкивался. Возможно, не очень много использовал ещё
У deepseek это встречалось в первых версиях, сейчас давно не встречаю, хотя он перерабатывает для меня мегабайты текста.
У Qwen-2.5 сегодня при перелопачивании и переводе нескольких сотен словарных статей 5 раз встречались иероглифы... (Qwen использую на более лайтовых задачах из-за почти постоянной недоступности deepseek)
Обратите внимание, что нигде в официальной документации не объясняется расшифровка аббревиатуры «GGUF»
GPT-Generated Unified Format
Какой версией w64devkit вы собирали? В репозитории llama.cpp сказано брать последнюю версию, но сборка падает, т.к. Makefile deprecated. Пока перебираю версии ниже, уже на 1.23.0, но все еще не нашел на какой бы сборка прошла.
Можно ли использовать инференс батчами и вообще инференсить на чём-то типа тритона ?
Всё, что я узнал о запуске локальных языковых моделей