Скептически отношусь к файнтюну Квена, но вот R1 QWQ неожиданно порадовал качеством рассуждений. Я про модель fuseo1-deepseekr1-qwq-skyt1-flash-32b-preview в gguf Q6. На некоторые вопросы на моем железе думала по 5 минут, но отвечала верно и логично. Впрочем, и сама QWQ была хороша.
T-pro почти не перескакивает на иероглифы. Но существенно хуже следует запрету "не комментировать и не дополнять", наливая в формализованные ответы отсебятину и рассуждения. Исходный Qwen такого себе не позволяет.
Я проверяю, чтобы для выбранного размера контекстного окна видеокарта не отжирала оперативку, регулируя количество слоев, которое отдаю на обработку GPU. Речь про LM studio и GGUF.
phi4 только что удалил, модель плохо говорит по-русски, плохо слушается системных промптов. Гемма немногословна, но строго следует сиспромпту, что для меня критично.
Когда я смотрю на тесты, то понимаю, что пока нет универсальных моделей. И на практике результаты сильно отличаются от бенчмарков. Например, в своих кейсах я избегаю Мистраль и Лламу, предпочитаю уже "старую" Гемму2 и свежий Квен.
Все отлично работает через LM-studio, особенно радует, что они недавно дали возможность использовать VL.
Тоже использую LLM для извлечения атрибутов, где regex не учитывает контекст или избыточно сложен.
При классификации модель может переключаться на другие языки, подменять токен на русском на токен латиницей, вставлять непрошенные комментарии от себя. Как вы с этим боретесь на больших объемах товаров?
Возможно, исходная модель Qwen 2.5 могла показать себя лучше, чем построенная на ней T-pro. В своей практике я отказался от Т-про в пользу чистого Квена.
Системный промпт можно попробовать переформулировать, например, в DeepSeek, чтобы сделать его яснее и однозначнее для LLM.
Размер контекстного окна и фокус внимания в подобной игре имеет немалое значение, модели вроде Геммы-2 просто могут забывать, что они делали ранее, можно попробовать фиксировать в ответе модели историю состояний.
Вроде бы уже давно нет проблемы локально запускать сопоставимые с chatGPT модели. Даже на смартфоне можно запустить модель уровня GPT3.5. Например, Qwen2.5-7B-Q6 весит всего 6 Гб и работает на X6Pro со скоростью 5 токенов/с.
Разметка фотографий тегами. Семантическая оценка и модерация контента. Генерация человекочитаемого описания предметов из их характеристик и фотографий.
Отмечу, что стандартным соплом 0,4 мм можно печатать с реальным разрешением 0,12 мм, меньше не пробовал. Вполне достаточно для нескольких проходов по зубу.
Прямо наболевшее. На соблюдение требований честного знака у бизнеса уходит колоссальное количество ресурсов, что закладывается в конечную стоимость товара. При этом, маркируется как копеечная бутылка детской воды, так и дорогой товар, который реально подделывали и все еще продолжают подделывать, глядя на брендовую обувь на маркетплейсах и на Садоводе. Маркировка рекламы тоже требует ресурсов у бизнеса, так еще и удорожает всю рекламную цепочку на значимые %. Что опять отражается на стоимости товара. Про ВВП тут явно никто не думал, другие цели преследуются.
Скорее наоборот, Ламу/Квен тренировали ответами R1.
Скептически отношусь к файнтюну Квена, но вот R1 QWQ неожиданно порадовал качеством рассуждений. Я про модель fuseo1-deepseekr1-qwq-skyt1-flash-32b-preview в gguf Q6. На некоторые вопросы на моем железе думала по 5 минут, но отвечала верно и логично. Впрочем, и сама QWQ была хороша.
T-pro почти не перескакивает на иероглифы. Но существенно хуже следует запрету "не комментировать и не дополнять", наливая в формализованные ответы отсебятину и рассуждения. Исходный Qwen такого себе не позволяет.
LM-studio позволяет раздавать по локалке и вовне. Может и в headless режиме работать.
Именно, на r/LocalLLaMA даже был крик души, что это qwen/лама дообученная, а не ДС.
Я проверяю, чтобы для выбранного размера контекстного окна видеокарта не отжирала оперативку, регулируя количество слоев, которое отдаю на обработку GPU. Речь про LM studio и GGUF.
phi4 только что удалил, модель плохо говорит по-русски, плохо слушается системных промптов. Гемма немногословна, но строго следует сиспромпту, что для меня критично.
Вот несколько тестов по теме:
Когда я смотрю на тесты, то понимаю, что пока нет универсальных моделей. И на практике результаты сильно отличаются от бенчмарков. Например, в своих кейсах я избегаю Мистраль и Лламу, предпочитаю уже "старую" Гемму2 и свежий Квен.
Все отлично работает через LM-studio, особенно радует, что они недавно дали возможность использовать VL.
Они не ищут в интернете. Тогда уж лучше https://chat.deepseek.com/ в режиме Search.
Тем временем относительно небольшая модель QWQ-32b-preview Q6 ответила правильно:
"Так что, у брата Анны сестрами являются все девочки в семье, включая Анну. Так что, 4 сестры. "
Тоже использую LLM для извлечения атрибутов, где regex не учитывает контекст или избыточно сложен.
При классификации модель может переключаться на другие языки, подменять токен на русском на токен латиницей, вставлять непрошенные комментарии от себя. Как вы с этим боретесь на больших объемах товаров?
Возможно, исходная модель Qwen 2.5 могла показать себя лучше, чем построенная на ней T-pro. В своей практике я отказался от Т-про в пользу чистого Квена.
Системный промпт можно попробовать переформулировать, например, в DeepSeek, чтобы сделать его яснее и однозначнее для LLM.
Размер контекстного окна и фокус внимания в подобной игре имеет немалое значение, модели вроде Геммы-2 просто могут забывать, что они делали ранее, можно попробовать фиксировать в ответе модели историю состояний.
Вижу, что доступны модели с большим контекстом, включая coder-32B, QVQ-72B и VL-Max. Для Турбо контекстное окно = 1 миллион токенов.
Зачем ждать? Есть T-lite и T-pro в gguf, промптов они не очень слушаются, но по-русски пишут достойно.
Все хорошо, только с русским языком у нее не очень.
Вроде бы уже давно нет проблемы локально запускать сопоставимые с chatGPT модели. Даже на смартфоне можно запустить модель уровня GPT3.5. Например, Qwen2.5-7B-Q6 весит всего 6 Гб и работает на X6Pro со скоростью 5 токенов/с.
У каждого владельца есть своя налоговая, вот она всегда в выигрыше в казино.
Разметка фотографий тегами. Семантическая оценка и модерация контента. Генерация человекочитаемого описания предметов из их характеристик и фотографий.
Отмечу, что стандартным соплом 0,4 мм можно печатать с реальным разрешением 0,12 мм, меньше не пробовал. Вполне достаточно для нескольких проходов по зубу.
Прямо наболевшее. На соблюдение требований честного знака у бизнеса уходит колоссальное количество ресурсов, что закладывается в конечную стоимость товара. При этом, маркируется как копеечная бутылка детской воды, так и дорогой товар, который реально подделывали и все еще продолжают подделывать, глядя на брендовую обувь на маркетплейсах и на Садоводе. Маркировка рекламы тоже требует ресурсов у бизнеса, так еще и удорожает всю рекламную цепочку на значимые %. Что опять отражается на стоимости товара. Про ВВП тут явно никто не думал, другие цели преследуются.