Комментарии / Профиль Vitrion / Хабр

Как стать автором

Виталий Кузнецов @Vitrion

Пользователь

ПрофильСтатьиПостыНовостиКомментарии15

Квантование моделей: запуск новейших моделей Google на локальном оборудовании

Vitrion 21 апр в 22:16

Новость была довольно давно (по меркам ИИ новостей). Там описывали прирост скорости чуть ли не в 2-3 раза. Версии QAT и обычные проверял в виде Q4 gguf в LM Studio. Прироста по скорости не было. Обычные даже чутка быстрее. Потом наткнулся на квантование, которую провели unsloth. Быстрее процентов на 10%, хотя там тоже заявляли существенный прирост. Может на современных видеокартах будет виднее разница. Как итог. Вся новость в том, что Google сами провели квантование своих моделей, но другие компании делают это профессиональнее, модели работают быстрее.

Посмотреть

Grok 3 — ИИ от Илона Маска, 2 месяца спустя

Vitrion 21 апр в 22:01

По поводу выдачи результата водянистого или сухого. У каждой нейронки есть свой системный промт. Например, я брал опубликованный системный промт 4-й ламы, вставил в маленькую gemma-3-4B в LM Studio и получил такой же "приятельский" стиль общения. Потом попробовал системный промт Perplexity Deep Research и вот уже джемма старательно ставит циферки в каждом абзаце и в конце наваливает 20+ источников. Так что не сильно показатель стартовый вариант ответов. Зато, при желании, можно манипулировать ареной, т.е. подобрать тот стиль общения (системный промт), который подойдёт под аудиторию.

Посмотреть

Знакомьтесь, HIGGS — новый метод сжатия LLM от исследователей из Яндекса и ведущих научно-технологических вузов

Vitrion 17 апр в 15:13

Но тогда назревает вопрос по практическому применению. Объясню. К примеру, все локальные программы по запуску LLM заточены под gguf (данный метод как то сразу стал стандартом), LM Studio (мой топ) также позволяет загружать свои файлы и картинки (вроде как-то связано с RAG, но я не изучал вопрос). Если метод Яндекса и gguf разные технологии и необъединяемые, то тут либо сторонние разрабы добавят возможность юзать не только gguf, либо сам Яндекс выпустит софт, который всё это поддерживает (сервис Нейроэксперт как первая ласточка функционала и дизайна, а исходники anything-llm (сам софт не удобный) могут помочь с расширением функционала). И честно говоря - ниша абсолютна свободная. Энтузиасты пытаются поймать популярность с таким софтом, но любая крупная IT-компания со своим аналогичным продуктом их бы затмила с помощью маркетинга. Особенно тяжело с простым софтом для генераторов картинок в gguf (FLUX, HiDream). Комбайн бы не помешал (ComfyUI и различные плагины всё это делают, но сложновато). Такой софт (LLM/VLM/GenAI) сразу стал бы топом, главное простота. В завершение. Текущий метод сжатия от Яндекса получается никак локально в софте не потестить, имею ввиду готовые сжатые версии LLM/VLM 8 - 14B топов, в ввиду отсутствия такого софта. Объяснять, зачем пользователям локальные LLM не буду, но с приходом Gemma3 и Flux, пользователь может использовать модели уровня топов годовалой давности у себя с приемлемой скоростью на среднем железе. Простите за лонгрид)

Посмотреть

Знакомьтесь, HIGGS — новый метод сжатия LLM от исследователей из Яндекса и ведущих научно-технологических вузов

Vitrion 17 апр в 11:34

Чисто технически возможно ли сначала сжать нейросеть методом Яндекса, а потом провести квантование с выходным файлом gguf, будет ли двойной эффект оптимизации? Или принцип такой, что либо одно, либо другое.

Посмотреть

Генерация синтетических данных для LLM, или Как не «выстрелить» в ногу продакшену. Часть 1

Vitrion 16 апр в 13:32

Нужно просто подходить к синтетическим данным здраво. Первое, что можно сделать, это спросить у текущего ИИ, какие синтетические данные будут только улучшать процесс. Второе - с подкреплением. Например, приделать софт для проверки. Обычный научный калькулятор для проверки синтетических данных с формулами и решениями. Автоматизировать легко. Временные синтетические данные (будут пересоздаваться каждый раз с новой моделью) - это обычные переводы текстов с разных языков на все другие языки. Очевидно, пока нейронка не научится делать перевод на 5+ придётся раз за разом пересоздавать вводные данные. Как итог, новая сеть будет переучиваться с нуля по улучшенным синтетическим данным, созданным предыдущей моделью.... В общем, что я распинаюсь, спросите у ИИ). Вариант 2. Каждая новая модель будет подробно комментировать всю информацию, как код построчно, добавлять, уточнять. Следующее поколение будет оставлять свой комментарий с уточнениями и т.д. Тогда данные увеличатся в сотни раз.

Посмотреть

Тестируем бету YandexGPT 5 с режимом рассуждений

Vitrion 15 апр в 15:28

Интересно, какая крупная it компания догадается скооперироваться с хабром, чтобы замутить тут местную ИИ-Арену.

Посмотреть

Буря в стакане ИИ

Vitrion 12 апр в 10:49

Можно без оглядки развивать ИИ до ASI, чтобы потом ввести промт "Так, а теперь давай отобьём все убытки и заработаем, придумай как"

Посмотреть

Открываем instruct-версию YandexGPT 5 Lite

Vitrion 11 апр в 15:04

Если разработчики читают, то использовал версию gguf в LM Studio. Задавал температуру и вписывал системный промт. Нейронка это игнорирует. Плюс, хотел спросить, если Вы придумали новый метод сжатия/квантизации, то вероятно стоит от вас ожидать софт по типу LM Studio и сжатые модели других нейронок (DeepCoder, Gemma3). А ещё очень не хватает простого софта для работы с моделями генерации картинок (квантизованные вашим или gguf методом версии FLUX, HiDream)

Посмотреть

Знакомьтесь, HIGGS — новый метод сжатия LLM от исследователей из Яндекса и ведущих научно-технологических вузов

Vitrion 11 апр в 10:28

Не совсем понял. Файлы на выходе с каким расширением? nf4 - это сжатие яндексовским методом?

Посмотреть

Топ самых реалистичных генераторов изображений: сравниваем DALL·E 3, Midjourney, FLUX и Stable Diffusion

Vitrion 10 апр в 22:12

Существует Арена, где можно посмотреть лидеров по разным направлениями в генерациях. Также можно создать свою собственную таблицу лидеров, участвуя в арене. Да не сочтут за рекламу ссылку (сервис не местечковый, а глобальный, который используют все крупные компании) - https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Посмотреть

Open Deep Search: как сделать открытый аналог Perplexity своими руками

Vitrion 9 апр в 23:46

Тут где-от на хабре был системный промт Perplexity Deep Research. Я его закинул как системный в LM Studio и выбрал простенькую Gemma3-4B-Q4. На заданный вопрос накатал полноценную статью, указывая в скобках источники, а в конце список из 20+ источников. И это на простенькой модели. Вероятно, с этим промтом можно ещё смотреть на каких книгах обучался ИИ)

Посмотреть

A-Vibe от Авито, токенизация и оценка стоимости

Vitrion 9 апр в 23:26

Её где-нибудь можно потестить? Не нашёл в аренах или чатах

Посмотреть

CEO Shopify сообщил сотрудникам компании, что теперь от каждого ожидает навыков владения нейросетями

Vitrion 8 апр в 00:15

Нормальный СЕО. "Прежде чем просить об увеличении численности персонала и ресурсов, команды должны продемонстрировать, почему они не могут добиться желаемого с помощью ИИ.". Раньше эффективные менеджеры говорили, что прежде чем задать вопрос, Вы должны сами на него ответить.

Посмотреть

Вышла Llama 4 с контекстным окном в 10M токенов (в 50 раз больше конкурентов)

Vitrion 7 апр в 08:46

В Арене на 2-й позиции. Интересно будет глянуть версию Бахамут, когда выйдет. В остальном всё как обычно, не мега топ, не запустить локально на среднем железе, очередная моделька. В плане локальных бесплатных ИИ Gemma3 будет поинтересней.

Посмотреть

Открываем instruct-версию YandexGPT 5 Lite

Vitrion 1 апр в 10:03

Мои личные тесты касаются сео, рифмы, юмора. Всякие ламы, квены, мистрали вообще ни о чём, Джемма3 12B золотой стандарт и пока лидер. Модель Яндекса тоже хороша в СЕО на русском языке. Собственно, сильного прогресса нет, но с другой стороны, мы можем пользоваться LLM, не уступающей ChatGPT 3.5 у себя на компе. Запускаю через Jan.

Посмотреть