Новость была довольно давно (по меркам ИИ новостей). Там описывали прирост скорости чуть ли не в 2-3 раза. Версии QAT и обычные проверял в виде Q4 gguf в LM Studio. Прироста по скорости не было. Обычные даже чутка быстрее. Потом наткнулся на квантование, которую провели unsloth. Быстрее процентов на 10%, хотя там тоже заявляли существенный прирост. Может на современных видеокартах будет виднее разница. Как итог. Вся новость в том, что Google сами провели квантование своих моделей, но другие компании делают это профессиональнее, модели работают быстрее.
По поводу выдачи результата водянистого или сухого. У каждой нейронки есть свой системный промт. Например, я брал опубликованный системный промт 4-й ламы, вставил в маленькую gemma-3-4B в LM Studio и получил такой же "приятельский" стиль общения. Потом попробовал системный промт Perplexity Deep Research и вот уже джемма старательно ставит циферки в каждом абзаце и в конце наваливает 20+ источников. Так что не сильно показатель стартовый вариант ответов. Зато, при желании, можно манипулировать ареной, т.е. подобрать тот стиль общения (системный промт), который подойдёт под аудиторию.
Но тогда назревает вопрос по практическому применению. Объясню. К примеру, все локальные программы по запуску LLM заточены под gguf (данный метод как то сразу стал стандартом), LM Studio (мой топ) также позволяет загружать свои файлы и картинки (вроде как-то связано с RAG, но я не изучал вопрос). Если метод Яндекса и gguf разные технологии и необъединяемые, то тут либо сторонние разрабы добавят возможность юзать не только gguf, либо сам Яндекс выпустит софт, который всё это поддерживает (сервис Нейроэксперт как первая ласточка функционала и дизайна, а исходники anything-llm (сам софт не удобный) могут помочь с расширением функционала). И честно говоря - ниша абсолютна свободная. Энтузиасты пытаются поймать популярность с таким софтом, но любая крупная IT-компания со своим аналогичным продуктом их бы затмила с помощью маркетинга. Особенно тяжело с простым софтом для генераторов картинок в gguf (FLUX, HiDream). Комбайн бы не помешал (ComfyUI и различные плагины всё это делают, но сложновато). Такой софт (LLM/VLM/GenAI) сразу стал бы топом, главное простота. В завершение. Текущий метод сжатия от Яндекса получается никак локально в софте не потестить, имею ввиду готовые сжатые версии LLM/VLM 8 - 14B топов, в ввиду отсутствия такого софта. Объяснять, зачем пользователям локальные LLM не буду, но с приходом Gemma3 и Flux, пользователь может использовать модели уровня топов годовалой давности у себя с приемлемой скоростью на среднем железе. Простите за лонгрид)
Чисто технически возможно ли сначала сжать нейросеть методом Яндекса, а потом провести квантование с выходным файлом gguf, будет ли двойной эффект оптимизации? Или принцип такой, что либо одно, либо другое.
Нужно просто подходить к синтетическим данным здраво. Первое, что можно сделать, это спросить у текущего ИИ, какие синтетические данные будут только улучшать процесс. Второе - с подкреплением. Например, приделать софт для проверки. Обычный научный калькулятор для проверки синтетических данных с формулами и решениями. Автоматизировать легко. Временные синтетические данные (будут пересоздаваться каждый раз с новой моделью) - это обычные переводы текстов с разных языков на все другие языки. Очевидно, пока нейронка не научится делать перевод на 5+ придётся раз за разом пересоздавать вводные данные. Как итог, новая сеть будет переучиваться с нуля по улучшенным синтетическим данным, созданным предыдущей моделью.... В общем, что я распинаюсь, спросите у ИИ). Вариант 2. Каждая новая модель будет подробно комментировать всю информацию, как код построчно, добавлять, уточнять. Следующее поколение будет оставлять свой комментарий с уточнениями и т.д. Тогда данные увеличатся в сотни раз.
Если разработчики читают, то использовал версию gguf в LM Studio. Задавал температуру и вписывал системный промт. Нейронка это игнорирует. Плюс, хотел спросить, если Вы придумали новый метод сжатия/квантизации, то вероятно стоит от вас ожидать софт по типу LM Studio и сжатые модели других нейронок (DeepCoder, Gemma3). А ещё очень не хватает простого софта для работы с моделями генерации картинок (квантизованные вашим или gguf методом версии FLUX, HiDream)
Существует Арена, где можно посмотреть лидеров по разным направлениями в генерациях. Также можно создать свою собственную таблицу лидеров, участвуя в арене. Да не сочтут за рекламу ссылку (сервис не местечковый, а глобальный, который используют все крупные компании) - https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Тут где-от на хабре был системный промт Perplexity Deep Research. Я его закинул как системный в LM Studio и выбрал простенькую Gemma3-4B-Q4. На заданный вопрос накатал полноценную статью, указывая в скобках источники, а в конце список из 20+ источников. И это на простенькой модели. Вероятно, с этим промтом можно ещё смотреть на каких книгах обучался ИИ)
Нормальный СЕО. "Прежде чем просить об увеличении численности персонала и ресурсов, команды должны продемонстрировать, почему они не могут добиться желаемого с помощью ИИ.". Раньше эффективные менеджеры говорили, что прежде чем задать вопрос, Вы должны сами на него ответить.
В Арене на 2-й позиции. Интересно будет глянуть версию Бахамут, когда выйдет. В остальном всё как обычно, не мега топ, не запустить локально на среднем железе, очередная моделька. В плане локальных бесплатных ИИ Gemma3 будет поинтересней.
Мои личные тесты касаются сео, рифмы, юмора. Всякие ламы, квены, мистрали вообще ни о чём, Джемма3 12B золотой стандарт и пока лидер. Модель Яндекса тоже хороша в СЕО на русском языке. Собственно, сильного прогресса нет, но с другой стороны, мы можем пользоваться LLM, не уступающей ChatGPT 3.5 у себя на компе. Запускаю через Jan.
Новость была довольно давно (по меркам ИИ новостей). Там описывали прирост скорости чуть ли не в 2-3 раза. Версии QAT и обычные проверял в виде Q4 gguf в LM Studio. Прироста по скорости не было. Обычные даже чутка быстрее. Потом наткнулся на квантование, которую провели unsloth. Быстрее процентов на 10%, хотя там тоже заявляли существенный прирост. Может на современных видеокартах будет виднее разница. Как итог. Вся новость в том, что Google сами провели квантование своих моделей, но другие компании делают это профессиональнее, модели работают быстрее.
По поводу выдачи результата водянистого или сухого. У каждой нейронки есть свой системный промт. Например, я брал опубликованный системный промт 4-й ламы, вставил в маленькую gemma-3-4B в LM Studio и получил такой же "приятельский" стиль общения. Потом попробовал системный промт Perplexity Deep Research и вот уже джемма старательно ставит циферки в каждом абзаце и в конце наваливает 20+ источников. Так что не сильно показатель стартовый вариант ответов. Зато, при желании, можно манипулировать ареной, т.е. подобрать тот стиль общения (системный промт), который подойдёт под аудиторию.
Но тогда назревает вопрос по практическому применению. Объясню. К примеру, все локальные программы по запуску LLM заточены под gguf (данный метод как то сразу стал стандартом), LM Studio (мой топ) также позволяет загружать свои файлы и картинки (вроде как-то связано с RAG, но я не изучал вопрос). Если метод Яндекса и gguf разные технологии и необъединяемые, то тут либо сторонние разрабы добавят возможность юзать не только gguf, либо сам Яндекс выпустит софт, который всё это поддерживает (сервис Нейроэксперт как первая ласточка функционала и дизайна, а исходники anything-llm (сам софт не удобный) могут помочь с расширением функционала). И честно говоря - ниша абсолютна свободная. Энтузиасты пытаются поймать популярность с таким софтом, но любая крупная IT-компания со своим аналогичным продуктом их бы затмила с помощью маркетинга. Особенно тяжело с простым софтом для генераторов картинок в gguf (FLUX, HiDream). Комбайн бы не помешал (ComfyUI и различные плагины всё это делают, но сложновато). Такой софт (LLM/VLM/GenAI) сразу стал бы топом, главное простота. В завершение. Текущий метод сжатия от Яндекса получается никак локально в софте не потестить, имею ввиду готовые сжатые версии LLM/VLM 8 - 14B топов, в ввиду отсутствия такого софта. Объяснять, зачем пользователям локальные LLM не буду, но с приходом Gemma3 и Flux, пользователь может использовать модели уровня топов годовалой давности у себя с приемлемой скоростью на среднем железе. Простите за лонгрид)
Чисто технически возможно ли сначала сжать нейросеть методом Яндекса, а потом провести квантование с выходным файлом gguf, будет ли двойной эффект оптимизации? Или принцип такой, что либо одно, либо другое.
Нужно просто подходить к синтетическим данным здраво. Первое, что можно сделать, это спросить у текущего ИИ, какие синтетические данные будут только улучшать процесс. Второе - с подкреплением. Например, приделать софт для проверки. Обычный научный калькулятор для проверки синтетических данных с формулами и решениями. Автоматизировать легко. Временные синтетические данные (будут пересоздаваться каждый раз с новой моделью) - это обычные переводы текстов с разных языков на все другие языки. Очевидно, пока нейронка не научится делать перевод на 5+ придётся раз за разом пересоздавать вводные данные. Как итог, новая сеть будет переучиваться с нуля по улучшенным синтетическим данным, созданным предыдущей моделью.... В общем, что я распинаюсь, спросите у ИИ). Вариант 2. Каждая новая модель будет подробно комментировать всю информацию, как код построчно, добавлять, уточнять. Следующее поколение будет оставлять свой комментарий с уточнениями и т.д. Тогда данные увеличатся в сотни раз.
Интересно, какая крупная it компания догадается скооперироваться с хабром, чтобы замутить тут местную ИИ-Арену.
Можно без оглядки развивать ИИ до ASI, чтобы потом ввести промт "Так, а теперь давай отобьём все убытки и заработаем, придумай как"
Если разработчики читают, то использовал версию gguf в LM Studio. Задавал температуру и вписывал системный промт. Нейронка это игнорирует. Плюс, хотел спросить, если Вы придумали новый метод сжатия/квантизации, то вероятно стоит от вас ожидать софт по типу LM Studio и сжатые модели других нейронок (DeepCoder, Gemma3). А ещё очень не хватает простого софта для работы с моделями генерации картинок (квантизованные вашим или gguf методом версии FLUX, HiDream)
Не совсем понял. Файлы на выходе с каким расширением? nf4 - это сжатие яндексовским методом?
Существует Арена, где можно посмотреть лидеров по разным направлениями в генерациях. Также можно создать свою собственную таблицу лидеров, участвуя в арене. Да не сочтут за рекламу ссылку (сервис не местечковый, а глобальный, который используют все крупные компании) - https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Тут где-от на хабре был системный промт Perplexity Deep Research. Я его закинул как системный в LM Studio и выбрал простенькую Gemma3-4B-Q4. На заданный вопрос накатал полноценную статью, указывая в скобках источники, а в конце список из 20+ источников. И это на простенькой модели. Вероятно, с этим промтом можно ещё смотреть на каких книгах обучался ИИ)
Её где-нибудь можно потестить? Не нашёл в аренах или чатах
Нормальный СЕО. "Прежде чем просить об увеличении численности персонала и ресурсов, команды должны продемонстрировать, почему они не могут добиться желаемого с помощью ИИ.". Раньше эффективные менеджеры говорили, что прежде чем задать вопрос, Вы должны сами на него ответить.
В Арене на 2-й позиции. Интересно будет глянуть версию Бахамут, когда выйдет. В остальном всё как обычно, не мега топ, не запустить локально на среднем железе, очередная моделька. В плане локальных бесплатных ИИ Gemma3 будет поинтересней.
Мои личные тесты касаются сео, рифмы, юмора. Всякие ламы, квены, мистрали вообще ни о чём, Джемма3 12B золотой стандарт и пока лидер. Модель Яндекса тоже хороша в СЕО на русском языке. Собственно, сильного прогресса нет, но с другой стороны, мы можем пользоваться LLM, не уступающей ChatGPT 3.5 у себя на компе. Запускаю через Jan.