>Также наследуют «ценности» модели-донора с запретом говорить на определенные темы, которые не нарушают законы РФ и наоборот
А вы на каком-то другом c4 учили что ли? С чего бы гигачату лайт не выучить ценности с условного реддита, всё равно данных в претрейне на английском больше, чем на русском. Или нет?
А будет PR в llama.cpp? 20b модель в консумерские (24 гб) карты не влезет, а на цпу не получится гонять, потому что, как я понял, там кастомный код. Или там просто дипсик и можно запускать и так?
Планируются ли замеры моделей на других бенчмарках? Кроме меры интересно, например, видеть результаты на IfEval, той или иной вариации MMLU.
Как модель себя показывает в сравнении с базовой Qwen-2.5-1.5B?
Пробовали её в speculative decoding? Насколько она ускоряет генерацию (e.g. насколько много сгенерированных токенов отбрасываются моделью большего размера как некорректные) в сравнению с базовой моделью?
И, самое главное, как она отвечает на вопрос о видах столовых приборов?)
Переход с архитектуры Decoder на Encoder‑Decoder. Если кратко, то раньше модель состояла из одного основного элемента — декодера. Он пытался сделать два дела одновременно: понять суть текста с ошибками и исправить их.
Но при этом,
Мы дообучили модель редактора на задачи, которые отличались от базовых. Это позволило заинферить модель на основе YandexGPT 3 Light, но при этом не просесть в качестве относительно результатов работы модели версии YandexGPT 3 Pro.
Правильно я понимаю, что YaGPT тут для дописывания, генерации и фактчека, а для парафразы, исправления и улучшения энкдек?
Есть ли подробности об архитектуре энкдека? Учили полностью своё, резали mt0/aya-101, тюнили FRED-T5? Есть ли итоговые метрики? Будет ли модель где-то доступна, кроме внутреннего продукта (подозреваю, что я уже знаю ответ, но чем чёрт не шутит)?
Ещё вроде бы у сберклауда была бесплатная виртуалка, к которой надо было докупить публичный айпишник за 150 рублей в месяц. Вроде бы вполне бюджетно.
>Также наследуют «ценности» модели-донора с запретом говорить на определенные темы, которые не нарушают законы РФ и наоборот
А вы на каком-то другом c4 учили что ли? С чего бы гигачату лайт не выучить ценности с условного реддита, всё равно данных в претрейне на английском больше, чем на русском. Или нет?
А будет PR в llama.cpp? 20b модель в консумерские (24 гб) карты не влезет, а на цпу не получится гонять, потому что, как я понял, там кастомный код. Или там просто дипсик и можно запускать и так?
Тут gemma-2-9b или gemma-9b? Судя по метрикам, это gemma-2, но мало ли, вдруг я что-то перепутал...
Планируются ли замеры моделей на других бенчмарках? Кроме меры интересно, например, видеть результаты на IfEval, той или иной вариации MMLU.
Как модель себя показывает в сравнении с базовой Qwen-2.5-1.5B?
Пробовали её в speculative decoding? Насколько она ускоряет генерацию (e.g. насколько много сгенерированных токенов отбрасываются моделью большего размера как некорректные) в сравнению с базовой моделью?
И, самое главное, как она отвечает на вопрос о видах столовых приборов?)
Но при этом,
Правильно я понимаю, что YaGPT тут для дописывания, генерации и фактчека, а для парафразы, исправления и улучшения энкдек?
Есть ли подробности об архитектуре энкдека? Учили полностью своё, резали mt0/aya-101, тюнили FRED-T5? Есть ли итоговые метрики? Будет ли модель где-то доступна, кроме внутреннего продукта (подозреваю, что я уже знаю ответ, но чем чёрт не шутит)?