Search
Write a publication
Pull to refresh
1
0
Никита Сушко @chameleon-lizard

Average r/LocalLLaMA enjoyer.

Send message

Ещё вроде бы у сберклауда была бесплатная виртуалка, к которой надо было докупить публичный айпишник за 150 рублей в месяц. Вроде бы вполне бюджетно.

>Также наследуют «ценности» модели-донора с запретом говорить на определенные темы, которые не нарушают законы РФ и наоборот

А вы на каком-то другом c4 учили что ли? С чего бы гигачату лайт не выучить ценности с условного реддита, всё равно данных в претрейне на английском больше, чем на русском. Или нет?

А будет PR в llama.cpp? 20b модель в консумерские (24 гб) карты не влезет, а на цпу не получится гонять, потому что, как я понял, там кастомный код. Или там просто дипсик и можно запускать и так?

Тут gemma-2-9b или gemma-9b? Судя по метрикам, это gemma-2, но мало ли, вдруг я что-то перепутал...

Планируются ли замеры моделей на других бенчмарках? Кроме меры интересно, например, видеть результаты на IfEval, той или иной вариации MMLU.

Как модель себя показывает в сравнении с базовой Qwen-2.5-1.5B?

Пробовали её в speculative decoding? Насколько она ускоряет генерацию (e.g. насколько много сгенерированных токенов отбрасываются моделью большего размера как некорректные) в сравнению с базовой моделью?

И, самое главное, как она отвечает на вопрос о видах столовых приборов?)

Переход с архитектуры Decoder на Encoder‑Decoder. Если кратко, то раньше модель состояла из одного основного элемента — декодера. Он пытался сделать два дела одновременно: понять суть текста с ошибками и исправить их.

Но при этом,

Мы дообучили модель редактора на задачи, которые отличались от базовых. Это позволило заинферить модель на основе YandexGPT 3 Light, но при этом не просесть в качестве относительно результатов работы модели версии YandexGPT 3 Pro.

Правильно я понимаю, что YaGPT тут для дописывания, генерации и фактчека, а для парафразы, исправления и улучшения энкдек?

Есть ли подробности об архитектуре энкдека? Учили полностью своё, резали mt0/aya-101, тюнили FRED-T5? Есть ли итоговые метрики? Будет ли модель где-то доступна, кроме внутреннего продукта (подозреваю, что я уже знаю ответ, но чем чёрт не шутит)?

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity