Comments / Profile of chameleon-lizard / Habr

Average r/LocalLLaMA enjoyer.

Где бесплатно хостить пет-проект с собственным доменным именем

Ещё вроде бы у сберклауда была бесплатная виртуалка, к которой надо было докупить публичный айпишник за 150 рублей в месяц. Вроде бы вполне бюджетно.

Сбер выкладывает GigaChat Lite в открытый доступ

@chameleon-lizard Dec 14 2024 at 10:16

>Также наследуют «ценности» модели-донора с запретом говорить на определенные темы, которые не нарушают законы РФ и наоборот

А вы на каком-то другом c4 учили что ли? С чего бы гигачату лайт не выучить ценности с условного реддита, всё равно данных в претрейне на английском больше, чем на русском. Или нет?

Сбер выкладывает GigaChat Lite в открытый доступ

@chameleon-lizard Dec 13 2024 at 13:52

А будет PR в llama.cpp? 20b модель в консумерские (24 гб) карты не влезет, а на цпу не получится гонять, потому что, как я понял, там кастомный код. Или там просто дипсик и можно запускать и так?

Сбер выкладывает GigaChat Lite в открытый доступ

@chameleon-lizard Dec 13 2024 at 09:39

Тут gemma-2-9b или gemma-9b? Судя по метрикам, это gemma-2, но мало ли, вдруг я что-то перепутал...

Как мы создали LLM-модель Cotype Nano

@chameleon-lizard Nov 27 2024 at 00:14

Планируются ли замеры моделей на других бенчмарках? Кроме меры интересно, например, видеть результаты на IfEval, той или иной вариации MMLU.

Как модель себя показывает в сравнении с базовой Qwen-2.5-1.5B?

Пробовали её в speculative decoding? Насколько она ускоряет генерацию (e.g. насколько много сгенерированных токенов отбрасываются моделью большего размера как некорректные) в сравнению с базовой моделью?

И, самое главное, как она отвечает на вопрос о видах столовых приборов?)

Встречаем нейроредактор в Браузере, или Как мы учили LLM-модели помогать пользователям с текстами

@chameleon-lizard Sep 23 2024 at 16:48

Переход с архитектуры Decoder на Encoder‑Decoder. Если кратко, то раньше модель состояла из одного основного элемента — декодера. Он пытался сделать два дела одновременно: понять суть текста с ошибками и исправить их.

Но при этом,

Мы дообучили модель редактора на задачи, которые отличались от базовых. Это позволило заинферить модель на основе YandexGPT 3 Light, но при этом не просесть в качестве относительно результатов работы модели версии YandexGPT 3 Pro.

Правильно я понимаю, что YaGPT тут для дописывания, генерации и фактчека, а для парафразы, исправления и улучшения энкдек?

Есть ли подробности об архитектуре энкдека? Учили полностью своё, резали mt0/aya-101, тюнили FRED-T5? Есть ли итоговые метрики? Будет ли модель где-то доступна, кроме внутреннего продукта (подозреваю, что я уже знаю ответ, но чем чёрт не шутит)?