Замеры проводились только на ру арена, результаты уже можно посмотреть по ссылке, в том числе и сравнение с базовым квеном. Спек дек на этой модели не пробовали
Мы экспериментируем с разными подходами, но для Nano решили использовать базовый DPO в целях алаймента на различные чувствительные темы, по итогу решили просто добавить такие данные в SFT
Добрый вечер, попробовал ваш промпт на MTSAIR/Cotype-Nano
Ответ: Клиенты сети "ВкусВилл" продолжают выражать недовольство наличием металлических остатков в покупаемых товарах. Они замечают металлическую стружку и скобы степлера в различных продуктах, таких как вареники, хлеб, супы и даже в кесадилье. Более десятка человек подали жалобы на этот счет. В ответ на обращения клиентов компания начисляет бонусы на карту лояльности и обещает провести специальное расследование. Кроме того, поступают жалобы на бутылки с водой, которые приходят с треснутыми или открытыми крышками.
Параметры генерации: top_p=1.0, temp=0.2. Можете поэкспериментировать с другими параметрами и системным промптом
Модель еще строку переносит, и это выглядит как диалог. Она должна останавливать генерацию после каждого ответа бота, почитайте что такое eos токен и зачем его нужно добавлять
Посмотрите на инструктивные датасеты, как они устроены и как на них обучать. Это вопрос ответ, иногда добавляют систем промпт.
Как выглядят данные из телеги:
User: как дела? \n
# ответ модели
\nClone: пойдет
Модели скармливаем user: Ваш вопрос, далее она генерирует все остальное, и должна останавливаться после генерации ответа. Об этом я уже говорил
что значит модель не понимает что это диалог? Модель учится на серии диалогов “user: text, clone: text”, начинает отвечать также, так работает файнтюниг. Он не видит никаких других имен. Как я уже сказал до этого, чего точно не хватает в подготовке данных, так это добавление eos токенов в конце диалогов
Я имел в виду диалоги, которые могут содержать информацию такого характера, например переписки по работе, тогда могут возникнуть проблемы с работодателем
Конечно идея не супер уникальная (после написания статьи оказалось, что есть работы с обучением клонов на диалогах из мессенжеров, упомянул в начале), но спасибо за фидбек
Модель может выдать ответ с ошибками (чаще грамматическими), но действительно можно поиграться с параметрами и версиями
Спасибо за фидбек
Пока нет
Замеры проводились только на ру арена, результаты уже можно посмотреть по ссылке, в том числе и сравнение с базовым квеном. Спек дек на этой модели не пробовали
Мы экспериментируем с разными подходами, но для Nano решили использовать базовый DPO в целях алаймента на различные чувствительные темы, по итогу решили просто добавить такие данные в SFT
Да, с gguf версией
Добрый вечер, попробовал ваш промпт на MTSAIR/Cotype-Nano
Ответ: Клиенты сети "ВкусВилл" продолжают выражать недовольство наличием металлических остатков в покупаемых товарах. Они замечают металлическую стружку и скобы степлера в различных продуктах, таких как вареники, хлеб, супы и даже в кесадилье. Более десятка человек подали жалобы на этот счет. В ответ на обращения клиентов компания начисляет бонусы на карту лояльности и обещает провести специальное расследование. Кроме того, поступают жалобы на бутылки с водой, которые приходят с треснутыми или открытыми крышками.
Параметры генерации: top_p=1.0, temp=0.2. Можете поэкспериментировать с другими параметрами и системным промптом
Вроде нет
Результаты на ру арене для обеих LLM можете найти здесь
Привет, хорошо, спасибо
3B занимает около 6 ГБ
Модель еще строку переносит, и это выглядит как диалог. Она должна останавливать генерацию после каждого ответа бота, почитайте что такое eos токен и зачем его нужно добавлять
Посмотрите на инструктивные датасеты, как они устроены и как на них обучать. Это вопрос ответ, иногда добавляют систем промпт.
Как выглядят данные из телеги:
User: как дела? \n
# ответ модели
\nClone: пойдет
Модели скармливаем user: Ваш вопрос, далее она генерирует все остальное, и должна останавливаться после генерации ответа. Об этом я уже говорил
что значит модель не понимает что это диалог? Модель учится на серии диалогов “user: text, clone: text”, начинает отвечать также, так работает файнтюниг. Он не видит никаких других имен. Как я уже сказал до этого, чего точно не хватает в подготовке данных, так это добавление eos токенов в конце диалогов
Думаю, в процессе обработки данных нужно добавить токены, обозначающие конец предложения, попробуем исправить в будущей версии библиотеки
Думаю в процессе обработки данных нужно добавить токены, обозначающие конец предложения, попробуем исправить в обновлении
Спасибо, хорошая идея
Я имел в виду диалоги, которые могут содержать информацию такого характера, например переписки по работе, тогда могут возникнуть проблемы с работодателем
Спасибо, приятно:)
Ответ на первую часть комментария
Конечно идея не супер уникальная (после написания статьи оказалось, что есть работы с обучением клонов на диалогах из мессенжеров, упомянул в начале), но спасибо за фидбек
Пока что бот выключен