Как стать автором
Обновить
14
-2
Alena Fenogenova @alenusch

NLP research engineer

<3 спасибо
Разбираемся

Спасибо больше за предложения! В каком-то смысле мы заложники тут самой открытой библиотеки lm-harness, и будем так или иначе дорабатывать код, исходя из её возможностей и развития проекта

Добрый день!
Можно посмотреть в сторону: https://github.com/ai-forever/MERA/blob/main/lm-evaluation-harness/lm_eval/base.py#L714

К сожалению я не знаю, какая у вас модель. Системные промпты у разных моделей могут быть разными и встраиваться по разному. Где-то это общий промпт вначале, где-то нужно обрамлять тегами/токенами и т.д. Тут всё уникально, поэтому мы не стали никак фиксировать на данном этапе.

Надеемся получить различные сабмиты моделей, чтобы далее, учитывая разнообразие, предложить некоторый вариант общий, как это встраивать. Будем рады вашим pull request.



Да, разумно
Кажется, что можно как вариант использовать P-tuning с адаптерами в связке, что тоже говорят даёт неплохой буст
Касательно GigaChat, мы работаем над его улучшением (качества ответов в первую очередь). Прунинг уменьшит модель, да скорее не улучшит качество, но спасибо большое за идею, посмотрим тоже!

Неструктурированные как можно больше, гигабайтами, чтобы сделать моноязычную отдельную модель
Если структурные данные и корпуса, то нужно понимать для каких целей, какие задачи решаем
Напишите пожалуйста на Fenogenova.A.S@sberbank.ru мы уже с ребятами в официальной переписке подхватим

Вы правы, очень интересные, и мы только за обучить модели для кабардинского и черкесского языков.
Выбор был связан лишь с тем, что мы не нашли достаточно открытых данных для них. Если у вас есть корпуса или понимание откуда такие данные можно раздобыть, поделитесь пожалуйста с нами =)

Спасибо за Ваши комментарии

Поясню, в научном сообществе приняты термины и постановки задач определенным образом. Для того, чтобы корректно сравниться с известными решениями по ряду прикладных задач есть датасеты и рейтинги систем, описанные в научных статьях (ссылки на которые мы прикладываем в тексте). Там же описаны базовые решения, с которыми мы сравниваемся и соотвествующие автоматические метрики. Для просты изложения, в данной статье мы старались соблюдать названия, принятые в международной литературе.

Попробуйте использовать GigaChat для замены англицизмов или задачи парафраза той части хабр-статьи, которая вас смущает. Это действительно хороший практический пример!

Напишите пожалуйста мне на Fenogenova.A.S@sberbank.ru. Для белорусского и в оригинальной мгпт и моно версии была высоковатая перплексия.
Можем поделиться прогонами тестов, давайте вместе разбираться.
Если у вас есть также дополнительно тексты для тестов и дообучения, было бы здорово.

Всё так, спасибо 👍🏻

Вообще примеров много должно быть, так как модели в HF формате. Посмотрю.

Тут скорее трудность в том, что инструкции надо на нужном языке найти в достаточном количестве.

Для упрощения текстов есть инструменты симплификации! Суммаризатор выделяет главное в тексте, а симплификатор упрощает текст, делает его более читаемым, повышает так называемые метрики readability.
Можно почитать например, вот тут https://www.dialog-21.ru/evaluation/2021/rusimplesenteval/ для русского языка было даже соревнование таких систем

Есть спрос от редакторов, копирайтеров, кто работает с текстами и у кого много однотипного monkey job
Есть множество применений научных, ведь не секрет, что данные в наше время это золотая жила и основа всех ml систем. На чем обучали, то и выходит. С этой точки зрения рерайтеры и парафразеры очень помогают для аугментации данных или их также используют для различных трансформаций и адверсариальных атак на большие языковые модели, чтобы проверить их робастность

С появлением генеративных моделей действительно выходит множество решений для задач копирайта и различной работы над текстами, в том числе потому, что на сервисы есть спрос, они облегчают жизнь людям, работающих с текстами.
Со своей стороны, как авторы опенсорсных моделей ruGPT3, мы разумеется также развиваем данное направление и прототипы в области NLP. Внутри нашей компании есть запрос от коллег на такие сервисы, но мы рады поделиться с комьюнити нашими наработками. Сервисы Рерайта и Суммаризатора доступны сейчас в бета версии бесплатно, и комьюнити может тестировать их. Мы открыты к вашим идеям и будем рады вашему фидбеку. В том числе, например мыслям, как можно было бы улучшить обработку домена классических художественных текстов

Есть множество метрик оценки сходства смысла пар текстов, например мерить через косинусную близость их эмбеддингов LaBSE https://huggingface.co/cointegrated/LaBSE-en-ru. В том числе в нашем сервисе есть классификатор, который также мерит сходство текстов, после чего выдает вариант наиболее приближенный к оригиналу.
Подходить к задаче можно с разных сторон, но это естественное продолжение исследований в области автоматического парафраза и рерайта текста, а как следствие - развитие индустрии и бизнеса

Информация

В рейтинге
Не участвует
Откуда
Россия
Дата рождения
Зарегистрирована
Активность

Специализация

Специалист
Natural language processing
Machine learning
Deep Learning
Python
Django