Как стать автором
Обновить

Комментарии 30

А есть сравненение в разных задачах NLP с другими вашими моделями ?
Например перефразирование и только перплексию можно использовать для всех задач?

Мы сравниваемся обычно с моделями с лучшими результатами по конкретным задачам. Делали замер по tapaco датасету - он как раз на многоязычный перифраз, есть замеры все в статье. https://arxiv.org/pdf/2204.07580.pdf

Дообучение на конкретных языках мы тоже начали делать: пока стартанули с MLSum (суммаризация) как станартной seq2seq задаче. С дообучением все вполне на уровне sota выходит. Хотя sota на большинстве языков не очень высока(

Какие вас больше интересуют применения, задачи?

интересует перефразирование на разных языках,
генерация текстов обзоры (few-shot)

---
и еще технический момент
у AWS есть бессерверные инференсы (API) (Бессерверное получение логических выводов), когда можно отправлять запрос и получать ответ от больших моделей не разворачивая у себя, есть такое у вас или планируете ?

А вы опубликуете доученную на саммари модель?

Я думаю, что можно, почему нет) Потестим ее тогда на mlsum

потестили ?
опубликуете?

Спасибо! Я с интересом слежу за тем, что у них получится. Это изначально должен был быть коллаборативный бенчмарк бенчмарков, причем достаточно мультимодальный.

При этом нет публичного лидерборда, хотя уже почти год прошел..? (с ICML 2021)

По идее, надо к модели еще добавить мультимодальность следующим шагом и пройти evaluation)

Прогресс немного тормознул, потому что такой бенчмарк это куча работы (больше чем ожидали организаторы), но в целом бекэнд для лидерборда уже есть и можно сабмитить. Для каждой таски можно посмотреть на результаты, прямо в ридми (например, emoji_movie ). Удобного фронтенда пока нет, но думаю к публикации появится.

Более того, набор бенчмарков не заморожен, поэтому туда можно сабмитить новые интересные таски и они будут частью бенчмарка (но не первой статьи)

Ух-ты! Мб им хотя бы на paperswithcode это все прогрузить? Там почти фроненд, автоматом на каждую модель и каждую таску

Возможно, пока что работа сфокусирована на подготовке публикации, дебаггинге и подготовке бейзлайнов, думаю фронтенд лидерборда это следующий этап и тогда будут рассматриваться разные варианты. Пока что сабмиты просто собираются в репе (хотя вне бейзлайнов их пока не оч много, поэтому и предложил протестировать вашу модель)

Сегодня еще хороший день для мультиязычности, потому что утром вышел новый датасет для задачи NLU на 51 языке https://www.amazon.science/blog/amazon-releases-51-language-dataset-for-language-understanding - думаю, мы должны попробовать на нем

Круто, посмотрим обязательно модель. Нас конечно интересует диалоговый сеттинг: делаем чатбота, разговаривающего на психологические темы, и там конечно же проявляются все проблемы архитектуры GPT, фактология и противоречивость информации в репликах.

Тестировали ли вы mGPT в тюнинге для чатботов, какой эффект мультиязычность оказывает на русскоязычного чатбота по типу Джой - стоит ли взять mGPT вместо ruGPT3 для русскоязычного бота?
А вот для задачи контролируемой генерации кажется стоит попробовать модель - учим ruGPT3 генерации текстов и там есть успех, но бывает такое, что некоторые ключевые слова заменяются на близкие им (видимо в эмбеддингах), а этого хотелось бы избежать. Тогда вопрос генерации текста с конкретными брендами в нем упросится - они не будут подменяться конкурирующими брендами из этой же категории)

По идее для диалогов вполне можно использовать, вот делаю генерацию - работает:

prompt = '''- Hey, what's up?
- Cool, man! 
- '''
text = model.generate(
    prompt, top_p=0.95, top_k=0, seed=1336)
print(text)

Вывод:

- Hey, what's up?
- Cool, man! 
-  Yeah, I come on a vacation 
- Yes, cool. 
- Look, man, I don't have much free time.
- No problem. 
- Well, you can't be taking a vacation without getting out of the house. 
- I would say, work. 
- Cool, don't you think so? 
- Don't you like to work? 
- I don't like it. 

>>стоит ли взять mGPT вместо ruGPT3 для русскоязычного бота?

Я думаю, для русского языка емкость русской моноязычной модели больше. Но можно зато сделать бота, который будет говорить сразу на многих языках

Что-то у меня не выходит извлечь из этой модели осмысленный текст. На выходе получается сплошной текстовый мусор
вроде такого
с (вы тво дается, одай онавто, или же, но́(ого, узуть, во, гость, убодъядыйг… явля гость, по суга<|endoftext|>
го, мыльное, осужув. ясно, вид, упор, возбу<|endoftext|>
закыв, гость, чтa, лад, муже, фудья, рубаёт, юлнӧг, соущё, гость, эг, цял, ГОГА, ряде, йых, яг, — это, яг, ся,
ruGPT3large при тех же параметрах генерирует без проблем.

UPD: Разобрался, модель работает только с очень короткими текстами. При длине затравки свыше 512 токенов в выхлоп начинает сыпаться текстовый мусор, процент которого быстро возрастает с ростом затравки. И уже при длине затравки в 800 токенов извлечь из модели хоть что-то осмысленное не удаётся.
Т.е. можно считать, что предельная длина контекста — 512 токенов.

Еще, на самом деле, важный вопрос такой: лучше всего работает sampling, но для разных языков параметры top p и top k немного разные.

Для русского я обычно использую

text = model.generate(
    prompt, top_p=0.95, top_k=0, seed=1336)
print(text)

Для остальных языков они тоже ничего, но перебором в среднем хороши бывают вот такие параметры:

min_length=100,
eos_token_id=5, 
pad_token=1,
do_sample=True,
top_k=0,
top_p=0.8,
no_repeat_ngram_size=4

13B (ru или m) модель будет эксклюзивно только в SberCloud, без возможности выкачать самому?

Пока да, думаем ее еще получше потестить. 13В моноязычная ruGPT-3 тоже в клауде живет. на 1 Tesla V100 влезает только инференс, дообучение - 4 Tesla V100 минимум

Пробую зеро-шот перевод, получился красивый черри-пик

Коллеги подсказывают, что стоит обращаться напрямую к создателям корпусов: https://ling.hse.ru/about. Конкретно по корпусу татарского там указаны конкретные имена участников проекта: http://web-corpora.net/TatarCorpus/search/?interface_language=ru.

Там есть отдельные подкорпуса языков, вот тут на странице есть вкладка "скачать" : http://web-corpora.net/wsgi3/minorlangs/

Как интересно ... именно веб-корпуса самых частотных языков РФ недоступны (татарский, башкирский, татарский):

Хорошо работают наши налоги - деньги освоили, нужные корпуса скачать нельзя. То есть ситуация мало изменилась, надо все равно идти на CC и качать и обрабатывать все самому =)

Почему?.. Когда мы брали го назад данные, все было на месте. Сейчас зашла на сайт - их больше всех: http://web-corpora.net/wsgi3/minorlangs/download

в строке "татарский" архив 40мб, башкирский - 96мб.

вроде все на месте

вторая колонка пустая

Не смог попробовать модель локально на Nvidia 2060 6gb просто памяти не хватает ;(

Попробуйте в колабе, действительно, там инференс занимает порядке 12 Gb

Зарегистрируйтесь на Хабре , чтобы оставить комментарий