Как стать автором
Обновить

Тестируем ruGPT-3 на новых задачах

Время на прочтение 9 мин
Количество просмотров 40K
Блог компании Сбер Блог компании SberDevices Машинное обучение *Искусственный интеллект Natural Language Processing *
Туториал
✏️ Технотекст 2021

Рекомендательные системы с нуля, чат-боты и многое другое


Погрузившись в пучину текстовых данных, в октябре этого года мы обучили модели ruGPT-3 — модели для русского языка на основе архитектуры от OpenAI. Но на что же способны эти модели? В этой статье мы соберем первые примеры применения модели — и попробуем новые.

Мы представляем первые результаты самой большой из обученных моделей — ruGPT-3 Large, разработанной совместно с командами SberDevices, Sber.AI и SberCloud. Изучим границы ее применения вместе с вами.

image

В этом году на AI Journey мы подготовили соревнование применений ruGPT-3 — в трек можно сдать любое решение с использованием модели, оцениваемое по трем шкалам — инновационность, эмоциональное вовлечение и бизнес-применимость.

Спойлер:
1 млн рублей за первое место

Читать дальше →
Всего голосов 29: ↑27 и ↓2 +25
Комментарии 50

Всё, что нам нужно — это генерация

Время на прочтение 10 мин
Количество просмотров 16K
Блог компании Сбер Блог компании SberDevices Машинное обучение *Искусственный интеллект Natural Language Processing *
Туториал

Применяем ruGPT-3 в популярных задачах и показываем, зачем языковым моделям триллион параметров


С наступлением 2021 в NLP продолжается гонка «больше — лучше», захватывая новые архитектуры. Пальма первенства самой большой языковой модели в 2020 году принадлежала GPT-3 от OpenAI с 175 миллиардами параметров — но недолго. Модель GShard с помощью Mixture-of-Experts повысила планку до 600 миллиардов параметров, а затем и Google Brain заявил о разработке архитектуры Switch Transformer с 1,6 триллионами параметров (и тоже является MoE). Насколько повышение результатов за счет объема полезно для индустрии? Тот же Switch Transformer с его триллионом параметров далеко не на 1 месте в лидербордах.

Огромные языковые модели (Enormous Language Models, теперь это термин, им посвящен отдельный воркшоп конференции ICLR 2021) показывают действительно интересные результаты — не только в традиционных задачах ML, но и в новых сферах применения: генерации всего того, что раньше генерировать без ошибок было нельзя — музыку, изображения попиксельно, программный код и т.д. Из всех традиционных форм NLP-задач — классификация, классификация элементов последовательности, seq2seq, — по сути, у нас остается только одна: seq2seq. С приходом больших языковых моделей все задачи NLP сводятся теперь к форме генерации, при должном качестве этой самой генерации.

Seq2seq — самая «человеческая» форма решения задач: человек использует тот же формат,  отвечая на сообщения в чате, общаясь устно, сортируя имейлы в почте.  

  • Лично нам в SberDevices не терпелось поскорее применить такой формат к различным задачам — поэтому мы открываем доступ к самой большой русскоязычной нейросети ruGPT-3 XL с 1,3 млрд параметров. 

Инженерный запал вылился в кропотливую работу по распараллеливанию обучения, очистке данных и тестированию. Но зато… теперь в open-source модель ruGPT-3 XL с 1,3 млрд параметров!



А также ее публичное API:


Читать дальше →
Всего голосов 21: ↑21 и ↓0 +21
Комментарии 80

ToTTo: набор данных для управляемой генерации текста из таблицы

Время на прочтение 6 мин
Количество просмотров 940
Машинное обучение *
Перевод

За последние несколько лет исследования в области генерации текстов естественного языка (Natural Language Generation, NLG), используемой для таких задач, как суммаризация текста, достигли огромного прогресса. Однако несмотря на то, что удалось достичь достаточно высокого уровня беглости речи, нейросетевые системы могут быть склонны к своего рода «галлюцинациям» (т.е. созданию текста, понятного по смыслу, но не соответствующего содержанию источника). Этот факт может препятствовать использованию этих систем во многих приложениях, требующих высокой точности. Рассмотрим пример из набора данных Wikibio, где базовая нейросетевая модель должна суммаризировать текст из информационной карточки бельгийского футболиста Константа Вандена Стока в Википедии. Видно, что модель неверно заключает, что Констант — американский фигурист.


image3

Читать дальше →
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 0

Cross-Fold Generation или как генерировать длинные последовательности с ruGPT-3

Время на прочтение 11 мин
Количество просмотров 2.5K
Python *Машинное обучение *Искусственный интеллект
Из песочницы

RuGPT-3 - AI-модель для русского языка, которая умеет писать тексты. Она может генерировать истории, стихи и новости, которые люди не могут отличить от настоящих. Похожая модель лежит в основе Балаболы от Яндекса. В этой статье мы описываем способ генерации длинных текстов без потери смысла на примере модели ruGPT-3 Large. Мы назвали этот метод Cross-Fold Generation. С ним можно генерировать последовательности более 2000 токенов с сохранением идеи текста.

Читать далее
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 2

Создание корпуса для задачи автоматического исправления ошибок

Время на прочтение 6 мин
Количество просмотров 753
Python *Data Engineering *
Из песочницы

Задача автоматического исправления ошибок — одна из наиболее сложных в области обработки естественного языка. В области, где большинство проблем легко решается увеличением количества данных, именно малый размер обучающей выборки представляет наибольшую сложность: параллельных корпусов текстов с ошибками и правильных текстов хорошего качества крайне мало.

Самым известным мультиязыковым корпусом является LANG-8, в котором содержатся тексты на восьмидесяти языках. Этот массив данных был создан людьми, изучающими иностранные языки; пользователи исправляли чужие ошибки, и данные об этом автоматически попадали в систему. Однако количественное соотношение текстов на различных языках в корпусе колеблется. Так, на английском языке присутствуют свыше миллиона различных примеров, а для некоторых других языков их около десяти тысяч. Стоит также отметить тот факт, что данные собирались без какой-либо фильтрации и верификации, из-за чего в некоторых "правильных" предложениях могут присутствовать ошибки. Всё же этот корпус также крайне мал, что приводит к необходимости использования синтетических данных.

Читать далее
Рейтинг 0
Комментарии 1

GPT для чайников: от токенизации до файнтюнинга

Время на прочтение 13 мин
Количество просмотров 30K
Семантика *Программирование *Машинное обучение *Natural Language Processing *
Туториал
✏️ Технотекст 2022

К моему удивлению, в открытом доступе оказалось не так уж много подробных и понятных объяснений того как работает модель GPT от OpenAI. Поэтому я решил всё взять в свои руки и написать этот туториал.

Читать далее
Всего голосов 31: ↑30 и ↓1 +29
Комментарии 5

Тестим Марка: как происходит генерация новостей

Уровень сложности Простой
Время на прочтение 6 мин
Количество просмотров 1.1K
Учебный процесс в IT Искусственный интеллект Лайфхаки для гиков Natural Language Processing *
Из песочницы

Сейчас Марк от нашего медиа "Маркер" — это генеративная языковая модель, которая умеет придумывать новостные статьи без помощи человека. Марк может писать свободно, опираясь на свой опыт и выбирая каждое слово самостоятельно. Либо же мы можем помочь ему с темой новости и дать начало заголовка или заголовок, тогда Марк продолжит нашу мысль.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 7

Как сделать своего “Марка”? Обучение

Уровень сложности Средний
Время на прочтение 8 мин
Количество просмотров 4.3K
Искусственный интеллект Natural Language Processing *
Туториал

Привет! Ты уже знаешь, как генерировать новости с помощью Марка. Теперь расскажем, как же так получилось, что мы обучили языковую модель генерации новостей. Пришло время узнать, как можно файнтюнить большие генеративные модели под свои задачи.

Читать далее
Всего голосов 8: ↑6 и ↓2 +4
Комментарии 4