Pull to refresh
58
Tatiana Shavrina@Rybolos

NLP, data scientist

91
Subscribers
Send message
Мы не цензурируем вывод модели)
Вешаем дисклеймер, но вывод бывает всякий, конечно, учитывая, что в обучающей выборке тексты из интернета.
Ну на одну Tesla V100-SXM3 32 Gb помещается
Это другая сторона медали вот таких здоровых моделей, конечно
У GPT-3 есть оригинально несколько реализаций — в оригинальной статье приводятся вот такие варианты:
image

Мы реализовали варианты Large, Medium и Small пока что, чтобв проверить, на что они способны. Кажется, эксперимент удачный — теперь не жалко запускать обучение модели больше.
Название с «based_on_gpt2» — это грязный хак ради сохранения совместимости. В библиотеке transformers есть популярная обертка для работы с GPT-2, которую все используют — в нее очень удобно подгружать веса GPT-3, но нужно пройти проверку на наличие «gpt2» в названии модели))

Нужен python, и библиотеки из нашего репозитория.


Либо просто ничего не ставить, а запускать все готовое в колаб-ноутбуке (ссылки в статье) — это такая бесплатная среда для программирования на python

Кстати, да!

Спасибо за комментарий!

Нет, примеры не обрезаны — но они получены с помощью модели ruGPT-3 Large, она чуть получше генерирует, чем модель Small. Я делаю через демку, запущенную на Кристофари — к сожалению, не могу ее дать пока в паблик.
У генеративных моделей есть такие проблемы, что они могут зацикливаться, это правда — в таких случаях как раз нужен постпроцессинг. image
В колабе есть конкретный пример, но можно делать и без него.
все модели есть, и код к ним: репо

Вот рабочий ноутбук с загрузкой маленькой модели colab.research.google.com/github/sberbank-ai/ru-gpts/blob/master/examples/ruGPT3_generation_example.ipynb
Спасибо! Минимально нужно 14Gb памяти на GPU — на лэптопе или в Колабе: colab.research.google.com/drive/1bwNxmVJMJ3x_N5ylS-nylkQpHUAF0DES?usp=sharing клонируется репо, там есть все requirements к питоновским библиотекам.

Вот еще примре со школьного трека — обучаем сетку за 20 минут писать сочинения в колабе: colab.research.google.com/drive/1h6r6Qg9xwyIzz6-FXgB9tIjAzce0gc2d?usp=sharing
Это называется суммаризация. Подход нормальный, только трудно оценить, см метрики BLeu и Rouge

Да! Определённо есть. Некоторые датасеты вырастут в объёме, могут добавиться новые.


В английском GLUE так получилось, что задания были решены так быстро, что проще было сразу выпустить новый проект с приставкой "super".

Да, это правда! Это датасет, в котором, пожалуй, смаый большой разрыв у уровня человека и модели — люди с ним справляются достаточно хорошо.
Мы брали в датасет задания, на которых все разметчики уверены, оверлап 3 человека.
В этом примере правильный ответ, что вывод неверен. Логика такая: из того, что у наших было преимущество, не следует, что они играли лучше.
Так все же будет не вечно с границами.

Да и потом, это очень скажется на мотивации — не уволятся, так начнут левачить в рабочее время, чтобы добрать в другом месте.
>> представители российских IT-компаний попросили Минкомсвязи включить их в перечень отраслей, наиболее пострадавших от пандемии и экономического кризиса… Этот спад неизбежно приводит к отъезду высококвалифицированных программистов из России
>>наделение до конца 2020 года работодателя правом временно снижать заработную плату сотрудникам (не более чем на 20%), либо отпускать сотрудников (по согласованию с ними) в вынужденный отпуск с учетом снижения их заработной платы на 50%;

Они хотят ускорить процесс?
fabuk уточнение про автора я дописала после появления первого коммента. Было бы здорово, если бы все научные работы рассматривались не с позиции авторитета автора, а только с позиции научной оценки его предложений — но не в этой вселенной, видимо.
fivehouse, не думаю, что они в принципе могут быть быстро преодолены. В 80-х было не понятно, что, если научить компьютер играть в шахматы, ИИ не получится. Сейчас мы по стуи накопили еще больше знаний о том, как делать, чтобы ИИ не получился.

ML-сообщество производит огромный вклад в методологию сейчас — я думаю, на его плечах будет лежать основной прогресс в этой сфере. Новые тесты можно предлагать именно с ML-стороны, зная органичения моделей. Та же культура benchmark'ов, тестирующая обобщающие способности моделей, идет по этому пути. Пример: super.gluebenchmark.com
Все почти так)
Эмбеддеры — это модели, источники эмбеддингов.
Слово embedder вполне употребимое.

Information

Rating
Does not participate
Works in
Registered
Activity