У GPT-3 есть оригинально несколько реализаций — в оригинальной статье приводятся вот такие варианты:
Мы реализовали варианты Large, Medium и Small пока что, чтобв проверить, на что они способны. Кажется, эксперимент удачный — теперь не жалко запускать обучение модели больше.
Название с «based_on_gpt2» — это грязный хак ради сохранения совместимости. В библиотеке transformers есть популярная обертка для работы с GPT-2, которую все используют — в нее очень удобно подгружать веса GPT-3, но нужно пройти проверку на наличие «gpt2» в названии модели))
Нет, примеры не обрезаны — но они получены с помощью модели ruGPT-3 Large, она чуть получше генерирует, чем модель Small. Я делаю через демку, запущенную на Кристофари — к сожалению, не могу ее дать пока в паблик.
У генеративных моделей есть такие проблемы, что они могут зацикливаться, это правда — в таких случаях как раз нужен постпроцессинг.
Да, это правда! Это датасет, в котором, пожалуй, смаый большой разрыв у уровня человека и модели — люди с ним справляются достаточно хорошо.
Мы брали в датасет задания, на которых все разметчики уверены, оверлап 3 человека.
>> представители российских IT-компаний попросили Минкомсвязи включить их в перечень отраслей, наиболее пострадавших от пандемии и экономического кризиса… Этот спад неизбежно приводит к отъезду высококвалифицированных программистов из России
>>наделение до конца 2020 года работодателя правом временно снижать заработную плату сотрудникам (не более чем на 20%), либо отпускать сотрудников (по согласованию с ними) в вынужденный отпуск с учетом снижения их заработной платы на 50%;
fabuk уточнение про автора я дописала после появления первого коммента. Было бы здорово, если бы все научные работы рассматривались не с позиции авторитета автора, а только с позиции научной оценки его предложений — но не в этой вселенной, видимо.
fivehouse, не думаю, что они в принципе могут быть быстро преодолены. В 80-х было не понятно, что, если научить компьютер играть в шахматы, ИИ не получится. Сейчас мы по стуи накопили еще больше знаний о том, как делать, чтобы ИИ не получился.
ML-сообщество производит огромный вклад в методологию сейчас — я думаю, на его плечах будет лежать основной прогресс в этой сфере. Новые тесты можно предлагать именно с ML-стороны, зная органичения моделей. Та же культура benchmark'ов, тестирующая обобщающие способности моделей, идет по этому пути. Пример: super.gluebenchmark.com
Вешаем дисклеймер, но вывод бывает всякий, конечно, учитывая, что в обучающей выборке тексты из интернета.
Это другая сторона медали вот таких здоровых моделей, конечно
Мы реализовали варианты Large, Medium и Small пока что, чтобв проверить, на что они способны. Кажется, эксперимент удачный — теперь не жалко запускать обучение модели больше.
Нужен python, и библиотеки из нашего репозитория.
Либо просто ничего не ставить, а запускать все готовое в колаб-ноутбуке (ссылки в статье) — это такая бесплатная среда для программирования на python
Кстати, да!
Нет, примеры не обрезаны — но они получены с помощью модели ruGPT-3 Large, она чуть получше генерирует, чем модель Small. Я делаю через демку, запущенную на Кристофари — к сожалению, не могу ее дать пока в паблик.
У генеративных моделей есть такие проблемы, что они могут зацикливаться, это правда — в таких случаях как раз нужен постпроцессинг.
все модели есть, и код к ним: репо
Вот рабочий ноутбук с загрузкой маленькой модели colab.research.google.com/github/sberbank-ai/ru-gpts/blob/master/examples/ruGPT3_generation_example.ipynb
Вот еще примре со школьного трека — обучаем сетку за 20 минут писать сочинения в колабе: colab.research.google.com/drive/1h6r6Qg9xwyIzz6-FXgB9tIjAzce0gc2d?usp=sharing
Да! Определённо есть. Некоторые датасеты вырастут в объёме, могут добавиться новые.
В английском GLUE так получилось, что задания были решены так быстро, что проще было сразу выпустить новый проект с приставкой "super".
Мы брали в датасет задания, на которых все разметчики уверены, оверлап 3 человека.
Да и потом, это очень скажется на мотивации — не уволятся, так начнут левачить в рабочее время, чтобы добрать в другом месте.
>>наделение до конца 2020 года работодателя правом временно снижать заработную плату сотрудникам (не более чем на 20%), либо отпускать сотрудников (по согласованию с ними) в вынужденный отпуск с учетом снижения их заработной платы на 50%;
Они хотят ускорить процесс?
ML-сообщество производит огромный вклад в методологию сейчас — я думаю, на его плечах будет лежать основной прогресс в этой сфере. Новые тесты можно предлагать именно с ML-стороны, зная органичения моделей. Та же культура benchmark'ов, тестирующая обобщающие способности моделей, идет по этому пути. Пример: super.gluebenchmark.com
Эмбеддеры — это модели, источники эмбеддингов.
Слово embedder вполне употребимое.