Как стать автором
Обновить
43
0
Михаил Хрущев @MichaelEk

Deep learning/NLP developer in Yandex

Отправить сообщение

Привет!

(1.) Все верно. Нужно еще место под промежуточные активации

(2.) Блоки трансформера идут с 03 по 82 слой. Остальные слои - эмбеддинги, преобразования в нужную размерность, лямбда функции (у них нет чекпоинта). Структура слоев взята из PipelineModule DeepSpeed

(3.) За 65 дней модель прошла 300B токенов - столько же, сколько GPT-3 от OpenAI. Её можно было бы улучшить, обучая еще, но для существенного роста качества ее стоило бы обучать еще месяц-два.

Спасибо за внимание к статье. Отличные вопросы!

  1. На данный момент это самая большая полностью обученная LM модель, выложенная в open source. А также, это самая большая на данный момент модель, обученная на русском языке.

  2. Запуск такого ноутбука - нетривиальная задача, для удобства использования мы выложили докер, который можно запустить на Яндексе или AWS. На github есть скрипты запуска.

  3. Какого рода примеры генерации интересны? Диалоги один из наших основных генеративных кейсов, поэтому мы исследовали генерацию на них. Ответы из примеров были сгенерированы YaLM 100B с подводкой, похожей на диалоговую подводку из статьи Gopher. Справедливости ради отмечу, что не каждое продолжение диалога выглядит так хорошо и интересно, но:

    • почти все ответы модели были адекватными;

    • из них примерно 30% были действительно интересными.

  1. Замеряем на fewshot и zeroshot генерации.

Многие научные статьи делают акцент на качестве полученных решений, опуская многие технические аспекты. Мы видим свой вклад как раз в приоткрытии технических моментов. Замеры качества будут, но позже. Подписывайтесь на нас и следите за обновлениями ;)

Параметры выше generate_conditional_sampling.sh хороши для генерации разнообразного текста, но лучше обеспечить текст достаточно большой подводкой. Пример хорошей диалоговой подводки вы можете увидеть на 112-113 страницах статьи Gopher.

Для решения каких-то прикладных задач с единственным правильным ответом, вроде QA на fewshot, стоит использовать параметры из generate_conditional_greedy.sh

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Работает в
Дата рождения
Зарегистрирован
Активность

Специализация

Специалист
Senior