Comments 2
Спасибо за статью, но со стороны кажется что вы экспериментальным путем подобрали архитектуру сети под конкретный набор данных GLUE? Если увеличить количество параметров одного BERT в 10 раз, не будет ли он решать задачи еще лучше без маршрутизации?
0
Спасибо за вопрос! Вы правы, что данный проект рассматривался только в рамках задач GLUE, и в результатах может быть к ним предвзятость. Сравнение маршртиузирующих сетей с моделью x10 также имеет место быть, и результаты заранее не очевидны.
Для нас были важны их следующие преимущества по сравнению с моделью x10: технические, касающиеся производительности и идейные.
Технически, в настоящее время гораздо проще реализовать вариант маршртизрующих сетей, т.к. каждый эксперт целиком вмещается на стандартную видеокарту, в то время как вариант модели x10 требует последовательного параллелизма модели. Это труднее реализовать в современных библиотеках.
С точки зрения производительности, использование x10 скажется на скорости вычисления: 10 машин последовательно должны вычислять результат, вместо одной. Использование маршрутизации позволяет этого избежать, что может быть более важно чем небольшое улучшение качества.
Идейно, продолжение данного проекта подразумевает маршрутизацию через гетерогенных экспертов, а именно когда в наборе экспертов у нас такие текстовые эксперты как BERT, ALBERT, RoBERTa (где каждый способен следить за разными по структуре зависимостями), которые могут быть еще и обучены на различных датасетах (к примеру, BioBERT). Провести какую-то аналогию с масштабированием модели тут уже сложнее. В то же время, после обучения каждая команда (от каждой задачи) забирает себе только нужных ей экспертов, и это не приводит к значительным изменениям по сравнению с одним BERT-ом, что не так в случае модели x10.
Для нас были важны их следующие преимущества по сравнению с моделью x10: технические, касающиеся производительности и идейные.
Технически, в настоящее время гораздо проще реализовать вариант маршртизрующих сетей, т.к. каждый эксперт целиком вмещается на стандартную видеокарту, в то время как вариант модели x10 требует последовательного параллелизма модели. Это труднее реализовать в современных библиотеках.
С точки зрения производительности, использование x10 скажется на скорости вычисления: 10 машин последовательно должны вычислять результат, вместо одной. Использование маршрутизации позволяет этого избежать, что может быть более важно чем небольшое улучшение качества.
Идейно, продолжение данного проекта подразумевает маршрутизацию через гетерогенных экспертов, а именно когда в наборе экспертов у нас такие текстовые эксперты как BERT, ALBERT, RoBERTa (где каждый способен следить за разными по структуре зависимостями), которые могут быть еще и обучены на различных датасетах (к примеру, BioBERT). Провести какую-то аналогию с масштабированием модели тут уже сложнее. В то же время, после обучения каждая команда (от каждой задачи) забирает себе только нужных ей экспертов, и это не приводит к значительным изменениям по сравнению с одним BERT-ом, что не так в случае модели x10.
0
Sign up to leave a comment.
Как объединить 10 BERT-ов для задач общего понимания текста?