Комментарии / Профиль sudormrf / Хабр

Пользователь

Рейтинг русскоязычных энкодеров предложений

@sudormrf 7 июн 2022 в 08:09

Здравствуйте!
Вы проделали отличную работу, большое спасибо! Один вопрос:

Во-вторых, за счёт увеличения словаря сократилось число среднее токенов на один текст, а значит, модель стала быстрее работать на CPU

Я правильно понимаю, что чем больший размер словаря задан в качестве гиперпараметра при обучении токенизатора, тем больше токены в словаре будут словами/почти словами и, соответственно, чем меньше размер словаря, тем больше словарь будет состоять из самых частотных n-грам?
И именно за счёт этой особенности произошёл прирост по скорости на CPU?