Комментарии 1
Хорошая база, сохранил в закладки. Новичкам я бы еще посоветовал не игнорировать классику типа TF-IDF+ логит. Бывает, люди сразу пихают трансформеры там, где обычная регрессия на 1000 примеров отработала бы быстрее и стабильнее.
По поводу Smart Batching из статьи — это реально маст-хэв для ускорения обучения. Но в проде еще часто всплывает проблема 'перекоса' длин текстов, когда один длинный сэмпл тормозит весь батч. Кто как с этим борется? Просто режете по квантилю или есть более изящные костыли?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Машинное обучение для работы с текстами: подборка бесплатных курсов и материалов