snakers46 окт 2021 в 13:56

Мы опубликовали модель, расставляющую знаки препинания и заглавные буквы в тексте на четырех языках

8 мин

16K

Big Data * Natural Language Processing * Python * Машинное обучение *

+22

Комментарии 12

snakers4 6 окт 2021 в 14:09

Пока делал картинку из заголовка (надеюсь, все оценят шутку про "кровожадность" и отсутствие "интеллекта" у модели) совсем забыл добавить, что в некоторых конкретных случаях паузы могут быть эквивалентны запятым (на примере этого предложения это очень ярко видно).

Но прокидывание пауз из речи мы тоже пока не делали.

altervision 7 окт 2021 в 05:41

Модель прекрасная и долгожданная, но судя по всему, в опубликованной версии есть пара мелких ошибок. Либо я что-то делаю совсем не так :(

При попытке ручного импорта или загрузки через torch.hub модель жалуется на отсутствие файла version в ней. Если этот файл воткнуть вручную, начинает жаловаться на extern_modules.

Запустить её, к сожалению, не получилось. Хотя очень хочется воткнуть в своего "домашнего" бота для распознавания голосовух в Телеграмм.

snakers4 7 окт 2021 в 05:44

А какая у вас версия PyTorch? У вас не запускается локально или в colab?

altervision 7 окт 2021 в 06:09

Оказалось, что это я дурак ;) Изначально пытался запускать локально на версии 1.8.1, ничего не работало. Обновил PyTorch до 1.9.1 и все заработало! Огромное спасибо, будем тестировать))

snakers4 7 окт 2021 в 06:09

Что-то похожее было в торче 1.8 при попытке открыть пакеты.
Пакеты появились начиная с 1.9.
В репозитории это явно написано, но наверное следует написать хотя бы тут на всякий случай:

Basic dependencies for examples:

torch, 1.9+;
pyyaml, but it's installed with torch itself

Вообще happy path тут такой, что пробуете в колабе, дальше запускаете локально, там даже отдельные примеры показывают немного внутрянку и как не тянуть утилитку из hubconf.py при локальном запуске (она по сути просто скачивает список моделей, выбирает последнюю из запускает ее).

snakers4 7 окт 2021 в 06:11

Удалил дубль своего комментария

altervision 7 окт 2021 в 07:49

На версии 1.9.1 всё работает идеально. Модель подключается буквально одной строчкой:

import torch
tmodel = torch.package.PackageImporter("/home/silero/v1_4lang_q.pt").load_pickle("te_model", "model")

И дальше улучшение текста внедряется точно так же в одну строку:

text = tmodel.enhance_text( text, "ru" )

Просто идеальная моделька для "домашнего" бота распознавания голосовых сообщений.

snakers4 7 окт 2021 в 07:54

Да, по сути вся заморочка с torch.hub сделана потому, что даже простые действия в духе "скачать модель" вызывали проблемы у пользователей. Но те, кто разобрался, понимают, что там все максимально минималистично насколько вообще возможно.

Я уже молчу про работу по оптимизации модели.

MaxKozlov 7 окт 2021 в 09:02

На винде не взлетела, пока в hubconf.py не добавил open('latest_silero_models.yml', 'r', encoding='utf8')

snakers4 7 окт 2021 в 09:13

Спасибо за находку, честно говоря мы и не подумали, что open использует системную кодировку по умолчанию.

elingur 7 окт 2021 в 10:43

Может я что-тоупустил, но из статьи не понятно, какой алгоритм и архитектуру построения модели вы используете. Что значит бертоподобная? Почему, скажем, не elmo или gpt-подобная?

snakers4 7 окт 2021 в 11:07

Что значит бертоподобная?

Значит сделана на основе пре-тренированной BERT-подобной модели.

Почему, скажем, не elmo или gpt-подобная?

ELMO насколько я помню (уже давно читал статью) это внутренние состояния больших RNN-ок (это медленное и непрактичное, если память не изменяет), и если честно когда статья вышла, я вообще не понял в чем фишка.

Чем GPT от BERT отличается навскидку не вспомню, но это уже трансформеры (сетки на основе self-attention слоев). А значит роль играет не столько как они работают, а как и на чем они были пре-тренированы (и на каких языках и токенах). Если еще раз память не изменяет, то фишка берто-подобных сеток была именно в относительной "скорости" их тренировки и отсутствии рекуррентности.

Мы выбирали по сути из доступных пре-тренированных моделей, адекватных по количеству языков, задаче на которой их тренировали и размеру.

Я не большой фанат того, что на что сейчас тратят гигантские бюджеты NLP, но если вынести за скобки мое личное мнение про построение капитализации на "перебивании as-is" чужих моделей к себе в хаб, то если поискать по доступным моделям у хагов, там и адекватных вариантов базовой модели буквально пара.

Повторюсь, что мы смогли ужать все без потери качества до <100 мегабайт, но предполагаю, что уровень 25-50 мегабайт тоже вполне достижим.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий