Как стать автором
Обновить

ИИ Microsoft генерирует реалистичную речь с минимальным обучением

Время на прочтение2 мин
Количество просмотров4.8K


В своем новом проекте компании Microsoft удалось значительно усовершенствовать технологии генерации речи. Разработанную нейросеть отличает естественное произношение, практически неотличимая от человеческой, и малый объем размеченной выборки, необходимой для обучения.

В основе разработки лежит нейроархитектура под названием Transformers, созданная одной из команд Google в 2017 году. Принцип обработки информации, который она применяет, в общих чертах повторяет механизм работы человеческого мозга. В частности, модели, построенные на ее базе, обладают способностью удерживать внимание — входные и выходные значения обрабатываются в динамическом режиме, что позволяет системе не терять контекст даже при работе с длинными фразами. Также в систему входит кодировщик, устраняющий лишние шумы из аудиоматериала и восстанавливающий поврежденные записи.

Для обучения нейросети исследователи отобрали из базы LJSpeech 200 коротких записей человеческой речи — в общей сложности около двадцати минут непрерывного звучания — и снабдили каждый из них транскрипцией. Исследователи подчеркнули, что клипы отбирались случайным образом, без сортировки по качеству звука, чтобы проверить также и работу кодировщика. За исключением этого набора больше предварительно обработанных данных системе не предоставлялось. Тем не менее, на стадии тестирования она показала результаты, превосходящие показатели стандартных алгоритмов: сгенерированная речь была различима в 99,84% случаев.

Для сравнения на странице проекта авторы представили несколько записей одинаковых текстов в двух вариантах: первый был создан обычными методами на базе выборки в 200 единиц, второй — с применением новых технологий Google при том же объеме учебного материала. Очевидная разница как во внятности произношения, так и в сходстве с голосом реального человека позволяет судить о преимуществах, которые дает система Transformers.

По мнению авторов, практическая значимость разработки состоит в том, чтобы сделать инструменты распознавания и генерации речи более доступными. Упрощенный процесс обучения на небольшом наборе данных будет стимулировать более широкое их применение в малом бизнесе и даже в индивидуальных проектах. Кроме того, станет значительно проще работать с языками, которые не располагают крупными базами данных с обработанным материалом, не жертвуя при этом качеством результата.

Код проекта в скором времени будет предоставлен в открытый доступ. Послушать и сравнить оба метода можно на странице проекта.
Теги:
Хабы:
+22
Комментарии5

Другие новости

Истории

Работа

Data Scientist
63 вакансии

Ближайшие события