Pull to refresh
336
39.2
Alexander Veysov@snakers4

Machine Learning / Data Science

Send message

У кого-то может не работать без Microsoft Visual C++ Redistributable

Ещё в таких тредах принято советовать Sunlust =)

Имхо первая Eviternity как-то сильно повкуснее. Вторая показалась очень скучной после первой.

Когда нужно было хардкодить такие формулы, люди советовали открыть доку уже неиспользуемой либы для DL theano, там эти все вычисления с анимацией прямо в доке конв слоёв описаны.

Мы также добавили в проект silero-stress:

  • Акцентор для белорусского языка на основе словаря в 1.8M слов;

  • Акцентор для украинского языка на основе словаря в 3M слов.

Для справки - акцентор это очень маленькая модель (мегабайт), которая ставит ударения со 100% точностью (с точностью до имеющегося словаря).

Почему именно модель, а не просто словарь? Сжатие примерно в 10 раз больше, плюс акцентор генерализуется на новые и несуществующие слова с точностью около 60-70%. То есть ставит чаще верно, чем неверно. Словарь или архив так не умеет =)

Мы также добавили:

  • Акцентор для белорусского языка на основе словаря в 1.8M слов;

  • Акцентор для украинского языка на основе словаря в 3M слов.

Для справки - акцентор это очень маленькая модель (мегабайт), которая ставит ударения со 100% точностью (с точностью до имеющегося словаря).

Почему именно модель, а не просто словарь? Сжатие примерно в 10 раз больше, плюс акцентор генерализуется на новые и несуществующие слова с точностью около 60-70%. То есть ставит чаще верно, чем неверно. Словарь так не умеет =)

Мы также добавили:

  • Акцентор для белорусского языка на основе словаря в 1.8M слов;

  • Акцентор для украинского языка на основе словаря в 3M слов.

Для справки - акцентор это очень маленькая модель (мегабайт), которая ставит ударения со 100% точностью (с точностью до имеющегося словаря).

Почему именно модель, а не просто словарь? Сжатие примерно в 10 раз больше, плюс акцентор генерализуется на новые и несуществующие слова с точностью около 60-70%. То есть ставит чаще верно, чем неверно. Словарь так не умеет =)

Если брать языки, отличные от русского, то кажется вот такое можно делать:

  • Озвучка книг;

  • Экранная читалка (модели достаточно быстрые для такого);

  • Озвучка уведомлений в транспорте;

Естественно для каких-то юзкейсов нужно ещё будет какие-то утилиты написать.

Очень крутая работа! У нас почему-то все постоянно нахваливают Whisper по кругу, слабо понимаю почему.

Commercial usage

В GigaAM-v2 мы предобучали модель примерно на 50 тысячах часов русской речи. В v3 мы увеличили этот объём до 700 тысяч часов.

То есть правильно понял, что все эти 700к часов, это тоже внутренние данные Сбера, раз вы открыли модель для коммерческого использования?

применяем Voice Activity Detection, режем длинные записи на минутные фрагменты и отбрасываем сегменты со слишком большой долей тишины;

А какой VAD используется, если не секрет?

MIT лицензия распространяется как раз на модель сделанную в рамках этого проекта. Все наши "собственные" модели или модели, созданные на данных сообщества, имеют лицензию как раньше.

Большое спасибо за помощь с записями аудио и продвижением нашей модельки. Очень приятно, когда есть такие большие энтузиасты, кто любит свой язык и готов что-то активно делать для его развития и сохранения! Надеюсь у нас получится добавить основные недостающие языки кавказских республик.

Что касается транслитерации, я послушал на языках, которые я изучал в универе, понятно дело там можно работать над правилами, но там конечно они звучат как первокурсник на первом месяце занятий. С другой стороны, вы выбрали языки с простой фонетикой, и немецкий наверное можно даже докрутить. Тут вопрос целеполагания.

Такой инструмент может быть полезен преподавателям, но если бы мы такой синтез пытались где-то применять, нас бы заклевали (я про транслитерацию) конечно.

Приятно, что синтез на вашем родном языке хорошо работает, и даже на другие языки переносится!

Ну то есть в белорусском задача омографов отчасти упрощается за счёт фонетического, а не морфологического принципа орфографии, что, конечно, не меняет то, что ударение плавающее.

Да, напишите в личку в телеге. В идеальном мире, конечно, записать один мужской и один женский.

В ближайшее время у нас доедет акцентор для белорусского на большом словаре, но естественно без омографов.

Вероятно, у остальных дикторов белорусский сильнее смешался с русским. На этапе отбора дикторов мы слушали речь - нам она показалась достаточно "белорусской".

В целом, не будучи носителем языка, мне на слух сложно отличить белорусский от украинского.

В целом изначальный план состоял в добавлении популярных языков РФ и стран СНГ.

По идее для добавления языка мы записываем пару часов аудио на этом языке + час на русском.

А про какие языки речь, я так понимаю, что серьско-ховатский всё таки считается у нас одним языком?

Это прикольно. А вы же ставили ударение, верно?

Примеры для новых моделей можно найти тут. Модель многоязычная, потому у нее как бы нет языка, то есть язык явно в нее вообще не передается про запуске.

Ещё обратите внимание, что для славянских языков всегда надо указывать ударение, это влияет на произношение.

Что касается акцента, все дикторы говорили, что язык у них родной, они учили его в школе, итд итп

1
23 ...

Information

Rating
211-th
Registered
Activity