Pull to refresh
334
108.9
Alexander Veysov@snakers4

Machine Learning / Data Science

Send message

Если брать языки, отличные от русского, то кажется вот такое можно делать:

  • Озвучка книг;

  • Экранная читалка (модели достаточно быстрые для такого);

  • Озвучка уведомлений в транспорте;

Естественно для каких-то юзкейсов нужно ещё будет какие-то утилиты написать.

Очень крутая работа! У нас почему-то все постоянно нахваливают Whisper по кругу, слабо понимаю почему.

Commercial usage

В GigaAM-v2 мы предобучали модель примерно на 50 тысячах часов русской речи. В v3 мы увеличили этот объём до 700 тысяч часов.

То есть правильно понял, что все эти 700к часов, это тоже внутренние данные Сбера, раз вы открыли модель для коммерческого использования?

применяем Voice Activity Detection, режем длинные записи на минутные фрагменты и отбрасываем сегменты со слишком большой долей тишины;

А какой VAD используется, если не секрет?

MIT лицензия распространяется как раз на модель сделанную в рамках этого проекта. Все наши "собственные" модели или модели, созданные на данных сообщества, имеют лицензию как раньше.

Большое спасибо за помощь с записями аудио и продвижением нашей модельки. Очень приятно, когда есть такие большие энтузиасты, кто любит свой язык и готов что-то активно делать для его развития и сохранения! Надеюсь у нас получится добавить основные недостающие языки кавказских республик.

Что касается транслитерации, я послушал на языках, которые я изучал в универе, понятно дело там можно работать над правилами, но там конечно они звучат как первокурсник на первом месяце занятий. С другой стороны, вы выбрали языки с простой фонетикой, и немецкий наверное можно даже докрутить. Тут вопрос целеполагания.

Такой инструмент может быть полезен преподавателям, но если бы мы такой синтез пытались где-то применять, нас бы заклевали (я про транслитерацию) конечно.

Приятно, что синтез на вашем родном языке хорошо работает, и даже на другие языки переносится!

Ну то есть в белорусском задача омографов отчасти упрощается за счёт фонетического, а не морфологического принципа орфографии, что, конечно, не меняет то, что ударение плавающее.

Да, напишите в личку в телеге. В идеальном мире, конечно, записать один мужской и один женский.

В ближайшее время у нас доедет акцентор для белорусского на большом словаре, но естественно без омографов.

Вероятно, у остальных дикторов белорусский сильнее смешался с русским. На этапе отбора дикторов мы слушали речь - нам она показалась достаточно "белорусской".

В целом, не будучи носителем языка, мне на слух сложно отличить белорусский от украинского.

В целом изначальный план состоял в добавлении популярных языков РФ и стран СНГ.

По идее для добавления языка мы записываем пару часов аудио на этом языке + час на русском.

А про какие языки речь, я так понимаю, что серьско-ховатский всё таки считается у нас одним языком?

Это прикольно. А вы же ставили ударение, верно?

Примеры для новых моделей можно найти тут. Модель многоязычная, потому у нее как бы нет языка, то есть язык явно в нее вообще не передается про запуске.

Ещё обратите внимание, что для славянских языков всегда надо указывать ударение, это влияет на произношение.

Что касается акцента, все дикторы говорили, что язык у них родной, они учили его в школе, итд итп

А вы, вероятно, запустили старую v4 якутскую модель, судя по имени спикера b_sah.

Попробуйте, пожалуйста, новую модель с голосом sah_zinaida, он из новой интерации.

Обратите внимание, что есть base модель и base_nostress.

Одна сама пытается ставить ударения, для другой их надо расставить вручную. Ещё интерес представляет, что будет если в якутский текст вставлять русские слова.

Думаю циничный ответ состоит в отсутствии у детей критического мышления и понимания, как общение с "дядями из интернета" может сделать тебе плохо. Корпорации вообще любят заниматься "грумингом" в последнее время.

Если корпорации так нарочито тянутся к детям - значит вся такая продукция в принципе не может не приносить вреда и скорее всего состоит из антипаттернов.

Правильный пример вызова такой:

sample_rate = 48000
ssml_sample = """
              <speak>
              <p>
                  Когд+а +я просып+аюсь, <prosody rate="x-slow">+я говор+ю дов+ольно м+едленно</prosody>.
                  Пот+ом +я начин+аю говор+ить сво+им об+ычным г+олосом,
                  <prosody pitch="x-high"> +а мог+у говор+ить т+оном в+ыше </prosody>,
                  +или <prosody pitch="x-low">наобор+от, н+иже</prosody>.
                  Пот+ом, +если повез+ёт – <prosody rate="fast">+я мог+у говор+ить +и дов+ольно б+ыстро.</prosody>
                  +А ещ+ё +я ум+ею д+елать п+аузы люб+ой длин+ы, наприм+ер дв+е сек+унды <break time="2000ms"/>.
                  <p>
                    Т+акже +я ум+ею д+елать п+аузы м+ежду пар+аграфами.
                  </p>
                  <p>
                    <s>+И т+акже +я ум+ею д+елать п+аузы м+ежду предлож+ениями</s>
                    <s>В+от наприм+ер к+ак сейч+ас</s>
                  </p>
              </p>
              </speak>
              """
speaker = "ru_alfia"

audio = model.apply_tts(ssml_text=ssml_sample,
                        speaker=speaker,
                        sample_rate=sample_rate)
display(Audio(audio, rate=sample_rate))

Обратите внимание на ударения и параметр ssml_text.

Эти модели не содержат встроенный акцентор и омограф по очевидной причине, он вынесет в модуль silero-stress.

Ну есть сервисы, которые предлагают до посинения фармить промпт для ЛЛМ. Но одной кнопки "сделай такую-то эмоцию", работающей в 95% случаев я тоже не видел.

Ну просто под большей частью статей Хабра собирается публика определённой направленности и легко фармить карму на этом, но иногда стандартный подход даёт сбой.

По идее могут помочь, если их распарсить. Есть ли такой же словарь, но в виде текста, а не сканов?

Ну может найдётся лингвист языка, послушает побольше и выдаст вердикт какой-то. Мы не уточнялии прямо из какого кто города. Скорее спрашивали вырос ли в РБ, учил ли язык в школе.

Правила прямо запрещают так делать. Проверять более 4 раз с этими всеми ожиданиями по часу - желания ноль.

К вам у меня никаких претензий. Я говорю про собственный опыт, который повторяется раз за разом (я в итоге купил машину).

1
23 ...

Information

Rating
61-st
Registered
Activity