Как стать автором
Обновить
-1
0

Пользователь

Отправить сообщение

Для синтеза тоже можно попробовать vosk-tts

Это без шансов. Я только под Linux всё делаю.

Если хочется C# и Vosk 0.52 на GPU, попробуйте его через sherpa-onnx:

https://github.com/k2-fsa/sherpa-onnx/blob/master/dotnet-examples/offline-decode-files/Program.cs

https://k2-fsa.github.io/sherpa/onnx/csharp-api/index.html

и с GPU должно работать, и точность повыше

Спасибо за статью

Кстати, версия для новых моделей 0.52 в разработке. Уже есть на githube в ветке

https://github.com/alphacep/vosk-api/tree/vosk-new

Обёртки там пока для Python и Java, для C# тоже сделаем.

Воск использовать с адаптацией словаря https://alphacephei.com/vosk/lm

Не мешало бы упомянуть и Бестикс, разработанный на ЗИЛе

В качестве операционной системы была выбрана Unix SVR3.2, причём был выполнен легальный перенос лицензионной версии от AT&T. Новая система получила название «Bestix».

https://ru.wikipedia.org/wiki/Беста_(компьютер)

Нда, у операторов спрос падает, а они цены повышают. Размещение своего сервера стоит столько же, сколько готовый сервак на хетцнере.

Запасаемся попкорном.

Странная статья с клюквенными выводами. Ветроэнергетика активно развивалась, ставились небольшие ветряки для хуторов в Казахстане, например. Работало НПО Ветроэнергомаш (Истра, Астрахань). Вот тут можно почитать подробнее

https://www.c-o-k.ru/articles/rossiyskaya-vetroenergetika-nauchnokonstruktorskie-shkoly-etapy-razvitiya-perspektivy

"В 1990 году в РСФСР только в сельском хозяйстве эксплуатировались 2000 АВЭУ-6–4".

Нас легко уволить. В некоторых случаях, день-в-день. Для работодателя почти всегда без последствий.

В Америке все контракты "at will", уволить можно в любой момент и сотрудник также может уйти в любой момент. Часто просто блокируют карту на входе и выносят коробку с вещами и всё. Последний пункт не актуален. Первые два ещё более-менее.

Снижать издержки за счёт переиспользования кода активного. Открытый код, свободное ПО и всё такое.

Вот такой проект ещё есть:

https://github.com/nsu-ai/russian_g2p

Для распознавания без сети сейчас есть vosk-api, работает без сети, поддерживает несколько языков. Демку APK можно скачать тут.
Пузырь пока ещё не лопнул, Гугл продолжает штурмовать нейросети и пытаться всё закодировать векторами в многомерном пространстве. Нвидия лепит GPU карты. Очевидно, без нелинейности это всё не пойдёт. Теория вероятности всё также на коне, что по определению может работать только для частых повторяющихся событий, а не для редких уникальны. Так что есть шанс на развитие теорий, например, теории возможностей вместо теории вероятностей.
GMM-UBM это технология из прошлого века. Сейчас всё на x-векторах делают, в Kaldi реализация правильная:

github.com/kaldi-asr/kaldi/tree/master/egs/callhome_diarization/v2

Описание алгоритма

www.danielpovey.com/files/2017_icassp_diarization_embeddings.pdf

Модель натренированная:

kaldi-asr.org/models/m6
Pitch-tracking по-русски переводится как «определение основного тона».

Реализации в статье старые описаны, в шумах они не работают. Про динамическое программирование ни слова, за счёт него улучшение достигается значительное.

Хороший вариант от Гугла github.com/google/REAPER.

Или на нейросетях — arxiv.org/pdf/1802.06182.pdf

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность