Pull to refresh
23
0
AigizK @AigizK

User

Send message

Да давно уже все алгоритмы реализованы. Используйте готовые библиотеки /sarkazm_off

Кстати не проводил эксперименты именно с датасетом песен?

Запускаю на CPU. Скорость распознавания x2. Но моя модель натренирована на базе маленькой модели. Занимает 1.12Gb

Не сравнивал с моделями на базе facebook/wav2vec2-xls-r например https://huggingface.co/jonatasgrosman/wav2vec2-xls-r-1b-russian ?

Test WER на Common Voice = 9.820 без LM

Судя по картинкам они показывают результат выше, чем у тебя:

Для башкирского я смог получить 4.4 с LM. А для тайского вроде, вообще 0.95 получили. Очень дружелюбная моделька, единственное занимает много памяти.

Можешь посмотреть, как HuggingFace решил эту проблему у себя. Качество в итоге чуть-чуть падает. Но зато можно не париться по поводу времени обработки https://huggingface.co/blog/asr-chunking

Почему бы Яндексу не выложить тогда эти утекшие обезличенные данные в виде датасета куда нибудь на HuggingFace, чтоб датасайнтисты могли новые модели тренировать. Хоть польза была бы для мира.

А можете подробнее написать, что это дает например тому же башкирскому? Как можно применить?

Вот есть база(https://github.com/Perevalov/qald_9_plus/tree/main/data), там меньше 1000 вопросов и ответов. Ответы в виде ссылки. Пока не понимаю, как из вопроса вытаскиваются сущности. Можно ли на основе этих вопросов научиться отвечать на другие вопросы? Как вообще эти данные преобразовывать в запросы, чтоб на сайте викидата их хотя бы использовать?

Эх, сделал бы кто саму колонку, чтоб туда установить свой помощник. А то с микрофоном, колонками беда

Я для башкирского языка, имея только 250 часов 860+ человек, используя facebook/wav2vec2-xls-r-300m получил WER=8.5% без LM и WER=4.5% c LM

Так что про самый продвинутый наверное можно поспорить.

Башкирская кириллица содержит 42 буквы, и все они имеют пару из русского алфавита. Например а-ә,о-ө. Причем если заменить эти буквы в словах, люди все равно поймут. Потому как тот же русский когда говорит башкирское слово, будет использовать ближайший звук из русского языка. Но, при этом набирать эти буквы через Alt плохая идея. Так как эти буквы очень часто используются. Поэтому у нас вместо цифр сверху, используются дополнительные буквы. А на смартфоне как раз долгое нажатие или набор букв с помощью swift решают проблему.

Это то же самое, что многие говорят ксерокс, имея ввиду мфу, памперс вместо подгузников. Если тут сравнивают с А10, то вряд ли тут будет идти речь про видеоигры.

А есть готовый скрипт, модель, который умеет вычленять слова из фото с тетрадей? А то есть 30K+ фото разных почерков рукописного текста с кириллицей и сам текст(диктант).

Мог бы потом с датасетом с вами поделиться то же.

если вы будете доучивать, чтоб речь этого пользователя система понимала лучше, то почему бы и нет?

О, прикольно. А я как раз на базе вашего stt для английского для себя распознавалку пытаюсь делать. У меня проблема с распознаванием речи, идея была запустить на браузере, и там чтоб распознавание происходило в реальном времени, пусть даже с ошибками, а я буду подглядывать туда, когда сам не распознал. Сперва думал что для английского будет много решений и буду выбирать из них, а по факту из оффлайн вариантов есть ваше и от vosk. По качеству ваш не уступает особо Гуглу, по скорости естественно превышает.

Из минусов:

VAD не особо помогает. В моем случае браузер раз в секунду буфер на сервер отправляет. И желательно быстрее показывать распознанные слова. Сперва думал, что через vad буду получать законченный кусочек и его буду распознавать. Но на деле куски получились очень длинными, а разбивать по словам не получилось.

Беру куски аудио с 1 по 5 секунды, получаю текст, далее беру куски 2-6 получаю новый текст. Несмотря на то, что есть общие куски, часто распознанные слова не совпадают. Прямо не хватает выдачи инфы типа, такое то слово звучало с такой то по такой секунде. Чтоб мержить эти два предложения правильно.

Расстановка знаков препинаний хорошо, но для начала надо найти начало и конец предложения. Без них решение все таки как будто не законченное.

Если в общем рассматривать, то диаризация нужна. Конкретно в моем случае, я пока обхожусь без этого.

Сегодня получил итоговый ответ. Напишу хронологию:

8.09.2021 я отправил обращение в прокуратуру.

5.10.2021 получил от них ответ, что письмо перенаправили в Министерство цифрового развития

7.10.2021 минцифры отписались, что получили письмо

7.10.2021 Роскомнадзор прислал уведомление о регистрации обращения

21.10.2021 Генпрокуратура переслала ответ от Роскомнадзора мне. Вот сам текст:

Возможность несанкционированного доступа к персональным данным пользователей АИС отсутствует.

Для зарегистрированных в АИС организаций поставщиков услуг ограничен функционал, позволяющий найти данные субъекта персональных данных только по конкретному запросу, по данным известным поставщику услуг. Результат выдачи ограничен 5 (пятью) записями, для защиты от перебора данных.

Таким образом, доводы о возможности получения доступа к персональным данным пользователей АИС методом перебора данных не подтверждены.

Что могу сказать:

  1. Да, там выводили по 5 записей, но перебирая буквы в полях ФИО, можно было подобрать все данные. Выше даже curl показали. Ну и с другой стороны, эти 5 записей не являются персональными данными? Вроде в законе не прописано, что можно потерять до N записей. Т.е. банальная отписка, что у нас все хорошо.

  2. После того как написал обращение в прокуратуру, на сайте навигатора оставил сообщение, что у них дыра в безопасности, и что обращение оставлено. Возможно из за слова прокуратура они быстро среагировали. На следующий день был закрыт доступ к аккаунту, а потом и регистрацию убрали полностью. Через некоторое время регистрацию вернули, но апи поиска детей закрыли полностью. Сейчас регистрация закрыта, выдает такую ошибку Запрещена регистрация: in /base/app/www/protected/modules/navigatorPartners/components/forms/NavigatorPartnerRegisterForm.php at line 24

Что можно сделать на месте разработчиков сайта:

  1. Исходить из того, что вся база у них может быть слита каким то образом. Поэтому лучше удалить всю ненужную информацию, такие как номер телефонов родителей, адрес проживания. Тогда после слива, людям будет нанесен минимальный ущерб.

  2. Сейчас у кого есть доступ к сайту, могут так же продолжать получать всю информацию о детях. Поэтому надо поменять логику работы. Например организация может видеть только тех детей, кто к ним записан. Для этого родители, классные руководители или кто то еще заходит под ником ученика и отмечает организацию, тем самым дает согласие на обработку.

А для русского уже ударения можно не размечать?

https://github.com/alphacep/vosk - вот этим можно распознать русскую речь, качество на уровне. скорость не очень, зато бесплатно.

для английского я использую вот это решение: https://github.com/snakers4/silero-models#speech-to-text качество примерно такое же, как у гугла за деньги. а скорость лучше всех. у них и для русского есть, но за деньги. так что если вас устроит такой вариант, можете автору написать.

что касается запятых, то опять же у @snakers4 есть решение:

https://habr.com/en/post/581946/

Information

Rating
5,069-th
Date of birth
Registered
Activity