Comments / Profile of AigizK / Habr

Можешь посмотреть, как HuggingFace решил эту проблему у себя. Качество в итоге чуть-чуть падает. Но зато можно не париться по поводу времени обработки https://huggingface.co/blog/asr-chunking

Look

В свободном доступе выложили архив сервиса «Яндекс.Еда» с данными заказов клиентов, «Яндекс» ранее подтвердил утечку

AigizK Mar 2 2022 at 12:29

Почему бы Яндексу не выложить тогда эти утекшие обезличенные данные в виде датасета куда нибудь на HuggingFace, чтоб датасайнтисты могли новые модели тренировать. Хоть польза была бы для мира.

-4

Look

Проблема многоязычности Question Answering over Knowledge Graphs и новый датасет QALD-9-Plus, способный её решить

AigizK Feb 23 2022 at 16:10

Понял, спасибо.

Look

Проблема многоязычности Question Answering over Knowledge Graphs и новый датасет QALD-9-Plus, способный её решить

AigizK Feb 23 2022 at 12:39

А можете подробнее написать, что это дает например тому же башкирскому? Как можно применить?

Вот есть база(https://github.com/Perevalov/qald_9_plus/tree/main/data), там меньше 1000 вопросов и ответов. Ответы в виде ссылки. Пока не понимаю, как из вопроса вытаскиваются сущности. Можно ли на основе этих вопросов научиться отвечать на другие вопросы? Как вообще эти данные преобразовывать в запросы, чтоб на сайте викидата их хотя бы использовать?

Look

Нейросети могут быть опасными: сгенерированные лица и синтезированные голоса все более реалистичны

AigizK Feb 9 2022 at 08:17

Ну вот у этих вроде что то получается https://coqui.ai/blog/tts/yourtts-zero-shot-text-synthesis-low-resource-languages

Look

Ирина — опенсорс русский голосовой помощник. Offline-ready

AigizK Feb 7 2022 at 21:39

Эх, сделал бы кто саму колонку, чтоб туда установить свой помощник. А то с микрофоном, колонками беда

Look

Максимально просто о распознавании речи при помощи NeMo

AigizK Feb 3 2022 at 22:01

Я для башкирского языка, имея только 250 часов 860+ человек, используя facebook/wav2vec2-xls-r-300m получил WER=8.5% без LM и WER=4.5% c LM

Так что про самый продвинутый наверное можно поспорить.

Look

Универсальная кириллица: возможна ли такая клавиатура?

AigizK Jan 1 2022 at 10:28

Башкирская кириллица содержит 42 буквы, и все они имеют пару из русского алфавита. Например а-ә,о-ө. Причем если заменить эти буквы в словах, люди все равно поймут. Потому как тот же русский когда говорит башкирское слово, будет использовать ближайший звук из русского языка. Но, при этом набирать эти буквы через Alt плохая идея. Так как эти буквы очень часто используются. Поэтому у нас вместо цифр сверху, используются дополнительные буквы. А на смартфоне как раз долгое нажатие или набор букв с помощью swift решают проблему.

Look

Тестируем лучшие видеокарты для расчетов на конец 2021 года: 3090 Turbo и A10

AigizK Dec 27 2021 at 08:47

Это то же самое, что многие говорят ксерокс, имея ввиду мфу, памперс вместо подгузников. Если тут сравнивают с А10, то вряд ли тут будет идти речь про видеоигры.

Look

Обучение рукописной OCR на синте от GAN'ов

AigizK Nov 21 2021 at 13:12

А есть готовый скрипт, модель, который умеет вычленять слова из фото с тетрадей? А то есть 30K+ фото разных почерков рукописного текста с кириллицей и сам текст(диктант).

Мог бы потом с датасетом с вами поделиться то же.

Look

Бесплатное распознавание речи для всех желающих

AigizK Nov 7 2021 at 12:09

если вы будете доучивать, чтоб речь этого пользователя система понимала лучше, то почему бы и нет?

Look

Бесплатное распознавание речи для всех желающих

AigizK Nov 6 2021 at 03:44

О, прикольно. А я как раз на базе вашего stt для английского для себя распознавалку пытаюсь делать. У меня проблема с распознаванием речи, идея была запустить на браузере, и там чтоб распознавание происходило в реальном времени, пусть даже с ошибками, а я буду подглядывать туда, когда сам не распознал. Сперва думал что для английского будет много решений и буду выбирать из них, а по факту из оффлайн вариантов есть ваше и от vosk. По качеству ваш не уступает особо Гуглу, по скорости естественно превышает.

Из минусов:

VAD не особо помогает. В моем случае браузер раз в секунду буфер на сервер отправляет. И желательно быстрее показывать распознанные слова. Сперва думал, что через vad буду получать законченный кусочек и его буду распознавать. Но на деле куски получились очень длинными, а разбивать по словам не получилось.

Беру куски аудио с 1 по 5 секунды, получаю текст, далее беру куски 2-6 получаю новый текст. Несмотря на то, что есть общие куски, часто распознанные слова не совпадают. Прямо не хватает выдачи инфы типа, такое то слово звучало с такой то по такой секунде. Чтоб мержить эти два предложения правильно.

Расстановка знаков препинаний хорошо, но для начала надо найти начало и конец предложения. Без них решение все таки как будто не законченное.

Если в общем рассматривать, то диаризация нужна. Конкретно в моем случае, я пока обхожусь без этого.

Look

Где найти персональные данные детей и их родителей?

AigizK Oct 22 2021 at 07:48

Сегодня получил итоговый ответ. Напишу хронологию:

8.09.2021 я отправил обращение в прокуратуру.

5.10.2021 получил от них ответ, что письмо перенаправили в Министерство цифрового развития

7.10.2021 минцифры отписались, что получили письмо

7.10.2021 Роскомнадзор прислал уведомление о регистрации обращения

21.10.2021 Генпрокуратура переслала ответ от Роскомнадзора мне. Вот сам текст:

Возможность несанкционированного доступа к персональным данным пользователей АИС отсутствует.

Для зарегистрированных в АИС организаций поставщиков услуг ограничен функционал, позволяющий найти данные субъекта персональных данных только по конкретному запросу, по данным известным поставщику услуг. Результат выдачи ограничен 5 (пятью) записями, для защиты от перебора данных.

Таким образом, доводы о возможности получения доступа к персональным данным пользователей АИС методом перебора данных не подтверждены.

Что могу сказать:

Да, там выводили по 5 записей, но перебирая буквы в полях ФИО, можно было подобрать все данные. Выше даже curl показали. Ну и с другой стороны, эти 5 записей не являются персональными данными? Вроде в законе не прописано, что можно потерять до N записей. Т.е. банальная отписка, что у нас все хорошо.
После того как написал обращение в прокуратуру, на сайте навигатора оставил сообщение, что у них дыра в безопасности, и что обращение оставлено. Возможно из за слова прокуратура они быстро среагировали. На следующий день был закрыт доступ к аккаунту, а потом и регистрацию убрали полностью. Через некоторое время регистрацию вернули, но апи поиска детей закрыли полностью. Сейчас регистрация закрыта, выдает такую ошибку Запрещена регистрация: in /base/app/www/protected/modules/navigatorPartners/components/forms/NavigatorPartnerRegisterForm.php at line 24

Что можно сделать на месте разработчиков сайта:

Исходить из того, что вся база у них может быть слита каким то образом. Поэтому лучше удалить всю ненужную информацию, такие как номер телефонов родителей, адрес проживания. Тогда после слива, людям будет нанесен минимальный ущерб.
Сейчас у кого есть доступ к сайту, могут так же продолжать получать всю информацию о детях. Поэтому надо поменять логику работы. Например организация может видеть только тех детей, кто к ним записан. Для этого родители, классные руководители или кто то еще заходит под ником ученика и отмечает организацию, тем самым дает согласие на обработку.

Look

Синтезируем голос бабушки, дедушки и Ленина + новости нашего публичного синтеза

AigizK Oct 21 2021 at 21:50

А для русского уже ударения можно не размечать?

Look

Распознание длинных аудио сервисом Yandex SpeechKit из командной строки bash/shell через API

AigizK Oct 13 2021 at 16:06

https://github.com/alphacep/vosk - вот этим можно распознать русскую речь, качество на уровне. скорость не очень, зато бесплатно.

для английского я использую вот это решение: https://github.com/snakers4/silero-models#speech-to-text качество примерно такое же, как у гугла за деньги. а скорость лучше всех. у них и для русского есть, но за деньги. так что если вас устроит такой вариант, можете автору написать.

что касается запятых, то опять же у @snakers4 есть решение:

https://habr.com/en/post/581946/

Look

Самостоятельная разметка данных для распознавания русского рукописного текста

AigizK Oct 13 2021 at 08:20

Спасибо.

Look

1 2 3 4

6 7 ...

30 31