Так то да, лучше. Но когда облачные недоступны, остаются только локальные модели. И ещё вопрос цены токенов и доступных способов их оплаты тоже приходится принимать во внимание
Супер! А пробовали ли вы делать диаризацию очень больших звуковых файлов, которые приходится разрезать на части с перекрытием, чтобы распознавание не выполнялось слишком долго, но чтобы спикеры не перепутывались?
Многие работают на ноутбуках с Windows, поэтому решил рассказать и о том, как распознавать звук прямо на ноутбуке или как сделать клиент распознавания сервера для этой ОС.
Уже получал претензии что в своих статьях опускал историю развития предмета, о котором рассказывал. Думаю анатомия уха и история будет интересна тем, кто ещё совсем не разбирался в теме.
Да, в следующей статье, которая готовится к выходу, я рассказал как можно распознавать речь с выполнением диаризации из звуковых файлов, а также в потоке с микрофона (без диаризации, правда), чисто на Python, на своих серверах или компьютерах, с GPU или без GPU. Что же касается GnuRadio, то это приложение сильно облегчает интеграцию с SDR, если, конечно, она нужна.
Настоящее исследование безопасности предполагает в том числе тщательный и весьма дорогостоящий анализ ПО на уровне его исходного кода, а не только анализ как черного ящика.
Даже если сеть не имеет выхода в интернет, кто знает, может там есть закладки, которые, например, уничтожат всю информацию через определенное время или что хуже, начнут незаметно ее искажать. Или там есть бекдоры, которыми можно воспользоваться изнутри сети в обход настроенной системы разграничения доступа.
Т.е. признать то безопасной можно, но так ли это на самом деле? И смотря для какой модели угроз. Вот, например, защита от системного администратора, у которого есть доступ ко всему, на мой взгляд не очень тривиальна.
Так то да, лучше. Но когда облачные недоступны, остаются только локальные модели. И ещё вопрос цены токенов и доступных способов их оплаты тоже приходится принимать во внимание
Нельзя объять необъятное) Но тема с многими GPU да, интересная.
Решают, да. Но данные приходится отдавать этим сервисам. А при локальной установке все остаётся в вашем контуре.
Где-то прочитал: Привести лошадь на водопой может и один человек. Но и сто не заставят ее пить.
Zimbra на своей виртуалке -- относительно простое и надежное решение.
А есть ли подобные риски при работе с ИП?
Здравствуйте! Благодарю за сообщение!
Добавил в репозиторий
https://github.com/AlexandreFrolov/asr-repka-pi-public/blob/main/vosk-cpp/libvosk/vosk_api.h
Нет, 60 Мбайт конечно. Но если нарезать, то уже все равно какой объем
Я сейчас пробую MP3-файл на 60 Гбайт, получается долго на Tesla-T4
Насколько я понял, у них есть премиальные модели, которые нельзя скачать, а можно лишь использовать через платный сервис.
Супер! А пробовали ли вы делать диаризацию очень больших звуковых файлов, которые приходится разрезать на части с перекрытием, чтобы распознавание не выполнялось слишком долго, но чтобы спикеры не перепутывались?
Многие работают на ноутбуках с Windows, поэтому решил рассказать и о том, как распознавать звук прямо на ноутбуке или как сделать клиент распознавания сервера для этой ОС.
Уже получал претензии что в своих статьях опускал историю развития предмета, о котором рассказывал. Думаю анатомия уха и история будет интересна тем, кто ещё совсем не разбирался в теме.
Лицензия на код pyannote и модель pyannote/speaker-diarization-3.1 - это MIT, так что платить не надо. А так да, лицензии всегда нужно проверять для коммерческих проектов.
Другое дело, что для начальной загрузки модели перед её использованием нужно зарегистрироваться и получить токен на Hugging Face.
Думаю что можно, но сам не пробовал
Да, в следующей статье, которая готовится к выходу, я рассказал как можно распознавать речь с выполнением диаризации из звуковых файлов, а также в потоке с микрофона (без диаризации, правда), чисто на Python, на своих серверах или компьютерах, с GPU или без GPU. Что же касается GnuRadio, то это приложение сильно облегчает интеграцию с SDR, если, конечно, она нужна.
Да, причем это можно делать даже на своём или арендованном сервере с GPU. Тема очень интересная, буду работать в этом направлении дальше.
В следующей статье я рассказал как это сделать на базе Whisper и PyAnnote. Статья уже написана и готовится к выходу!
Вы же понимаете, что это совершенно недостаточный уровень для проведения проверок критичных информационных систем.
Настоящее исследование безопасности предполагает в том числе тщательный и весьма дорогостоящий анализ ПО на уровне его исходного кода, а не только анализ как черного ящика.
Даже если сеть не имеет выхода в интернет, кто знает, может там есть закладки, которые, например, уничтожат всю информацию через определенное время или что хуже, начнут незаметно ее искажать. Или там есть бекдоры, которыми можно воспользоваться изнутри сети в обход настроенной системы разграничения доступа.
Т.е. признать то безопасной можно, но так ли это на самом деле? И смотря для какой модели угроз. Вот, например, защита от системного администратора, у которого есть доступ ко всему, на мой взгляд не очень тривиальна.