Comments 9
Подскажите, сколько человеко-часов вы потратили?
Собираетесь коммерциализировать?
Насчёт человеко-часов - признаться, не считал. Я начал работу над "Писцом" примерно с 2022 года, но в свободное от работы (преподавания в университете и других занятий) время. Соответственно, потраченные мной и коллегами человеко-часы "размазаны" по длительному периоду времени, и поскольку я их не фиксировал, то сейчас восстановить сложно.
Насчёт коммерциализации - мы сделали облачную версию "Писца" https://pisets.sibnn.ai для тех, кто не может или не хочет устанавливать себе опенсорсного "Писца" с гитхаба. После регистрации в личном кабинете можно загружать свои звукозаписи для распознавания с поминутной тарификацией.
Купил тариф 10 часов. Попробовал распознать кусочек в 3 минуты. Качество заметно ниже чем в коммерческом Писце от других разработчиков и ниже чем в whisper transcription. Делаю и распознаю много интервью для книги, не понимаю как такой результат можно использовать :( приходится переслушивать и перепроверять всю запись.
Вот пример:
00:01:40 - 00:02:01 Speaker 2: Вот взял макетную плату, соответственно, проводочками всё споил. Единственное, что Розовица на память, потому что оперативки не было, у нас другая оперативка была, и мы с процессором поняли. Всё прошли, там всё досмонтировали, соответственно, спаял, включил – не работает. Стало интересно, стало разбираться.
00:01:51 - 00:02:06 Speaker 1: ЗУ с процессором, понятно, что это. Всё прожгли там. А вот Спаял, включил, не работает. Стало интересно, стал разбираться. Чего, как. Взял лист миллиметровки, разрисовал все диаграммы временные, то есть вот
00:02:02 - 00:02:06 Speaker 2: Взял лист миллиметровки, разрисовал все диаграммы временные.
00:02:07 - 00:02:25 Speaker 1: Это всё дома делали. Нет, на работе! На работе, зачем? Было время, да? Было время свободное, было масса свободного. Ну, не масса свободного, но было свободное время. Были приборы все, естественно. Маслографы. Разрисовал все диаграммы, посмотрел, когда формируется, соответственно, на какой нагит, какой микросхемы, какой должен быть сигнал.
А какой конкретно алгоритм чанкинга и распознавания вы понимаете под whisper transcription?
Спасибо за интересное замечание!
Когда мы тестировали отдельные модели, то мы использовали известные открытые датасеты типа RuLibrispeech https://huggingface.co/datasets/bond005/rulibrispeech, Golos https://huggingface.co/datasets/bond005/sberdevices_golos_100h_farfield и т.п. общим объёмом более 10 часов тестовой речи, а когда тестировали весь "Писец" целиком, то собрали специальный датасет длинных звукозаписей (20-30 минут каждая) на различные темы - от политики до математики https://huggingface.co/datasets/dangrebenkin/long_audio_youtube_lectures. В этом датасете есть выступление известного корееведа Ланькова, лекция по философии, речь Жириновского на политическую тему, лекция врача-фтизиатра, лекция популяризатора математики Савватеева и др. - в общей сложности около трёх часов. И на основе этих данных мы делали выводы о качестве моделей и, в целом, "Писца". Кажется, что результаты распознавания на трёхминутной звукозаписи могут быть не сильно репрезентативными :-)
Вообще, результаты распознавания той или иной системы/модели могут сильно зависеть от уровня шумов и от предметной области (бытовая речь, звонки автодилерского колл-центра, профессиональное совещание врачей, голосовые команды управления "умным домом" и тому подобное). Поэтому для тестирования лучше собирать речевой корпус объёмом не менее часа звучащей речи (как минимум) и, желательно, на разные темы и в разных условиях.
Если же говорить не только о формализованном тестировании, а ещё и о практической эффективности, то я могу привести пример применения "Писца" сотрудниками пресс-службы Новосибирского государственного университета для расшифровки звукозаписей интервью на различные темы - от медицины до искусственного интеллекта. Коллеги-журналисты были очень довольны. Обычно у них 20-минутное интервью вручную обрабатывается около полутора часов, а часовое интервью - от четырёх часов (в зависимости от качества). После применения "Писца" они здорово сэкономили своё время, едва ли не на порядок.
"Значение критерия WER, равное 62,5%, достаточно высокое. Значит, более половины слов правильно распознаны. "
Наоборот же, менее половины
Как «Писец» на Тотальный диктант ходил