Pull to refresh
2
0
Send message

По поводу словарей. Это ваше решение, но предлагаю взглянуть на вопрос еще раз.

Существуют публичные словари Зализняка (плюс извеcтный в кругах любителей TTS основанный на нем orfoepic) и дамп Викисловаря. Это миллионы словоформ с большой избыточностью. Чтобы ее сократить, проводил исследование частотности использования слов.
Проверено ~10к книг разных жанров и времен, включая классику, русскую и переводы зарубежной.
Найдено ~1.9м словоформ требующих ударения, с ~400м вхождений.
Из них в публичных словарях найдено ~1м словоформ, с ~375м вхождений.
Покрытие словарями 95%

Не знаю насколько более полон ваш словарь, пусть будет предельные 5%, но отсюда вопрос: я их недооцениваю или вы переоцениваете скрывая? Речь не об омографах, для которых нужен контекст и с которыми хорошо справляется проект Natasha (есть на Хабре). Только об обычных словах. Для которых API будет принимать только одиночные вхождения.

По поводу лички. Спасибо, но откажусь. Не люблю использовать привилегированный доступ в некритичных вопросах.

Спасибо за общение. Нет, так нет. Но это не коммерция. Реально много слушаю, причем больше 10 лет без смены движка, вот и собралось.

Решения принимались лично, Балаболка только интерфейс.

Да, эти 15к можно использовать по прежнему, хотя конечно хотелось бы избежать лишней вычислительной сложности, если ваша расстановка ударений лучше. Вопрос в том, что делать с 100к имен, который прошлый движок произносил верно? Пример с Александар и Узумаки как раз из этого списка. Если и для них извлечь ударения и создать словарь на 115к, а потом туда добавить еще словари обычных слов специфичные для прошлого движка, еще 100к слов, то так и до собственного движка ударений можно дойти :)

Еще раз повторю, дело не в словарях, а в быстром определении слов "которые модель портит" при наличии эталонного значения ударения, то есть слов, для которых этот словарь нужен.

почему если у вас есть словарь вы просто не делаете по нему замены автоматически, модель это поддерживает. Качество от того, что вы разметите пару слов, которые модель уже знает, качество не изменится.

Возможно вы не верно поняли цель. Речь не о "разметить", и даже не о "что размечать", а что "не размечать". Опишу свой процесс. В Балаболке есть "поиск имен". Они прослушиваются, где есть ошибка вносятся в словарь, где нет, вносятся в список прослушанных слов, которые при следующем поиске удаляются из списка. За годы использования TTS прослушано ~100к имен и создан словарь на ~15к записей.

При переходе на ваш движок (спасибо, круто), придется все это дропнуть и начать прослушивание заново. И главное, это придется делать с нуля при каждом обновлении проекта. Если сегодня Александар, Наруто Узумаки или Кецалькоатль произносятся верно, не значит что это будет верно завтра.

Поэтому нужна возможность быстро узнать, где движок поставит ударение. Так же не понял, что может грозить вашему алгоритму. Нужен ведь не он, а результат. Причем не для общеизвестных слов и имен, которые нетрудно собрать из сети (зализняк, wiktionary и пр), а именно для редких и специфичных, ударения которых все равно нельзя использовать без предварительного контроля глазами. То есть никакой автоматизации сторонних проектов, а лишь работа с вашим.

Поищите возможность выделить установку ударений в отдельный модуль или какой-либо опцией сделать возможным вывод размеченного текста из существующей модели (без синтеза речи). Полезно для составления/генерации корректирующих пользовательских словарей. И даже для разметки текста с последующей озвучкой другим движком.

Существует немало синтетических имен собственных из различных книжек, обычно фантастики. Где-то уникальные, где-то повторяющиеся, особенно внутри цикла произведений. Сюда можно добавить устаревшие слова или слова некоей предметной области. У часто пользующихся синтезом уже сформирован свой словарь, у особо замороченных сформированы эпические словари ударений. Любой движок дает ошибки. Которые хотелось бы быстро найти и использовать небольшие корректирующие словари конкретно для вашей модели. Также полезно при обновлениях модели. В новой версии могут исправится одни ошибки и появится другие.

Information

Rating
Does not participate
Registered
Activity