Прогнал "стресс-тест" на 50 уникальных предложениях, чтобы обойти кэширование и проверить именно чистую работу нейросети на посимвольном анализе. Результаты ниже:
Морфологическая интуиция: Тест на "Глокой куздре" пройден корректно. Модель верно расставила ударения в несуществующих словах (Гло'кая куздра' штеко' будла'нула), что подтверждает к обобщающую способность.
Устойчивость к "грязным" данным: Опечатки в словах и смешанный регистр (мгази'н, зАбО'рЧиКоМ) не сбивают модель — она корректно восстанавливает позицию ударения по контексту символов.
Омографы: Порадовало разрешение омографа в связке мо'лол муку'. Контекст "мельницы" считан верно.
Производительность: Без кэша на MPS около 440 симв/сек (в среднем 98 мс на фразу). Для посимвольной модели потребуется около 30 минут на книгу.
Лог тестов прилагаю:
text
============================================================
Loading Custom Accentor
============================================================
✅ Using Apple MPS (Metal)
📖 Loading vocabulary from /opt/homebrew/lib/python3.11/site-packages/ruaccent/model/vocab.json...
Vocabulary size: 224
🤖 Initializing model...
📦 Loading weights from /opt/homebrew/lib/python3.11/site-packages/ruaccent/model/acc_model.pt...
✅ Accentor initialized successfully!
🚀 Запуск теста на 50 УНИКАЛЬНЫХ предложениях (без кэша)...
============================================================
⏱ Чистое время обработки: 4.8993 сек
📊 Среднее на фразу: 97.99 мс
🚀 Скорость: 439 симв/сек
============================================================
-> Вчра я пошл в мгази'н за вксуны'м кфе.
-> Прграмми'ст нписа'л кд на я'зке Питн.
-> Тэо'Т тЕкст НаПиСа'н зАбО'рЧиКоМ дЛя ПровЕ'рКи.
-> Шла Са'ша по шоссе' и соса'ла су'шку.
-> The quick bron fox jumps ove ver the lazy dog.
-> Устано'вка Xindoms заверши'лась с крити'ческой оши'бкой 0x0001.
-> Ква'нтовая суперпози'ция электро'на в а'томе водоро'да.
-> Архите'ктор Растре'лли спроекти'ровал Зи'мний дворе'ц.
-> В антаркти'де пингви'ны гре'ются друг о дру'га.
-> Синхрофазотро'н испо'льзуется для ускоре'ния элемента'рных ча'стиц.
-> Ма'ма мыла' ра'му чи'стым мы'лом до'лго.
-> Гло'кая куздра' штеко' будла'нула бокра'.
-> Битко'ин и эфи'риум обвали'лись на криптоби'рже.
-> Ста'рый ме'льник мо'лол му'ку на ме'льнице.
-> Ю'ный натура'лист изуча'л пова'дки ди'ких живо'тных.
Обновил версию 1.2.0 перенес файлы модели в папку акцентора и теперь модель корректно скачивается с пакетом. Обновите командой pip install ruaccent-predictor --upgrade или pip uninstall ruaccent-predictor и потом обновите pip install ruaccent-predictor==1.2.0
К сожалению какой датасет был такой и использован, по мере озвучки книг и исправления ошибок буду обновлять датасет парами с ручной разметкой и переобучать при необходимости. Попытаюсь еще валидировать разными акценторами отобранный датасет.
Эту же модель можно попробовать дообучить и на поэзии - вопрос нужен хороший датасет. Что касается LLM - это долго и дорого - символьная модель запускается локально и работает относительно быстро.
Ну я в статье честно написал что транслитерация на немецкий и испанский - это больше игрушка, чтобы посмотреть, что может модель, там попадание 70-80 процентов. А вот то что кабардинская модель сходу принимает и читает без акцента тексты на казахском и татарском языках это конечно заслуга разработчиков, которые дали всем голосам доступ ко всем алфавитам на кирилице. И транслитерация на грузинском и турецком звучит тоже вполне хорошо.
Я думаю у Silero в планах все языки больше 100 тысяч носителей, но в первую очередь задача покрыть языки больше 500 тысяч. Главное процесс пошел и в из релизе уже грузинский, армянский, азербайджанский и кабардинский. Очень помогут те кто уже работает в IT и собирает корпуса для обучения перводчиков на своих языках.
ИИ в журналистике мне кажется мне кажется нужно рассматривать как инструмент и в этом ее ценность (value). Например если ИИ структурирует и расставляет знаки препинания, убирает пропуски , анализирует исходный ваш текст , находит вам источники для проверки - это инструмент и причем полезный, снижающий рутину. Но если вы пытаетесь одним промтом написать целую статью, то вы оформляете в качестве авторского контента статистический, усредненный взгляд модели и в этом смысле это плагиат. Практическая ценность такого подхода отрицательная, так как при росте количества таких синтетических данных в сети модели будут обучаться на своей же синтетике из интернета, которую сгенерировали сами и будут деградировать, теряя то value, которое мы используем сейчас. И на самом деле отличить синтетические данные от живых очень сложно и поэтому деградация будет происходить незаметно, если мы не сформируем правила, как этого избегать.
Да кстати я экспериментировал с синтезом кабардинского языка татарским и русским голосом получается в целом неплохо, конечно оригинальные триграфы искажаются, но текст звучит разборчиво хоть и с акцентом. Удивительно что русский синтез справляется почти как татарский. Видимо модель понимает общие фонемы всех языков в релизе.
Хотел поблагодарить ребят из Silero за что качество расстановки ударений кабардинского языка несмотря на маленькую базу словаря - оно очень высокое - этот алгоритм ударений был использован в синтезе для 20 языков России и могу подтвердить что при синтезе уровень попаданий 95-98 процентов - практически не надо править.
модель ставит обычное произношение в этой фразе корректно
📖 Loading vocabulary from /opt/homebrew/lib/python3.11/site-packages/ruaccent/model/vocab.json...
Vocabulary size: 224
🤖 Initializing model...
📦 Loading weights from /opt/homebrew/lib/python3.11/site-packages/ruaccent/model/acc_model.pt...
✅ Accentor initialized successfully!
Э'то моя' ипоста'сь
Спасибо за оценку, вчера поздно выгружал и упустил, но вы помогли быстро устранить ошибку.
Прогнал "стресс-тест" на 50 уникальных предложениях, чтобы обойти кэширование и проверить именно чистую работу нейросети на посимвольном анализе. Результаты ниже:
Морфологическая интуиция: Тест на "Глокой куздре" пройден корректно. Модель верно расставила ударения в несуществующих словах (
Гло'кая куздра' штеко' будла'нула), что подтверждает к обобщающую способность.Устойчивость к "грязным" данным: Опечатки в словах и смешанный регистр (
мгази'н,зАбО'рЧиКоМ) не сбивают модель — она корректно восстанавливает позицию ударения по контексту символов.Омографы: Порадовало разрешение омографа в связке
мо'лол муку'. Контекст "мельницы" считан верно.Производительность: Без кэша на MPS около 440 симв/сек (в среднем 98 мс на фразу). Для посимвольной модели потребуется около 30 минут на книгу.
Лог тестов прилагаю:
text
Обновил версию 1.2.0 перенес файлы модели в папку акцентора и теперь модель корректно скачивается с пакетом. Обновите командой pip install ruaccent-predictor --upgrade или pip uninstall ruaccent-predictor и потом обновите pip install ruaccent-predictor==1.2.0
Убрал из статьи упоминание о ручной разметки - валидировал отобранные пары, но не вручную, а перепроверяя через silero stress при фильтрации
К сожалению какой датасет был такой и использован, по мере озвучки книг и исправления ошибок буду обновлять датасет парами с ручной разметкой и переобучать при необходимости. Попытаюсь еще валидировать разными акценторами отобранный датасет.
📖 Loading vocabulary from model/vocab.json...
Vocabulary size: 224
🤖 Initializing model...
📦 Loading weights from model/acc_model.pt...
✅ Accentor initialized successfully!
Зале'й э'тот commit в ве'тку.
Добрый день, нашел баг с относительными путями в коде - сейчас обновлю
Модель понимает и русские и аншлийские символы
Эту же модель можно попробовать дообучить и на поэзии - вопрос нужен хороший датасет. Что касается LLM - это долго и дорого - символьная модель запускается локально и работает относительно быстро.
Добрый вечер, спасибо за комментарий -
✅ Accentor initialized successfully!
В лесу' родила'сь ёлочка
Ваш вариант ударения относиться к ограничению модели -
Авторская метрика vs обычное произношение
Если вы поставите ударение в предложении - Моя дочь родилась в Москве - вы услышите что в обычном произношении правильно родила'сь
Тхьэарзыкъыпхуэхъу! Уи махуэ фӀыуэ.
Спасибо за контакт , обязательно свяжусь !
Ну я в статье честно написал что транслитерация на немецкий и испанский - это больше игрушка, чтобы посмотреть, что может модель, там попадание 70-80 процентов. А вот то что кабардинская модель сходу принимает и читает без акцента тексты на казахском и татарском языках это конечно заслуга разработчиков, которые дали всем голосам доступ ко всем алфавитам на кирилице. И транслитерация на грузинском и турецком звучит тоже вполне хорошо.
ну думаю если среди этих 3500 тысяч будет один, кто выучит python и устроиться кодировщиком на работу в Silero у него будет шанс :)
Модель кабардино-черкесская - она прекрасно синтезирует на обоих родственных языках
Я думаю у Silero в планах все языки больше 100 тысяч носителей, но в первую очередь задача покрыть языки больше 500 тысяч. Главное процесс пошел и в из релизе уже грузинский, армянский, азербайджанский и кабардинский. Очень помогут те кто уже работает в IT и собирает корпуса для обучения перводчиков на своих языках.
ИИ в журналистике мне кажется мне кажется нужно рассматривать как инструмент и в этом ее ценность (value). Например если ИИ структурирует и расставляет знаки препинания, убирает пропуски , анализирует исходный ваш текст , находит вам источники для проверки - это инструмент и причем полезный, снижающий рутину. Но если вы пытаетесь одним промтом написать целую статью, то вы оформляете в качестве авторского контента статистический, усредненный взгляд модели и в этом смысле это плагиат. Практическая ценность такого подхода отрицательная, так как при росте количества таких синтетических данных в сети модели будут обучаться на своей же синтетике из интернета, которую сгенерировали сами и будут деградировать, теряя то value, которое мы используем сейчас. И на самом деле отличить синтетические данные от живых очень сложно и поэтому деградация будет происходить незаметно, если мы не сформируем правила, как этого избегать.
Да кстати я экспериментировал с синтезом кабардинского языка татарским и русским голосом получается в целом неплохо, конечно оригинальные триграфы искажаются, но текст звучит разборчиво хоть и с акцентом. Удивительно что русский синтез справляется почти как татарский. Видимо модель понимает общие фонемы всех языков в релизе.
Хотел поблагодарить ребят из Silero за что качество расстановки ударений кабардинского языка несмотря на маленькую базу словаря - оно очень высокое - этот алгоритм ударений был использован в синтезе для 20 языков России и могу подтвердить что при синтезе уровень попаданий 95-98 процентов - практически не надо править.