Pull to refresh
12
6
Eduard@Kubataba

User

Send message

Тхьэарзыкъыпхуэхъу! Уи махуэ фӀыуэ.

Спасибо за контакт , обязательно свяжусь !

Ну я в статье честно написал что транслитерация на немецкий и испанский - это больше игрушка, чтобы посмотреть, что может модель, там попадание 70-80 процентов. А вот то что кабардинская модель сходу принимает и читает без акцента тексты на казахском и татарском языках это конечно заслуга разработчиков, которые дали всем голосам доступ ко всем алфавитам на кирилице. И транслитерация на грузинском и турецком звучит тоже вполне хорошо.

ну думаю если среди этих 3500 тысяч будет один, кто выучит python и устроиться кодировщиком на работу в Silero у него будет шанс :)

Модель кабардино-черкесская - она прекрасно синтезирует на обоих родственных языках

Я думаю у Silero в планах все языки больше 100 тысяч носителей, но в первую очередь задача покрыть языки больше 500 тысяч. Главное процесс пошел и в из релизе уже грузинский, армянский, азербайджанский и кабардинский. Очень помогут те кто уже работает в IT и собирает корпуса для обучения перводчиков на своих языках.

ИИ в журналистике мне кажется мне кажется нужно рассматривать как инструмент и в этом ее ценность (value). Например если ИИ структурирует и расставляет знаки препинания, убирает пропуски , анализирует исходный ваш текст , находит вам источники для проверки - это инструмент и причем полезный, снижающий рутину. Но если вы пытаетесь одним промтом написать целую статью, то вы оформляете в качестве авторского контента статистический, усредненный взгляд модели и в этом смысле это плагиат. Практическая ценность такого подхода отрицательная, так как при росте количества таких синтетических данных в сети модели будут обучаться на своей же синтетике из интернета, которую сгенерировали сами и будут деградировать, теряя то value, которое мы используем сейчас. И на самом деле отличить синтетические данные от живых очень сложно и поэтому деградация будет происходить незаметно, если мы не сформируем правила, как этого избегать.

Да кстати я экспериментировал с синтезом кабардинского языка татарским и русским голосом получается в целом неплохо, конечно оригинальные триграфы искажаются, но текст звучит разборчиво хоть и с акцентом. Удивительно что русский синтез справляется почти как татарский. Видимо модель понимает общие фонемы всех языков в релизе.

Хотел поблагодарить ребят из Silero за что качество расстановки ударений кабардинского языка несмотря на маленькую базу словаря - оно очень высокое - этот алгоритм ударений был использован в синтезе для 20 языков России и могу подтвердить что при синтезе уровень попаданий 95-98 процентов - практически не надо править.

Хотел поблагодарить команду за совместную работу над кабардинским синтезом. Удалось получить очень выское попадания ударений при синтезе. Кончно из за значительного присутствия в модели тюрских языков модель говорит с легким тюрским акцентом. Но это не портит произношение в целом, так обычно говорят кабардинцы и черкесы выросшие в Турции. А так модель легко воспроизводит наша экзотические триграфы которые есть только у нас и наших соседей из Дагестана и Чечни - кхъу, хъу, гъу. Кстати модель при траслитерации чеченских и даргинских, аварских . лезгинских букв на кабардинские аналоги вполне может озвучить и эти языки. Это первый профессиональный релиз кабардинского синтеза от такого серьезного игрока на российском рынке, как Silero. Их моделт неплахо конкурируют и с Яндексом и Сбером и Тиньуофф, а в категории лакаоьных моделей мне кажется у них и нет конкурентов по скорости и качеству.

Information

Rating
777-th
Registered
Activity

Specialization

Десктоп разработчик, Инженер по автоматизации тестирования
Средний
Python
Английский язык
Алгоритмы и структуры данных