Search
Write a publication
Pull to refresh
120
0.1
Send message

Мы сделали наш публичный синтез речи еще лучше

Reading time11 min
Views20K

6cc6e0011d4d26aeded6f052080b1890


Обновление — забыл ссылку на репозиторий и на колаб с примерами.


Мы были очень рады, что наша прошлая статья понравилась Хабру. Мы получили много позитивной и негативной обратной связи. Также в ней мы сделали ряд обещаний по развитию нашего синтеза.


Мы достигли существенного прогресса по этим пунктам, но ультимативный релиз со всеми новыми фичами и спикерами может занять относительно много времени, поэтому не хотелось бы уходить в радиомолчание надолго. В этой статье мы ответим на справедливую и не очень критику и поделимся хорошими новостями про развитие нашего синтеза.


Если коротко:


  • Мы сделали наш вокодер в 4 раза быстрее;
  • Мы сделали пакетирование моделей более удобным;
  • Мы сделали мультиспикерную / мультязычную модель и "заставили" спикеров говорить на "чужих" языках;
  • Мы добавили в наши русские модели возможность автопростановки ударений и буквы ё с некоторыми ограничениями;
  • Теперь мы можем сделать голос с нормальным качеством на 15 минутах — 1 часе (с теплого старта в принципе заводилось даже на 3-7 минутах) или на 5 часах аудио (с холодного старта). Но тут все очень сильно зависит от качества самого аудио и ряда деталей;
  • Мы привлекли коммьюнити к работе, и нам помогли сделать удобный интерфейс для записи. Мы начали работу над голосами на языках народностей СНГ (украинский, татарский, башкирский, узбекский, таджикский). Если вы хотите увидеть свой язык в числе спикеров — пишите нам;
  • Мы продолжаем собирать обратную связь по применимости нашей системы для экранных интерфейсов чтения, и пока кажется, что нужно где-то еще всё ускорить в 5-10 раз, чтобы наши модели закрывали и этот кейс;

Отцы игровой индустрии. Крис Авеллон [часть 2/3]. Obsidian Entertainment

Reading time35 min
Views3.6K

Внимание! Внимание! Внимание! Внимание! Внимание! Внимание!

Это вторая часть биографии Криса Авеллона. Если вы еще не ознакомились с первой частью, настоятельно рекомендую это сделать.

Читать далее

Жадные до свинца: как оружейники изобретают идеальный магазин

Reading time12 min
Views50K
За годы исследований военные инженеры придумали массу странных, вычурных и просто безумных конструкций. Проследим за их работой с 17 века и до наших дней.

Вы узнаете, что общего у римской свечи и самого скорострельного пулемета, как идеи Архимеда помогли спецназу, и почему некоторые магазины надо заводить, как часы.

Ленточная подача патронов на примере старого американского пулемета Browning 1917. Анимация целиком
Would you like to know more?

27 лет жизни серии Elder Scrolls

Reading time11 min
Views24K

Прошёл почти десяток лет и сменилось два поколения консолей со времени выхода в 2011 году игры Skyrim. С тех пор Bethesda занималась другими франшизами: мы увидели две новые игры Fallout, а сейчас студия работает над совершенно новым научно-фантастическим проектом Starfield.

Что касается серии The Elder Scrolls, то пока у нас есть только трейлер, состоящий из слов «The Elder Scrolls VI» и аккомпанемента музыкальной темы игры. Тодд Говард чётко дал понять, что следующая Elder Scrolls выйдет нескоро, уже после Starfield. Однако недавняя покупка студии компанией Microsoft вызвала вопросы относительно планов Bethesda. Превратятся ли франшизы Bethesda в эксклюзивы для Xbox и PC? Планирует ли Microsoft выпустить Elder Scrolls VI раньше?

Пока у нас нет ответов. Но поскольку франшизе исполнилось 27 лет, настал подходящий момент узнать, с чего всё начиналось. Нет, «Skyrim 2», вероятно, в ближайшее время не планируется. Но за четвертьвековую историю Elder Scrolls у неё было много интересных и любимых фанатами моментов. Давайте узнаем о них!

Vulkan. Руководство разработчика. Проходы рендера (Render passes)

Reading time9 min
Views6.4K


Меня зовут Александра, я работаю в IT-компании CG Tribe в Ижевске и занимаюсь переводом Vulkan Tutorial на русский язык (ссылка на источник — vulkan-tutorial.com).

Сегодня хочу поделиться переводом заключительных глав раздела, посвященного графическому конвейеру (Graphics pipeline basics), — Render passes и Conclusion.

Содержание
Читать дальше →

Система быстрых платежей простыми словами

Reading time7 min
Views54K

Привет, Хабр!

Я уже 11 лет работаю в индустрии денежных переводов и успел застать смену нескольких эпох. Сейчас я работаю в Системе быстрых платежей, и приходится рассказывать про СБП школьным друзьям, бывшим коллегам и даже продавцам шаурмы, поэтому на тысячный раз я взял и записал свои рассказы и решил их опубликовать. Тут будет рассказ, как транзакции стали такими повседневными и незаметными, что про них никто не вспоминает.

Читать далее

Часть 2. Идентификация событий происходящих в Oracle PL/SQL

Level of difficultyMedium
Reading time17 min
Views7.4K

На картинке представлен пример обработки одной и той же ошибки. В первом случае ("красный" квадрат) представлен результат стандартной обработки ошибки. Во втором случае ("зеленый" квадрат) представлен результат кодирования ошибок в событийной модели логирования. Помимо информативности текста ошибки для пользователя, мы можем реализовать сбор статистики возникновения ошибки, идентификацию места возникновения ошибки. О том как это можно сделать, постараюсь описать в данной статье.

Читать далее

3D в визуализации стрелкового оружия: скромные успехи и большие перспективы

Reading time4 min
Views9.6K
Одним из перспективных направлений 3D-контента считается визуализация стрелкового и другого современного оружия. В особенности это касается узлов и механизмов. Можно с уверенностью сказать, что наибольших успехов с этим добились в играх. Однако с визуализацией для демонстрационных целей всё несколько хуже. Сегодня типовых 3D решений для обучения, оружейного маркетинга, моделей для исследований и модернизации крайне не много.



Помимо кастомных продуктов, которые готовят под конкретные выставки, чтобы показать один раз и забыть, существует буквально одна игра с относительно точным трехмерным моделированием работы автоматики стрелкового оружия, сборки и разборки, а также прототипы 3D-обзоров на автоматы. В сети можно встретить модели от энтузиастов, но практически нет типовых решений, которые бы удовлетворяли современным критериям информативности. Особенно, когда речь идёт о новом оружии. Под катом о том, что представлено в качестве коммерческих решений и планируется в перспективе.

Vulkan. Руководство разработчика. Непрограммируемые стадии конвейера

Reading time11 min
Views5.8K


Я работаю переводчиком в компании CG Tribe в Ижевске и здесь публикую переводы Vulkan Tutorial (оригинал — vulkan-tutorial.com) на русский язык.

Сегодня я хочу представить перевод новой главы раздела, посвященного графическому конвейеру (Graphics pipeline basics), которая называется Fixed functions.

Содержание
Читать дальше →

Программа для physics-based анимации персонажей Cascadeur вышла в ранний доступ

Reading time1 min
Views8.2K


Спустя 10 лет разработки и 2 года бета-тестирования Cascadeur, программа для создания физически корректной персонажной анимации, вышел в ранний доступ! Пользователям доступны 4 варианта подписки, один из которых — совершенно бесплатный.

Desktop. Не популярный, но все еще живой. Eclipse Rich Client Platform (RCP e4)

Reading time9 min
Views5.4K

Всем доброго времени суток. Начнем. Во время своего обучения этой технологии я столкнулся с проблемой, что на весь интернет есть только один нормальный источник информации по этой теме (Lars Vogel). А в нем все написано профи для профи. Поверхностно, без деталей. Есть и с деталями, но платно. Я хочу добавить подробностей в довольной простой процесс создания своего первого приложения RCP, поэтому буду делать подробные пояснения к каждому шагу. Это статья подойдет новичкам, не имеющим представления о RCP и Eclipse и желающим сделать первые шаги в освоении этой технологии, но знающим, что такое Java, JDK, JRE.

Читать далее

Мы Опубликовали Качественный, Простой, Доступный и Быстрый Синтез Речи

Reading time9 min
Views69K

fiona


Вторая частьhttps://habr.com/ru/post/563484/


Вокруг темы синтеза речи сейчас много движения: на рынке есть огромное число тулкитов для синтеза, большое число закрытых коммерческих решений за АПИ (как на современных технологиях, так и на более старых, т.е. "говорилки") от условных GAFA компаний, большое количество американских стартапов, пытающихся сделать очередные аудио дипфейки (voice transfer).


Но мы не видели открытых решений, которые бы удовлетворяли одновременно следующим критериям:


  • Приемлемый уровень естественности речи;
  • Большая библиотека готовых голосов на разных языках;
  • Поддержка синтеза как в 16kHz так и в 8kHz из коробки;
  • Наличие своих собственных голосов у авторов решения, не нарушающих чужие права и лицензии;
  • Высокая скорость работы на "слабом" железе. Достаточная скорость работы на 1 потоке / ядре процессора;
  • Не требует GPU, команды ML инженеров или какой-либо дополнительной тренировки или для использования;
  • Минимализм и отсутствие зависимостей / использование в 1 строчку / не надо ничего собирать или чинить;
  • Позиционируется именно как готовое решение, а не очередной фреймворк / компиляция чужих скриптов / тулкитов для сбора плюсиков;
  • Решение никак не связано и не аффилировано с закрытыми экосистемами и продуктами Гугла / Сбера / Яндекса / вставить нужное;

Мы попытались учесть все эти пункты и представить комьюнити свое открытое некоммерческое решение, удовлетворяющее этим критериям. По причине его публичности мы не заостряем внимание на архитектуре и не фокусируемся на каких-то cherry picked примерах — вы можете оценить все сами, пройдя по ссылке.

Один бинарник, любое окружение. Магия чистого C

Reading time5 min
Views35K


Как мы представляем себе кроссплатформенность? Мы пишем программу на языке, который либо компилируется в исполняемый файл отдельно для каждой поддерживаемой платформы, либо использует разновидность виртуальной машины вместо бинарника (и тогда эта среда должна присутствовать в целевых системах). Есть также и низкоуровневые языки, на которых писать серьёзные программы менее удобно, чем на высокоуровневых монстрах со своими компиляторами или рантаймами, но зато такие программы менее требовательны к предустановленному софту или наличию ОС в принципе, как и менее разборчивы в архитектуре. И всё же, есть возможность писать один и тот же код и собирать один и тот же бинарь под все популярные архитектуры и ОС (и даже bare metal), и эта возможность появилась благодаря гениальной Justine Tunney. Она написала Cosmopolitan, библиотеку на C, позволяющую исполнять один и тот же код на любой машине, подобно Java… но без какого-либо предустановленного интерпретатора или виртуальной машины! Один и тот же скомпилированный файл может исполняться как минимум в любом дистрибутиве Linux, на Mac OS, Windows NT, FreeBSD, OpenBSD, и NetBSD и на bare-metal на x86 и ARM*. Это настоящая магия.

Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим

Reading time12 min
Views24K

Автор исходного изображения: Blue Flourishes/Shutterstock.com

Всем привет! В этом посте мы расскажем про синтез голосов Сбера, Афины и Джой — виртуальных ассистентов семейства Салют. О том, как мы в SberDevices обучали модели, чтобы сделать синтез живым и специфичным для каждого персонажа, а также с какими проблемами столкнулись и как их решали.

Согласно нашей «библии ассистентов», Сбер — энергичный гик, Афина — взрослая и деловая, а Джой — дружелюбная и веселая. Они отличаются не только уникальными характерами, обращением на «ты»/«вы» и предпочтениями в шутках. Мы попытались сделать так, чтобы их личности отражались и в голосах, которыми они разговаривают.


Персонажей озвучили телеведущая Анастасия Чернобровина (Афина) и актёры дубляжа Даниил Щебланов и Татьяна Ермилова (Сбер и Джой). Виртуальных ассистентов можно услышать в приложениях Сбер Салют, СберБанк Онлайн, нашем колл-центре по номеру 900, а также в устройствах SberBox и SberPortal. Всё, что вы услышите, — это синтез речи, реализованный с помощью нейросетей. Он работает на связке Tacotron 2 и LPCNet.

Но, чтобы было понятно, что, зачем и почему, — немного теории и истории

Читать далее

Новая волна в исследованиях варп-двигателя. Решение Ленца и что из него следует

Reading time9 min
Views54K

Варп-двигатель — одна из тех концепций, которые кажутся преждевременно проникшими из фантастики в науку, притягательных и недостижимых. Как известно, варп-двигатель был «изобретен» во вселенной «Стар Трек» и представляет собой устройство, позволяющее космическому кораблю мгновенно перемещаться в пространстве из точки A в точку B, не совершая многолетних и многовековых перелетов на субсветовых скоростях. Этот двигатель работает на антивеществе и кристаллах дилития, поэтому, в сущности, авторы могли нарисовать его сколь угодно мощным, компактным и красивым, не ограничивая собственную фантазию. Для полноты картины приведу здесь его схему, взятую с сайта startreker.su.

Читать далее

Рендеринг шрифтов для WebGL при помощи инструмента msdf-bmfont-xml и технологии MSDF

Reading time4 min
Views4.7K

18/3/2021 Наконец-то была закончена интеграция инструмента msdf-bmfont-xml для библиотеки openglobus. Текстовые метки стали выглядеть гораздо красивее! Мне помог инструмент msdf-bmfont-xml для создания атласов шрифтов и рендеринга текстур для (multichannel signed distance fields) MSDF.

Читать далее

Защищали ли кольчуги рыцарей?

Reading time9 min
Views59K

Автор: Azirsan

В жизни каждого современного человека бывает момент, когда, проснувшись утром, он вдруг понимает, что сейчас XII век, нужно освобождать Святую Землю, да и неплохо было бы валлийцев привести к покорности. Узнали, знакомо? Откуда возникает очевидный вопрос, а защитит ли в этом ответственном деле нас доспех? Вот эту тему мы и будем разбирать. Причем разбирать мы будем с двух точек зрения: аутентичных источников и современных тестов экспериментальной археологии. Поскольку это заметка, а не научная статья, то, возможно, возникнет множество вопросов, которые я не смог затронуть, в силу формата – в квадратных скобках будут приводиться источники, если захотите углубиться в вопрос. Или же можете эти цифры просто игнорировать.

Читать далее

Эпоха пара: Введение / Вес воздуха

Reading time16 min
Views23K

Введение




В центре двора университета Райса, где проходил обучение автор этих строк, на постаменте находятся три огромных гранитных плиты, расположенные вертикально, горизонтально и под углом 45° к горизонту. При этом менее заметной, но более значимой для моего юного впечатлительного сознания оказалась другая скульптура, "Энергия", расположенная в северной части двора, рядом с фасадом лаборатории Аберкромби. На ней изображён рельеф бородатой библейской фигуры, одетой в набедренную повязку, которая левой рукой забирает у Солнца лучи, а правой мечет их на Землю. Скульптура прославляет инженеров. Действительно, практически вся энергия, которую использует человечество, происходит от Солнца, в том или ином виде. Это откровение поразило меня, когда я был студентом. Частичным исключением можно считать лишь ядерную и геотермальную энергии, поскольку они происходят от давно умерших солнц, а не от нашего текущего.
Читать дальше →

Изнанка войны. Средневековые (и не только) ранения

Reading time12 min
Views129K

Автор: Azirsan

Мы обычно смотрим на древние сражения сверху – правый фланг атакует левый, в центре король возглавляет строй… Красивые прямоугольники на картинке, где стрелочками показано, кто и где на кого напал. Но что творилось непосредственно в месте столкновения солдат? В рамках этой популярной статьи хочу рассказать про ранения и те способы, которыми они наносились. Тема эта мало популярная в отечественной историографии, как, в общем-то, и другие вопросы, рассматривающие «лицо войны».

С другой стороны, на Западе накоплен неплохой объем работ, в которых анализируются костные останки древних воинов. Современные методы криминалистической экспертизы позволяют понять по зарубкам на костях, как был нанесен удар, с какой стороны, можно восстановить даже очередность атак, поняв картину боя.

Меня иногда просят привести перечень литературы по вопросу, поэтому в этой статье в конце есть перечень источников информации, я достаточно свободно подошел к их оформлению, это все-таки научпоп, но проблем с поиском не должно быть. Впрочем, если не хотите глубоко зарываться в вопрос, можете просто игнорировать все ссылки в квадратных скобках. Выводы в конце. Итак, приступим:

Читать далее

Information

Rating
4,338-th
Location
Магнитогорск, Челябинская обл., Россия
Registered
Activity