Как синтез речи появился на ПК / Хабр

В прошлый раз мы рассказали о цифровых синтезаторах речи и вспомнили, как в 1974 году Дональд Шерман (Donald Sherman), страдающий от паралича мышц лица, впервые использовал компьютер с системой Text-to-Speech, чтобы заказать пиццу по телефону. Тогда синтезатор работал на мейнфрейме, установленном в лаборатории Мичиганского государственного университета. Но с развитием технологий и появлением персональных компьютеров, TTS-решения стали мобильнее.

Расскажем о некоторых ранних разработках того времени.

^{Фото Springsgrace / CC BY-SA}

Синтезатор DECtalk

В 1981 году профессор Деннис Клатт (Dennis Klatt) из MIT связался с Digital Equipment Corporation, чтобы обсудить перспективы разрабатываемого им алгоритма для конкатенативного синтеза речи. Такая система соединяет в цепочку заранее записанные сегменты естественной речи. Представители компании увидели потенциал в наработках Клатта и решили использовать их, чтобы выпустить на рынок собственный голосовой синтезатор. Разработка велась три года, за которые проект успел дважды сменить название — с KLATTALK на CLATTER и, наконец, на DECtalk.

Релиз состоялся в 1984 году — корпус девайса был немногим больше кота. Устройство подключалось к любой вычислительной системе с асинхронным последовательным портом (COM-порт), а его поздние версии — к шине ISA. Также оно имело разъёмы для соединения с телефонной линией.

Эта особенность позволяла автоматизировать работу со входящими и исходящими звонками. Машина умела говорить девятью голосами: четырьмя мужскими, четырьмя женскими и одним детским. Каждый из голосов пользователь мог донастроить самостоятельно — изменить высоту звука и модифицировать передаточную функцию головы (стр.61). Более того, система позволяла корректировать произношение слов. Благодаря этой особенности её можно было научить петь.

Как и установка из Мичиганского государственного университета, DECtalk нашла применение в качестве «речевого протеза». Решение DEC было установлено в кресле известного астрофизика Стивена Хокинга вплоть до 2018 года. Тогда команда инженеров из Кембриджа заменила «ретрочип» на Raspberry Pi, но сохранила звук и интонации, генерируемые старым синтезатором, — так как ученый к ним привык.

В 90-х в компании DEC решили продать лицензию на технологию разработчиками сторонних аудиоустройств. Например, чип DECtalk стал частью звуковой карты Sound Blaster AWE32 (о реплике её прародителя мы писали у себя в блоге). В комплекте шло специализированное ПО TextAssist.

DECtalk стал довольно успешным продуктом. Однако по ряду причин Digital Equipment Corporation передали права на эту торговую марку компании Force Computers. Та, в свою очередь, перепродала её Fonix Speech, которая сегодня известна как SpeechFX. Она до сих пор предлагает синтезаторы речи на базе DECtalk для встраиваемых устройств.

S. A. M. — Software Automatic Mouth

В 1982 году разработчик Марк Бартон (Mark Barton) выпустил S. A. M. Это — один из первых коммерческих программных синтезаторов речи для 8-битных вычислительных систем: Atari 8-bit, Commodore 64 и Apple II.

В первом случае S. A. M использовал встроенный аудиочип POKEY. Его возможности позволяли создавать полифоническую музыку и эффекты в играх. И его реализация до сих пор используется в ряде эмуляторов, например MAME. В случае с Commodore 64 была задействована встроенная SID-схема с 4-битным ЦАП, что отрицательно сказалось на качестве воспроизведения речи.

^{Фото Federica Galli / Unsplash}

Что касается версии для Apple II, то синтезатор работал со стандартной расширительной платой и 8-битным цифро-аналоговым преобразователем. Позже S. A. M. появился и на первом компьютере Macintosh. Стив Джобс лично настоял на том, чтобы программа вошла в раннюю версию Mac OS. Компания заключила партнерское соглашение с Бартоном, и его разработка, сменив название на MacInTalk, стала частью экосистемы «яблочной корпорации».

Новинку сразу включили в презентацию компьютера в 1984 году. Машина самостоятельно представила себя на сцене, начав с фразы: «Hello. I’m Macintosh».

Полная речь Macintosh

«Привет, я Macintosh. Как же хорошо выбраться из этой сумки.

Я не привык к публичным выступлениям, но хотел бы поделиться с вами мыслью, которая впервые пришла мне, когда я увидел мейнфрейм IBM: „Не доверяйте компьютеру, который не можете поднять“.

Я бы мог говорить и дальше, но предпочту посидеть и послушать. С гордостью представляю вам человека, который стал для меня отцом… Стива Джобса».

Сегодня S. A. M. почти нигде не используется и служит историческим наследием — в сети можно найти веб-версию синтезатора (и код на GitHub). Хотя в 2017 году инди-разработчики из Airdorf Games использовали инструмент для озвучивания персонажей в компьютерной хоррор-игре Faith.

Разумеется, это не все — лишь одни из первых — синтезаторы речи для ПК, выпущенные на рубеже веков. Но они проложили дорогу современным решениям, которые звучат более реалистично. Об используемых в них технологиях мы продолжим рассказывать в следующем материале.

Дополнительное чтение из нашего корпоративного блога «Мир Hi-Fi»: