Как синтез речи появился на ПК

    В прошлый раз мы рассказали о цифровых синтезаторах речи и вспомнили, как в 1974 году Дональд Шерман (Donald Sherman), страдающий от паралича мышц лица, впервые использовал компьютер с системой Text-to-Speech, чтобы заказать пиццу по телефону. Тогда синтезатор работал на мейнфрейме, установленном в лаборатории Мичиганского государственного университета. Но с развитием технологий и появлением персональных компьютеров, TTS-решения стали мобильнее.

    Расскажем о некоторых ранних разработках того времени.


    Фото Springsgrace / CC BY-SA

    Синтезатор DECtalk


    В 1981 году профессор Деннис Клатт (Dennis Klatt) из MIT связался с Digital Equipment Corporation, чтобы обсудить перспективы разрабатываемого им алгоритма для конкатенативного синтеза речи. Такая система соединяет в цепочку заранее записанные сегменты естественной речи. Представители компании увидели потенциал в наработках Клатта и решили использовать их, чтобы выпустить на рынок собственный голосовой синтезатор. Разработка велась три года, за которые проект успел дважды сменить название — с KLATTALK на CLATTER и, наконец, на DECtalk.

    Релиз состоялся в 1984 году — корпус девайса был немногим больше кота. Устройство подключалось к любой вычислительной системе с асинхронным последовательным портом (COM-порт), а его поздние версии — к шине ISA. Также оно имело разъёмы для соединения с телефонной линией.

    Эта особенность позволяла автоматизировать работу со входящими и исходящими звонками. Машина умела говорить девятью голосами: четырьмя мужскими, четырьмя женскими и одним детским. Каждый из голосов пользователь мог донастроить самостоятельно — изменить высоту звука и модифицировать передаточную функцию головы (стр.61). Более того, система позволяла корректировать произношение слов. Благодаря этой особенности её можно было научить петь.


    Как и установка из Мичиганского государственного университета, DECtalk нашла применение в качестве «речевого протеза». Решение DEC было установлено в кресле известного астрофизика Стивена Хокинга вплоть до 2018 года. Тогда команда инженеров из Кембриджа заменила «ретрочип» на Raspberry Pi, но сохранила звук и интонации, генерируемые старым синтезатором, — так как ученый к ним привык.

    В 90-х в компании DEC решили продать лицензию на технологию разработчиками сторонних аудиоустройств. Например, чип DECtalk стал частью звуковой карты Sound Blaster AWE32 (о реплике её прародителя мы писали у себя в блоге). В комплекте шло специализированное ПО TextAssist.

    DECtalk стал довольно успешным продуктом. Однако по ряду причин Digital Equipment Corporation передали права на эту торговую марку компании Force Computers. Та, в свою очередь, перепродала её Fonix Speech, которая сегодня известна как SpeechFX. Она до сих пор предлагает синтезаторы речи на базе DECtalk для встраиваемых устройств.

    S. A. M. — Software Automatic Mouth


    В 1982 году разработчик Марк Бартон (Mark Barton) выпустил S. A. M. Это — один из первых коммерческих программных синтезаторов речи для 8-битных вычислительных систем: Atari 8-bit, Commodore 64 и Apple II.

    В первом случае S. A. M использовал встроенный аудиочип POKEY. Его возможности позволяли создавать полифоническую музыку и эффекты в играх. И его реализация до сих пор используется в ряде эмуляторов, например MAME. В случае с Commodore 64 была задействована встроенная SID-схема с 4-битным ЦАП, что отрицательно сказалось на качестве воспроизведения речи.


    Фото Federica Galli / Unsplash

    Что касается версии для Apple II, то синтезатор работал со стандартной расширительной платой и 8-битным цифро-аналоговым преобразователем. Позже S. A. M. появился и на первом компьютере Macintosh. Стив Джобс лично настоял на том, чтобы программа вошла в раннюю версию Mac OS. Компания заключила партнерское соглашение с Бартоном, и его разработка, сменив название на MacInTalk, стала частью экосистемы «яблочной корпорации».

    Новинку сразу включили в презентацию компьютера в 1984 году. Машина самостоятельно представила себя на сцене, начав с фразы: «Hello. I’m Macintosh».

    Полная речь Macintosh
    «Привет, я Macintosh. Как же хорошо выбраться из этой сумки.

    Я не привык к публичным выступлениям, но хотел бы поделиться с вами мыслью, которая впервые пришла мне, когда я увидел мейнфрейм IBM: „Не доверяйте компьютеру, который не можете поднять“.

    Я бы мог говорить и дальше, но предпочту посидеть и послушать. С гордостью представляю вам человека, который стал для меня отцом… Стива Джобса».



    
Сегодня S. A. M. почти нигде не используется и служит историческим наследием — в сети можно найти веб-версию синтезатора (и код на GitHub). Хотя в 2017 году инди-разработчики из Airdorf Games использовали инструмент для озвучивания персонажей в компьютерной хоррор-игре Faith.

    Разумеется, это не все — лишь одни из первых — синтезаторы речи для ПК, выпущенные на рубеже веков. Но они проложили дорогу современным решениям, которые звучат более реалистично. Об используемых в них технологиях мы продолжим рассказывать в следующем материале.



    Дополнительное чтение из нашего корпоративного блога «Мир Hi-Fi»:

    «Машинный звук»: синтезаторы на базе нейросетей
    История аудиотехнологий: синтезаторы и сэмплеры
    Как устроен Sporth — ЯП для музыкальных live-сессий
    Траутониум: немецкая волна в истории синтезаторов
    Где взять аудиосемплы для ваших проектов: девять тематических ресурсов


    Аудиомания
    Одна из крупнейших Hi-Fi, High End компаний в СНГ

    Comments 6

      0

      А подскажите пожалуйста момент в видео про dectalk где речь идет про AWE32?

        +2
        В ролике показан документ из журнала Compute! — это на 4:24
          0
          Спасибо, смотрел на телефоне, слишком мелко. ;)
        0
        Вспомнилась Govorilka. Надеюсь о ней не забудут в следующих публикациях.
          0
          Про Вокалоиды статья будет?
            0
            Говорящую мышь нужно упомянуть обязательно в следующих частях. В 90-х с ней игрались, наверное, все обладатели PC с Windows на борту.

            Only users with full accounts can post comments. Log in, please.