История синтеза речи: эпоха электрических решений

    В прошлый раз мы рассказывали о механических устройствах для синтеза речи — голосовом тракте Кемпелена и «говорящей голове» Иосифа Фабера. На очереди электрические синтезаторы XX века.


    Фото Rock'n Roll Monkey / Unsplash

    Первые электрические установки


    В 1850 году немецкий физик и врач-физиолог Герман фон Гельмгольц представил свою резонаторную теорию. Он заметил, что у гласных звуков разные резонансные частоты (форманты). Эти форманты образуются при прохождении звуковой волны от голосовых связок к губам. Некоторые волны отражаются от губ говорящего и идут к реципиенту, а часть — возвращается к источнику. Ученый предположил, что голосовой тракт человека можно представить как последовательность резонаторов.

    В начале XX века начались попытки реализовать такую модель на основе электрических компонентов. Первый синтезатор такого типа разработал физик Джон Стюарт. Его схема (опубликованная в журнале Nature), включала в себя электрический зуммер для моделирования связок и пару индуктивно-емкостных резонаторов. Они эмулировали физические процессы, происходящие со звуком в горле.

    Схема синтезатора, разработанного Джоном Стюартом

    Устройство Стюарта могло издавать звуки, состоящие из двух формант. Это — несколько простых гласных, а также дифтонги. Но на этом его возможности заканчивались.

    Первый электрический синтезатор, способный воспроизводить речь появился позже — в 1930 годах. Его разработал Гомер Дадли (Homer Dudley) из Bell Laboratories. В то время компания работала над вокодером — инструментом для сжатия речи и экономии частотных ресурсов радиолинии в телефонных сетях. Идея заключалась в том, чтобы вместо голоса абонента передавать его ключевые параметры. На принимающей стороне устанавливался специальный декодер, который по этим параметрам реконструировал и воспроизводил звук. Дадли понял, что с небольшими модификациями вокодер можно превратить в полноценный синтезатор. Так появилась система VODER — Voice Operating Demonstrator.

    Устройство представили широкой публике на нью-йоркской всемирной выставке в 1939 году. В конструкцию VODER входили два источника звука: ламповый генератор шума для «глухих» фонем, и осциллятор — для «звонких». Также имелись десять параллельно соединенных полосовых фильтров — они составляли блок управления резонансами. Оператор руководил системой с помощью ручной клавиатуры, браслета на запястье и ножной педали.

    Во время демонстраций аппарат говорил на разных языках, пел и отвечал на вопросы с различными интонациями. Но чтобы раскрыть потенциал системы, её оператору требовались годы тренировок.


    Вскоре после премьеры VODER началась Вторая мировая война, и Bell Labs пришлось свернуть дальнейшую разработку синтезатора. Однако знания, полученные во время работы над проектом, Гомер Дадли использовал для создания технологии шифрования телефонных разговоров.

    Синтезаторы речи на спектрограммах


    В 1946 году был изобретен акустический спектрограф. И возникла идея — использовать спектрограммы для управления речевыми синтезаторами. Одним из первых такое устройство представил Л. Шотт (L. Schott), американский инженер из Bell Labs. Он использовал линейный источник света, просвечивающий спектрографические шаблоны с разной степенью прозрачности. Специальные фотоэлементы, установленные напротив лампы, регистрировали изменения уровня освещенности и генерировали управляющие сигналы для полосовых фильтров. Точно такие же фильтры использовал Гомер Дадли для своего VODER.

    Фото 120years.net
    Другую разработку в этой области представила группа американских ученых во главе с физиком Франклином Купером (Franklin Cooper). Их оптическая система — Pattern Playback — модулировала гармоники основного тона 120 Гц, считывая изображения на движущейся прозрачной ленте. Визуальная информация передавалась осциллятору, превращавшему её в звук.

    В каком-то смысле система напоминала советские оптические синтезаторы — «Нивотон» и «Вариофон» — на которых писали музыку для мультфильмов. Однако Pattern Playback был изначально «заточен» под генерацию человеческой речи и умел воспроизводить целые предложения.


    Устройства, подобные Pattern Playback и VODER, построили теоретический фундамент для проектирования формантных и артикуляционных синтезаторов. Они стали прототипом современного компьютерного синтеза. О них мы расскажем в следующий раз.



    Материалы по теме из нашего «Мира Hi-Fi»:

    История аудиотехнологий: синтезаторы и сэмплеры
    Траутониум: немецкая волна в истории синтезаторов
    Музыка из бумаги и картона: краткая история вариофона и «рисованного звука»
    «Машинный звук»: синтезаторы на базе нейросетей
    Звук на проволоке: история телеграфона


    Аудиомания
    Одна из крупнейших Hi-Fi, High End компаний в СНГ

    Комментарии 5

      +1
      Интересный пример реализации голоса на пианино
      www.youtube.com/watch?v=muCPjK4nGY4&feature=emb_logo
        +3
        Познавательно с исторической стороны, спасибо.
          0
          Почему про АНС не вспомнили? Одно из его назначений — тоже синтез речи.
            +1
            Почему все ведущие в роликах говорят голосом дверей из Half-Life?
              0
              Спасибо за цикл статей.
              Когда-то мне звонил убогий МГТС-автомат с требованием заплатить за услугу АОН, которым тогда все пользовались бесплатно, а МГТС проснулись и захотели срубить на этом денег, но я был уверен, что это хулиганы: разборчивость была ужасной.
              Это я так прошу по возможности и впредь рассказывать о попытках коммерческого применения.

              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

              Самое читаемое