Как стать автором
Обновить
247.25
Инфосистемы Джет
российская ИТ-компания

«Ветхий завет» речевых технологий. Говорящая голова, металлические языки и безумные синтезаторы

Время на прочтение7 мин
Количество просмотров3.1K

Привет. Меня зовут Александр Родченков, я занимаюсь речевыми технологиями в компании «Инфосистемы Джет». Как-то я задался вопросом — когда люди стали пытаться синтезировать или распознавать речь? Изучив вопрос, раскопал много криповых любопытных историй и решил с вами поделиться.

XVIII век. Российская империя. Первый синтезатор речи

Первое упоминание о речевых технологиях — это довольно забавная история о тендере академии наук Петербурга 1779 года, который выиграл датский профессор механики Христиан Амадей Готлиб Кратценштейн. Задачей было создать механическое устройство, которое может издавать пять гласных звуков: [а], [э], [и], [о], [у].

Кратценштейн был почетным членом Петербургской Академии Наук, читал лекции в университетах Петербурга и общался с другим известным ученым того времени, Леонардом Эйлером, который как раз изучал физические свойства звуковых волн. В результате датский инженер создал устройство, представляющее собой систему акустических резонаторов с вибрирующими металлическими язычками, имитирующими голосовые связки человека и создающими пульсирующий воздушный поток.

Несколько позже австрийско-венгерский изобретатель автоматических машин Вольфганг фон Кемпелен разработал более сложную модель генерации связной речи и даже написал трактат «Механизм человеческой речи» (1791), который можно считать «Ветхим заветом» речевых технологий.

Конструкция синтезатора речи Кемпелена
Конструкция синтезатора речи Кемпелена

Кстати, Вольфганг фон Кемпелен также прославился тем, что создал первый «автомат», способный играть в шахматы, причем выигрывал большинство партий, даже с сильнейшими шахматистами! Правда, оказалось, что в коробке «автомата» всё же сидел живой шахматист, но внешне это выглядело настоящим торжеством технического прогресса.

Вернемся к синтезу речи. Используя труд фон Кемпелена, современные энтузиасты изготовили точную копию его синтезатора звуков. Устройство хранится в Немецком музее в Мюнхене (крупнейший музей естествознания и техники в мире) и считается старейшим в своем роде. Получившееся устройство звучит, кстати, очень круто! Оно воспроизводит гласные и согласные звуки и даже короткие простые слова типа «мама», «лама», «папа», «ха-ха». Посмотрите и послушайте, как это работает — немного жутко, но впечатляет:

Nachbau des Kempelenschen Sprechapparats.

Сейчас хочется забежать немного вперед и рассказать об изобретении из XX века, логически продолжающем работу Кемпелена. Это «говорящий рот» японского профессора Хидеюки Савада. Воздух, подающийся в «рот» с помощью воздушного насоса, воздействует на голосовые связки робота, которые в результате начинают вибрировать. Когда это происходит, в частях, которые соприкасаются со «ртом», возникает резонанс. Двигая «ртом», робот изменяет объем воздуха в полости и произносит звуки. Возникает вполне логичный вопрос — зачем роботу понадобился нос? Как выяснилось, он нужен для того, чтобы произносить звуки [м] и [н].

Хидеюки Савада со своим изобретением
Хидеюки Савада со своим изобретением

Создатель робота не раскрывает всех секретов своей разработки, однако он заявил, что робот может учиться произносить новые звуки. Когда «роборот» через микрофон слышит незнакомый звук, он может определить набор движений, необходимых для его воспроизведения, и затем произнести его. Это позволяет предположить, что в разработке использовались технологии машинного обучения!

Посмотрите видео, это завораживает.

Но вернемся к нашей хронологии.

XIX век. Викторианская эпоха. Чудесная говорящая машина профессора Фабера

Чудесная говорящая машина Джозефа Фабера — Эуфония (источник —racingnelliebly.com)

В 1846 году изобретатель Джозеф Фабер арендовал один из залов Британского музея в Лондоне с целью продемонстрировать свое чудо техники — говорящую машину Эуфонию, на создание которой ушло 25 лет.

В постройке машины, кстати, использовались труды Кемпелена. Эуфония состояла из воздушного меха, приводимого в движение ножной педалью, системы трубок и декоративной части: искусственной головы женщины, к которой при демонстрации подставляли еще и «тело», одетое в платье.

Работало устройство так: из меха вытеснялся воздух и направлялся в различные по объему трубки посредством ряда клавиш. Трубки очень приблизительно соответствовали разным положениям голосовой щели и полости рта человека. Конечно, достигнуть совершенно точного соответствия речевому аппарату человека Фаберу не удалось. К сожалению, несмотря на необычность машины, она не снискала всеобщего восхищения и не принесла изобретателю желанного успеха. Фабер постепенно стал одержимым и сошел с ума.

Спустя десять лет после выставки в Египетском зале Британского музея в Лондоне обезумевший Фабер покончил с собой…

Зато машина Фабера, говорят, послужила источником вдохновения для исследований Александра Белла и в итоге — для изобретения телефона. Его отец, который увлекался акустикой и изобретениями, присутствовал на церемонии показа Эуфонии и, по свидетельствам современников, был сильно впечатлен машиной, о чем много рассказывал сыну.

Джон Холлингсхэд, владелец театра, в своих мемуарах «Моя жизнь» (1895) написал о Фабере и его Эуфонии следующее:

«Профессор выглядел неопрятно. По его волосам и бороде было видно, что он давно не был у парикмахера. Я не сомневаюсь, что он спал в одной комнате со своей фигурой — научным монстром Франкенштейна. Я почувствовал тайное влияние идеи: им было суждено жить и умереть вместе… Профессор нажал на клавишу, и слова зазвучали медленным, нарочито хриплым, мрачным голосом. Они доносились, будто из глубины сырой могилы».

Ну что же, XVIII и XIX века поражают чудо-машинами, использующими только механику. Поехали дальше…

Ранний СССР. Вариофон Шолпо, банк «чистых тонов» Мурзина, бумажный звук и «Нивотон» Воинова

30-е годы XX столетия

Е. А. Шолпо (советский изобретатель, музыкант, искусствовед и писатель) решил, что звуковую дорожку можно создать искусственно. В московской Студии электронной музыки музея Скрябина он рисовал в крупном масштабе рассчитанные им звуковые волны, фотографировал их кадр за кадром и проигрывал готовую пленку через кинопроектор.

Хотя работа была очень трудоемкой и малопроизводительной, Шолпо озвучил этим способом несколько мультфильмов с помощью построенного им прибора — вариофона. С помощью вариофона озвучено значительное число кинофильмов, создано большое количество искусственных фонограмм (тон-фильмов), в их числе: «Сюита Карбюрация» Г. Римского-Корсакова (1933), «Вальс» Н. Тимофеева (композитор фильма «Энтузиазм» Д. Вертова), «Полет Валькирий» Р. Вагнера, Венгерская рапсодия №6 Ф. Листа и др. К сожалению, инструмент был уничтожен во время бомбардировки блокадного Ленинграда.

ВНИМАНИЕ! Обязательно посмотрите вот это видео — звук бомбический, напоминает игры на Денди, есть кадры с самим Шолпо за работой и пояснения по устройству вариофона.

Шолпо за работой
Шолпо за работой
Версия вариофона 1942 года
Версия вариофона 1942 года

Хорошо знавший работы Шолпо другой сотрудник студии, Е. А. Мурзин, выбрал метод синтеза речи с помощью ряда Фурье — в виде суммы элементарных спектральных составляющих, в музыкальной акустике получивших название «чистые тона». Банк «чистых тонов» Мурзин сконструировал в виде стеклянного диска, очень похожего на современный компакт-диск. На его основе был создан синтезатор звуков под названием АНС (от инициалов композитора А. Н. Скрябина, которому посвятил свое изобретение автор). Первые модели говорящих устройств тех времен были очень похожи на музыкальные инструменты, а обучение операторов тоже напоминало обучение музыкантов и требовало немало времени и способностей.

Об АНС очень много написано и снято видеороликов. Жаждущие могут самостоятельно ознакомиться с ними, мне зашло — я еще тот аудиофил)

Действующий АНС 1958 года
Действующий АНС 1958 года

В 1930 году кинооператор Николай Воинов входит в состав группы Авраамова «Мультзвук» в процессе работы над первыми рисованными звуковыми дорожками. В 1931 году он покидает группу и начинает собственные исследования в области так называемого «бумажного звука», основанного на синтезе звуковых дорожек методом сложения вырезанных из бумаги с помощью инструмента «Нивотон» профилей звуковых волн с последующим покадровым фотографированием фрагментов звуковой дорожки на анимационном станке. С 1931 года Воинов входит в состав группы ИВОС (Иванов, Воинов, Сазонов), создавшей целый ряд мультипликационных фильмов с синтетическими звуковыми дорожками: «Барыня» (1931), «Прелюд Рахманинова» (1932), «Танец вороны» (1933), «Цветные поля и линии безопасности» (1934), «Вор» (1934). Система Н. В. Воинова отличается большой практичностью: по его методу получается четкий, чистый звук.

Это просто магия, убедитесь сами: Рисованный звук. Танец вороны

Ну что же, период 1930–50-х гг. оказался очень богат на интересные девайсы. Поехали дальше.

СССР. 1960–90-е гг. Сезам-1, Фонемофон Лобанова, речевой терминал Марс-1

Фонемофон-1
Фонемофон-1

Позже появилась усовершенствованная модель формантного синтеза речевых сигналов, в которой были оптимизированы характеристики формантных фильтров «Фонемофон-2». В 1979 году «Фонемофон-2» демонстрировался на Всемирной выставке «Телеком-79» в Женеве. Артур Кларк, посетивший павильон СССР, написал в книге отзывов по поводу синтезатора речи: «Вы предвосхитили мои фантазии «Космической Одиссеи – 2001».

Затем были 3, 4 и 5-я версии. Исходный код 5-й реализации лежит в открытом доступе. В следующий раз я обязательно его протестирую.

5-я версия использовала микроволновой метод синтеза речевых сигналов, в котором вместо вычислений формантных колебаний использовался подготовленный заранее набор микроволн естественного речевого сигнала. Под руководством Б. М. Лобанова метод реализован сотрудником лаборатории А. Н. Ивановым в синтезаторе «Фонемофон-5». Компактность его программного обеспечения (всего 64 Кб) позволила оснастить синтезом речи уже первые IBM PC-XT и даже отечественные ПК ЕС-1840. Синтезатор речи был востребован во многих практических приложениях и до сих пор еще используется незрячими пользователями ПК!

Еще одно очень важное событие пришлось на 1980-е годы. В Калининградском ПО «Кварц» была проведена опытно-конструкторская разработка с последующим серийным производством речевого терминала «Марс-1», включающего подсистемы распознавания речи «Сезам» и синтеза речи «Фонемофон». На базе речевого терминала «Марс-1» разработана система автоматического информирования абонентов междугородной телефонной сети (АИАМТС) о задолженности за переговоры. Система АИАМТС была успешно внедрена и длительное время эксплуатировалась в ряде крупных городов: Минске, Новосибирске, Алма-Ате, Фрунзе, Петропавловске-Камчатском.

На этом закончу обзор, надеюсь, было интересно. Пишите в комментариях, какие изобретения вам понравились и что удивило больше всего.

Ссылки на источники:

  1. БИОБИБЛИОГРАФИЯ УЧЁНЫХ БЕЛАРУСИ. Доктор технических наук Борис Мефодьевич ЛОБАНОВ

  2. К ИСТОРИИ РУССКОГОВОРЯЩИХ МАШИН. (От голоса робота - к персональному клону голоса человека). Борис Лобанов

  3. ru_tts speech synthesizer

  4. Японец заставил силиконовый «роборот» выть

Теги:
Хабы:
Всего голосов 30: ↑28 и ↓2+26
Комментарии4

Публикации

Информация

Сайт
jet.su
Дата регистрации
Дата основания
1991
Численность
1 001–5 000 человек
Местоположение
Россия