В июне команда ученых из Калифорнийского университета в Сан-Франциско опубликовала исследование, которое проливает свет на то, как люди меняют высоту тона в своей речи.
Результаты этого исследования могут быть полезными в создании синтезаторов естественно звучащей речи — с эмоциями и различными интонациями.
Об исследовании — в нашей сегодняшней статье.
Фото Florian Koppe / CC
Команда ученых Калифорнийского университета за последнее время провела целую серию экспериментов. Она изучает взаимосвязь различных участков мозга и органов речи. Исследователи пытаются узнать, что происходит в мозге во время разговора.
Работа, о которой идет речь в статье, сосредоточена на участке, контролирующем гортань, в том числе и в момент изменения высоты тона.
Ведущим специалистом в исследовании выступил нейрохирург Эдвард Чанг (Edward Chang). Он работает с пациентами, страдающими эпилепсией, — проводит операции, которые предотвращают судороги. За активностью головного мозга некоторых своих пациентов Чанг следит с помощью специального оборудования.
Команда набирала добровольцев для своих исследований именно из этой группы пациентов. Подключенные датчики позволяют следить за их нейронной активностью во время экспериментов. Этот метод, — известный как электрокортикография, — помог ученым найти область мозга, отвечающую за изменения высоты тона.
Участников исследования просили повторять вслух одно и то же предложение, но делать акцент каждый раз на разных словах. От этого менялся смысл фразы. Вместе с тем менялась и частота основного тона — частота колебаний голосовых связок.
Команда обнаружила, что нейроны в одном участке мозга активизировались, когда пациент повышал тон. Этот участок в моторной зоне коры отвечает за мышцы гортани. Исследователи стимулировали электричеством нейроны в этом участке, на что мышцы гортани отвечали напряжением, а некоторые пациенты при этом непроизвольно издавали звуки.
Участникам в ходе исследования также включали запись их собственных голосов. Это вызывало ответную реакцию нейронов. Из этого члены команды сделали вывод, что данная область мозга принимает участие не только в изменении частоты основного тона, но и в восприятии речи. Это может дать представление о том, как мозг участвует в подражании чужой речи — позволяет менять высоту тона и другие характеристики, чтобы пародировать собеседника.
Журналист Робби Гонсалес (Robbie Gonzalez) из издания Wired полагает, что результаты исследования могут пригодиться в протезировании гортани и позволят пациентам, лишенным голоса, «заговорить» более реалистично. Это подтверждают и сами ученые.
Синтезаторы человеческой речи — например, тот, которым пользовался Стивен Хокинг, — способны и сейчас воспроизводить слова, интерпретируя нейронную активность. Однако они не могут расставлять акценты, как это делал бы человек со здоровым речевым аппаратом. Из-за этого речь звучит неестественно, и не всегда понятно, задает ли собеседник вопрос или же делает утверждение.
Ученые продолжают исследовать участок мозга, отвечающий за изменение частоты основного тона. Есть предположение, что в будущем синтезаторы речи смогут анализировать нейронную активность в этом участке и на основе полученных данных выстраивать предложения естественным образом — подчеркивать высотой тона нужные слова, интонационно формировать вопросы и утверждения в зависимости от того, что хочет произнести человек.
Не так давно в лаборатории Эдварда Чанга провели еще одно исследование, которое способно помочь в разработке голосообразующих аппаратов. Участники зачитывали сотни предложений, в звучании которых использовались почти все возможные фонетические конструкции американского английского языка. А ученые следили за нейронной активностью испытуемых.
Фото PxHere / PD
В этот раз предметом интереса стала коартикуляция — то, как работают органы речевого тракта (например, губы и язык) при произнесении разных звуков. Внимание уделяли словам, в которых за одной и той же твердой согласной следуют разные гласные. При произнесении таких слов губы и язык часто работают по-разному — в результате различается и наше восприятие соответствующих звуков.
Ученые не только определили группы нейронов, ответственные за конкретные движения органов голосового тракта, но и установили, что речевые центры мозга координируют движения мышц языка, гортани и других органов речевого тракта, полагаясь на контекст речи — то, в каком порядке произносятся звуки. Мы знаем, что язык принимает разные положения в зависимости от того, каким будет следующий звук в слове, при этом существует огромное количество таких звуковых сочетаний — это еще один фактор, делающий звучание человеческой речи естественным.
Изучение всех вариантов коартикуляции, контролируемых нейронной активностью, также сыграет роль в развитии технологий синтеза речи людей, которые потеряли способность говорить, но нейронные функции которых сохранились.
Для помощи инвалидам используются и системы, работающие по обратному принципу, — инструменты на базе ИИ, которые помогают преобразовывать речь в текст. Наличие в речи интонаций и акцентов представляет трудность и для этой технологии. Их присутствие мешает алгоритмам искусственного интеллекта распознавать отдельные слова.
Сотрудники Cisco, Московского физико-технического института и Высшей школы экономики недавно представили возможное решение проблемы для преобразования в текст американской английской речи. Их система использует базу произношений CMUdict и возможности рекуррентной нейронной сети. Их метод заключается в автоматической предварительной «очистке» речи от «лишних» призвуков. Таким образом, по своему звучанию речь приближается к разговорному американскому английскому, без четко выраженных региональных или этнических «следов».
Профессор Чанг в будущем хочет исследовать и то, как работает мозг людей, которые говорят на наречиях китайского языка. В них вариации частоты основного тона могут существенно изменить смысл слова. Ученым интересно, как люди воспринимают разные фонетические конструкции в этом случае.
Бенджамин Дихтер (Benjamin Dichter), один из коллег Чанга, считает, что следующий шаг — пойти дальше в понимании связи «мозг-гортань». Команда теперь должна научиться угадывать, какую частоту тона выберет говорящий, анализируя его нейронную активность. Это — ключ к созданию синтезатора естественно звучащей речи.
Ученые полагают, что в ближайшее время такое устройство выпустить не удастся, но исследование Дихтера и команды приблизит науку к тому моменту, когда аппарат искусственной речи научится интерпретировать не только отдельные слова, но и интонации, а значит, добавлять в речь эмоции.
Больше интересного о звуке — в нашем Telegram-канале:
Как зазвучали Звездные войны
Необычные аудиогаджеты
Звуки из мира кошмаров
Кино на пластинках
Музыка на работе
Результаты этого исследования могут быть полезными в создании синтезаторов естественно звучащей речи — с эмоциями и различными интонациями.
Об исследовании — в нашей сегодняшней статье.
Фото Florian Koppe / CC
Как проходило исследование
Команда ученых Калифорнийского университета за последнее время провела целую серию экспериментов. Она изучает взаимосвязь различных участков мозга и органов речи. Исследователи пытаются узнать, что происходит в мозге во время разговора.
Работа, о которой идет речь в статье, сосредоточена на участке, контролирующем гортань, в том числе и в момент изменения высоты тона.
Ведущим специалистом в исследовании выступил нейрохирург Эдвард Чанг (Edward Chang). Он работает с пациентами, страдающими эпилепсией, — проводит операции, которые предотвращают судороги. За активностью головного мозга некоторых своих пациентов Чанг следит с помощью специального оборудования.
Команда набирала добровольцев для своих исследований именно из этой группы пациентов. Подключенные датчики позволяют следить за их нейронной активностью во время экспериментов. Этот метод, — известный как электрокортикография, — помог ученым найти область мозга, отвечающую за изменения высоты тона.
Участников исследования просили повторять вслух одно и то же предложение, но делать акцент каждый раз на разных словах. От этого менялся смысл фразы. Вместе с тем менялась и частота основного тона — частота колебаний голосовых связок.
Команда обнаружила, что нейроны в одном участке мозга активизировались, когда пациент повышал тон. Этот участок в моторной зоне коры отвечает за мышцы гортани. Исследователи стимулировали электричеством нейроны в этом участке, на что мышцы гортани отвечали напряжением, а некоторые пациенты при этом непроизвольно издавали звуки.
Участникам в ходе исследования также включали запись их собственных голосов. Это вызывало ответную реакцию нейронов. Из этого члены команды сделали вывод, что данная область мозга принимает участие не только в изменении частоты основного тона, но и в восприятии речи. Это может дать представление о том, как мозг участвует в подражании чужой речи — позволяет менять высоту тона и другие характеристики, чтобы пародировать собеседника.
Пригодится в разработке голосовых синтезаторов
Журналист Робби Гонсалес (Robbie Gonzalez) из издания Wired полагает, что результаты исследования могут пригодиться в протезировании гортани и позволят пациентам, лишенным голоса, «заговорить» более реалистично. Это подтверждают и сами ученые.
Синтезаторы человеческой речи — например, тот, которым пользовался Стивен Хокинг, — способны и сейчас воспроизводить слова, интерпретируя нейронную активность. Однако они не могут расставлять акценты, как это делал бы человек со здоровым речевым аппаратом. Из-за этого речь звучит неестественно, и не всегда понятно, задает ли собеседник вопрос или же делает утверждение.
Ученые продолжают исследовать участок мозга, отвечающий за изменение частоты основного тона. Есть предположение, что в будущем синтезаторы речи смогут анализировать нейронную активность в этом участке и на основе полученных данных выстраивать предложения естественным образом — подчеркивать высотой тона нужные слова, интонационно формировать вопросы и утверждения в зависимости от того, что хочет произнести человек.
Другие исследования речевых моделей
Не так давно в лаборатории Эдварда Чанга провели еще одно исследование, которое способно помочь в разработке голосообразующих аппаратов. Участники зачитывали сотни предложений, в звучании которых использовались почти все возможные фонетические конструкции американского английского языка. А ученые следили за нейронной активностью испытуемых.
Фото PxHere / PD
В этот раз предметом интереса стала коартикуляция — то, как работают органы речевого тракта (например, губы и язык) при произнесении разных звуков. Внимание уделяли словам, в которых за одной и той же твердой согласной следуют разные гласные. При произнесении таких слов губы и язык часто работают по-разному — в результате различается и наше восприятие соответствующих звуков.
Ученые не только определили группы нейронов, ответственные за конкретные движения органов голосового тракта, но и установили, что речевые центры мозга координируют движения мышц языка, гортани и других органов речевого тракта, полагаясь на контекст речи — то, в каком порядке произносятся звуки. Мы знаем, что язык принимает разные положения в зависимости от того, каким будет следующий звук в слове, при этом существует огромное количество таких звуковых сочетаний — это еще один фактор, делающий звучание человеческой речи естественным.
Изучение всех вариантов коартикуляции, контролируемых нейронной активностью, также сыграет роль в развитии технологий синтеза речи людей, которые потеряли способность говорить, но нейронные функции которых сохранились.
Для помощи инвалидам используются и системы, работающие по обратному принципу, — инструменты на базе ИИ, которые помогают преобразовывать речь в текст. Наличие в речи интонаций и акцентов представляет трудность и для этой технологии. Их присутствие мешает алгоритмам искусственного интеллекта распознавать отдельные слова.
Сотрудники Cisco, Московского физико-технического института и Высшей школы экономики недавно представили возможное решение проблемы для преобразования в текст американской английской речи. Их система использует базу произношений CMUdict и возможности рекуррентной нейронной сети. Их метод заключается в автоматической предварительной «очистке» речи от «лишних» призвуков. Таким образом, по своему звучанию речь приближается к разговорному американскому английскому, без четко выраженных региональных или этнических «следов».
Будущее речевых исследований
Профессор Чанг в будущем хочет исследовать и то, как работает мозг людей, которые говорят на наречиях китайского языка. В них вариации частоты основного тона могут существенно изменить смысл слова. Ученым интересно, как люди воспринимают разные фонетические конструкции в этом случае.
Бенджамин Дихтер (Benjamin Dichter), один из коллег Чанга, считает, что следующий шаг — пойти дальше в понимании связи «мозг-гортань». Команда теперь должна научиться угадывать, какую частоту тона выберет говорящий, анализируя его нейронную активность. Это — ключ к созданию синтезатора естественно звучащей речи.
Ученые полагают, что в ближайшее время такое устройство выпустить не удастся, но исследование Дихтера и команды приблизит науку к тому моменту, когда аппарат искусственной речи научится интерпретировать не только отдельные слова, но и интонации, а значит, добавлять в речь эмоции.
Больше интересного о звуке — в нашем Telegram-канале:
Как зазвучали Звездные войны
Необычные аудиогаджеты
Звуки из мира кошмаров
Кино на пластинках
Музыка на работе