Как стать автором
Обновить
0
ГК ITGLOBAL.COM
Рассказываем про Managed IT, облака и ИБ.

Как искусственный интеллект возвращает голос парализованной женщине

Время на прочтение3 мин
Количество просмотров676

С помощью интерфейса «мозг-компьютер» (BCI) женщина с тяжелой формой паралича после инсульта в области ствола мозга снова обрела возможность общения благодаря цифровому аватару. Это первый опыт синтеза речи и мимики, основанный на мозговых сигналах. Исследование было опубликовано 23 августа в журнале Nature.

Прорыв стал результатом работы ученых из Калифорнийского университета в Сан-Франциско (UCSF) и Калифорнийского университета в Беркли. «Мы стремимся дать возможность аватару воспроизводить звуковую речь, ведь настоящая человеческая коммуникация — это не только слова», — делится своими размышлениями Эдвард Чанг, доктор медицинских наук, руководитель кафедры неврологической хирургии UCSF, который занимался этой технологией на протяжении более 10 лет.

photo of Neuroprostheses
Женщина с параличом и ее цифровой аватар, который воспроизводит речь

За рамками экранного текста

В своем раннем исследовании команда под руководством Чанга продемонстрировала возможность фиксации нейронной активности парализованного человека в момент попытки говорить и преобразования этой активности в словесный текст на экране. Однако их последние наработки представляют собой что-то гораздо более масштабное: они умеют декодировать мозговые сигналы, превращая их в полноценную речь, сопровождаемую движениями, которые оживляют лицо человека в процессе разговора.

«В рамках этого исследования скорость преобразования речи в текст составляет около 78 слов в минуту. Мы также продемонстрировали, что можем преобразовывать нейронные сигналы не только в экранный текст, но и прямо в слышимую синтетическую речь, при этом лицо аватара двигается точно и натурально», — отмечает Чанг.

Как работает имплант

Исследовательская группа установила тонкий прямоугольник, состоящий из 253 электродов, на поверхность мозга пациентки. Они выбрали ключевую зону, которая отвечает за речь. Электроды захватывают мозговые сигналы, которые в отсутствие инсульта направлялись бы к мышцам языка, челюсти, гортани и лица. Кабель, подсоединенный к порту на голове, связывает электроды с компьютерным комплексом.

Ученые обучали и тестировали модели глубокого обучения на основе нейронных данных, полученных в моменты, когда пациентка пыталась произнести предложения беззвучно. На протяжении нескольких недель многократно повторялись разнообразные фразы из разговорного словаря, включающего 1024 слова, до тех пор, пока компьютер не выявил характерные образцы мозговой активности, соответствующие этим звукам.

photo of Neuroprostheses
Как проходил эксперимент

«Этот аппарат интерпретирует инструкции, которые мозг отправляет мышцам голосового аппарата», — комментирует Чанг.

Какие получили результаты

Ученые разработали уникальные методики машинного обучения, которые позволяют программе коррелировать сигналы, отправляемые мозгом женщины при попытке говорить, и трансформировать их в движения лица аватара. Это касается открывания и закрывания челюсти, выпячивания и сжатия губ, поднятия и опускания языка, а также мимики, отражающей радость, печаль и удивление.

Вместо того чтобы наставлять ИИ на распознавание полных слов, ученые разработали систему, способную интерпретировать слова по их фонемам. Фонемы — это звуковые элементы речи, которые формируют произносимые слова аналогично тому, как буквы составляют написанные слова. К примеру, слово «hello » включает в себя четыре фонемы: «HH», «AH», «L» и «OW».

Применяя такую методику, компьютеру достаточно было освоить всего 39 фонем для декодирования любого слова на английском. Это не только улучшило точность системы, но и утроило ее скорость работы.

Данное исследование представляет собой «мультимодальный подход к речевому нейропротезированию, который открывает широкие перспективы для восстановления полноценной, интегрированной коммуникации у людей, столкнувшихся с тяжелым параличом», — отмечают авторы в своем научном труде.

По мнению ученых, следующим ключевым этапом в разработке будет внедрение беспроводной версии, которая исключит необходимость физического соединения пользователя с BCI. «Предоставление возможности людям с параличом управлять своими компьютерами и мобильными устройствами при помощи этой технологии приведет к значительному расширению их независимости и социальной активности», — подчеркнул соавтор исследования Дэвид Мозес, доктор философии, доцент кафедры неврологической хирургии UCSF.

Для воссоздания голоса аватара исследователи разработали алгоритм синтеза речи, опираясь на запись голоса женщины до ее травмы, чтобы придать аватару максимальное сходство с ней. Чтобы создать аватар — фактически цифровую анимацию ее лица — команда применила программный комплекс, моделирующий и анимирующий движения лицевых мышц.

Теги:
Хабы:
Всего голосов 3: ↑3 и ↓0+3
Комментарии1

Другие новости

Информация

Сайт
itglobal.com
Дата регистрации
Дата основания
Численность
201–500 человек
Местоположение
Россия
Представитель
itglobalcom

Истории