Многие люди теряют возможность поддерживать собственную независимость, вести активную социальную жизнь и просто взаимодействовать с окружающей средой, в связи с серьезными неврологическими заболеваниями.
Болезни и состояния, такие как БАС, инсульт, церебральный паралич, множественный склероз, болезнь Паркинсона, последствия черепно-мозговых травм, дистония, могут привести к частичной или полной потере способности к самостоятельному передвижению, речи и выполнению повседневных задач. Восстановить эти функции очень сложно, а в некоторых случаях вовсе невозможно.
Над этой проблемой работают многие исследователи, борясь за улучшение уровня жизни для таких пациентов.
В данной статье я расскажу о тестировании возможности применения технологии имплантируемого интерфейса “мозг-компьютер” (brain–computer interface) для онлайн-синтеза речи с использованием активности мозга, регистрируемой внутричерепными электродами, чтобы проложить путь к новым коммуникационным возможностям для людей, потерявших способность говорить.
Приятного прочтения!
Введение в исследование
Различные неврологические расстройства, включая боковой амиотрофический склероз (БАС), могут серьезно повлиять на воспроизведение речи и другие целенаправленные движения, сохраняя при этом когнитивные способности.
Боковой амиотрофический склероз (БАС) — это неизлечимое заболевание, при котором разрушаются клетки, передающие моторные нервные импульсы. В результате мышцы перестают получать команды от мозга, постепенно слабеют и атрофируются.
Такие заболевания могут привести к различным нарушениям коммуникации, включая синдром “запертого человека”, в котором пациенты могут только отвечать на вопросы «да/нет» или выбирать из последовательно представленных вариантов, используя моргания, движения глаз или другие остаточные движения.
В связи с этой проблемой начались исследования, основанные на применении имплантируемого интерфейса “мозг-компьютер” (brain–computer interface; BCI) для людей, имеющих подобные расстройства.
Имплантируемый интерфейс “мозг-компьютер” (BCI) — это технология, которая вживляется внутрь тела и позволяет напрямую соединять мозг человека с компьютерной системой. Целью такого интерфейса является преобразование нейронной активности мозга в команды, которые могут управлять внешними устройствами или программным обеспечением, обходя традиционные пути нервной системы, такие как движения мышц, которые могут быть нарушены из-за травмы или заболевания. Это открывает новые возможности для общения, контроля и взаимодействия с окружающим миром для людей с серьезными физическими ограничениями.
Принцип работы имплантируемого интерфейса "мозг-компьютер" (BCI) состоит в следующем:
Сбор данных: Имплантируемые электроды, размещенные в определенных областях мозга, собирают электрические сигналы (ЭКоГ сигналы), которые отражают нейронную активность мозга. Эти сигналы могут быть получены в реальном времени и представлять конкретные мыслительные процессы или двигательные намерения пользователя.
Анализ и декодирование: Собранные данные передаются на внешний устройство, где специальное программное обеспечение анализирует и декодирует сигналы. Это включает в себя распознавание шаблонов, которые соответствуют определенным мысленным командам или задачам.
Преобразование в команды: Декодированные сигналы преобразуются в команды, которые могут быть использованы для управления внешними устройствами или интерфейсами, такими как компьютерный курсор, роботизированные протезы, виртуальные клавиатуры или даже синтезированная речь.
Обратная связь: Иногда BCI обеспечивает обратную связь пользователю, что позволяет ему видеть результаты своих нейронных команд и корректировать их при необходимости.
В настоящее время уже широко применяются неинвазивные виды BCI (считывают мозговую активность без хирургического вмешательства), к ним относятся:
Электроэнцефалография (ЭЭГ) — измеряет электрическую активность мозга через электроды, прикрепленные к коже головы.
Функциональная магнитно-резонансная томография — обнаруживает изменения в кровотоке мозга, связанные с нейронной активностью, используя магнитное поле и радиоволны.
Магнитоэнцефалография — регистрирует магнитные поля, создаваемые электрической активностью мозга.
Функциональная ближняя инфракрасная спектроскопия — измеряет кровоток в коре головного мозга, используя инфракрасное излучение.
Фотоплетизмография (PPG) и другие методы, основанные на оптических сигналах.
Эти технологии могут применяться для контроля компьютеров, протезов, инвалидных кресел или других устройств с помощью мозговых сигналов. Неинвазивные BCI считаются более доступными и удобными для пользователя, но они могут быть менее точными и иметь более низкую разрешающую способность по сравнению с инвазивными методами, такими как имплантируемые электроды.
В новом исследовании ученые показали, что пациент с БАС, участвующий в клиническом испытании имплантируемого интерфейса “мозг-компьютер”, смог произнести понятные слова, похожие на его собственный голос. Используя декодирование сигналов мозга в реальном времени, исследователи синтезировали речь на основе активности корковых областей, связанных с артикуляцией и фонацией. Они сосредоточились на ограниченном словаре из шести ключевых слов, что позволило достичь высокой степени разборчивости при их произнесении.
Обучение системы декодирования продолжалось шесть недель, после чего BCI успешно применяли в нескольких сессиях.
Также исследователями было принято решение обеспечить отложенную обратную связь, которая позволяет избежать путаницы или интерференции, которая может возникнуть, если пациент слышит одновременно как свой собственный голос, так и синтезированный голос от BCI. Эта технология идеальна для поддержания общения даже при прогрессирующем нарушении речи из-за БАС.
Этот прорыв подтверждает возможность использования BCI для восстановления речи у людей с неврологическими расстройствами, начиная с ограниченного числа слов, которые пациент может надежно воспроизводить, и расширяя словарный запас в будущем.
Основной подход исследования
В исследовании для преобразования мозговых сигналов в акустическую речь использовались три рекуррентные нейронные сети (RNN). Первая RNN идентифицировала активность мозга, связанную с речью, и буферизовала ее. Вторая преобразовывала эту активность в промежуточное акустическое представление. Третья восстанавливала акустическую волну с помощью вокодера.
Электрокортикографические сигналы были получены с помощью специальных электродных решеток, установленных на поверхности мозга в областях, ответственных за производство речи. (рис. 1А)
Электрокортикографические сигналы — это электрические сигналы, которые регистрируются непосредственно с поверхности коры головного мозга. ЭКоГ сигналы отображают активность нейронов в коре головного мозга и обычно получают с помощью сети тонких электродов, которые временно или постоянно имплантируются во время нейрохирургических операций.
Исследователи сосредоточились только на тех электродах, которые ранее были связаны с увеличением активности в высокочастотном диапазоне гамма-волн во время произношения слов.
Система анализировала сигналы, чтобы выявить характеристики мозговой активности, связанные с речью. Эти характеристики затем декодировались в цифровые параметры, которые с помощью вокодера преобразовывались обратно в акустический речевой сигнал. Этот синтезированный речевой сигнал предоставлялся пациенту с задержкой в виде аудио обратной связи.
Такой подход позволил создать речь, максимально приближенную к естественной речи пациента, несмотря на его неврологическое заболевание.
Результаты исследования
Производительность системы синтеза
В ходе исследования пациента с БАС, система BCI для синтеза речи смогла точно воспроизвести слова, схожие с его естественной речью. На рисунке 2А представлены примеры оригинальных и синтезированных звуковых волн, показывающие сходство времени начала и течения слов. Анализ показал, что система синтеза соответствовала таймингу произношения слов.
На рисунке 2B видно, что спектрограммы оригинальной и синтезированной речи имеют много общих черт, сохраняя информацию о фонемах и формантах.
Информация о фонемах и формантах относится к ключевым элементам акустических характеристик речи, которые определяют, как мы воспринимаем различные звуки речи.
Фонемы – это наименьшие звуковые единицы в языке, которые могут различать значения слов. Например, в английском языке звуки /p/ и /b/ представляют собой разные фонемы, так как они различают слова "pat" и "bat".
Форманты – это резонансные частоты в голосовом тракте, которые усиливают определенные частоты звука, производимого голосовыми связками. Они играют важную роль в формировании гласных звуков. Каждая гласная имеет характерный набор формантных частот, которые помогают нам различать одну гласную от другой.
Проведенные тесты с участием слушателей подтвердили, что большинство синтезированных слов были понятны и могли быть правильно распознаны (достигли показателя точности в 80%).
Матрица путаницы на рисунке 2C показала высокую степень распознавания слов, за исключением одного, с очень высокой скоростью. Слово "Назад" распознавалось с низкой частотой, хотя и выше случайной, и чаще всего ошибочно принималось за слово "Налево". Отчасти это могло быть связано с близким расположением частот гласных формант в этих двух словах.
*Обратите внимание, что все ключевые слова в словаре были выбраны для интуитивного управления компьютерным интерфейсом, например, коммуникационной платой, и не были разработаны так, чтобы их можно было легко различить для приложений BCI.
На рисунке 2D представлены индивидуальные оценки точности слушателей, где каждый слушатель распознал более 75% слов.
Далее ученые провели анализ значимости, чтобы понять, какие участки мозга влияют на распознавание речевых сегментов. Они использовали технику из области обработки изображений, чтобы определить, какие "пиксели" вносят вклад в классификацию речи, в данном случае – какие области мозга активны во время речи. Эти данные помогли оценить влияние активности высокой гаммы в мозге (частоты 70-170 Гц) на моменты начала речи (PSO).
На рисунке 3B показан процесс оценки этого влияния. Сначала устанавливался момент начала речи, после чего вычислялись градиенты, указывающие на степень влияния каждого электрода.
Результаты представлены на рисунке 3A, где размер круга отражает силу влияния электрода, а цвет – время его максимального воздействия.
Анализ значимости показал, что действующая модель нейронного обнаружения голосовой активности nVAD использовала данные от широкой сети электродов, расположенных в моторной, премоторной и соматосенсорной областях мозга, для определения речи.
На рисунке 3C представлены результаты для трех электродов в течение одной секунды до PSO (момента начала речи), которые сильно влияли на предсказание начала речи. Эти данные, в сочетании с цветовой кодировкой с рисунка 3A, показывают, что модель nVAD эффективно использовала нейронную активность во время планирования речи и фонологической обработки.
Выводы
Я считаю, что ученым удалось продемонстрировать потенциал использования BCI в медицине: очевидно BCI могут значительно помочь людям с нарушениями двигательных функций, такими как пациенты с БАС, инсультом или травмами спинного мозга, восстанавливая их способность общаться и взаимодействовать с окружающим миром.
Но, также, применение BCI допустимо и в других сферах, например:
Протезирование: BCI используются для управления роботизированными протезами, позволяя пользователям управлять искусственными конечностями с помощью мыслей, что обеспечивает более естественное и интуитивное управление.
Реабилитация: BCI применяются для реабилитации пациентов после инсультов, стимулируя пластичность мозга и помогая восстановлению функций путем обучения мозга новым способам управления движениями.
Игровая индустрия и виртуальная реальность: BCI могут улучшить взаимодействие с видеоиграми и виртуальными средами, позволяя пользователям управлять игровыми персонажами или виртуальными объектами напрямую своими мыслями.
Образование и тренинг: BCI могут быть использованы для изучения процессов обучения и концентрации внимания, а также для разработки персонализированных обучающих программ.
Нейромаркетинг: Исследования с использованием BCI дают возможность лучше понять предпочтения потребителей и реакцию на рекламные сообщения, анализируя мозговую активность в ответ на маркетинговые стимулы.
Контроль состояния и стресса: BCI могут помочь в мониторинге умственного состояния, например, для обнаружения уровня стресса или усталости, что может быть полезно в автомобильной индустрии или для профессионалов, работающих в условиях высоких нагрузок.
Таким образом, BCI имеет значительный перспективы в вопросе улучшения качества жизни пациентов с различными диагнозами, а также повышения эффективности профессиональной деятельности и открытия новых направлений в технологическом прогрессе.
С основным исследованием Вы можете ознакомиться по ссылке: https://www.nature.com/articles/s41598-024-60277-2
На этом все!
Спасибо за прочтение, будем ждать Вас в комментариях :)