Как стать автором
Обновить
2339.37
МТС
Про жизнь и развитие в IT

Внутренний голос: как электроды и ИИ возвращают речь парализованным людям

Время на прочтение6 мин
Количество просмотров612

Представьте ситуацию: вы составляете фразу в своей голове, но произносит ее компьютерный помощник, а не вы. Для миллионов людей, которые лишены речи из-за паралича, инсульта или нейродегенеративных заболеваний, это становится реальностью. Импланты, сверхтонкие электроды и искусственный интеллект позволяют преобразовать электрическую активность мозга в слова. От калифорнийских лабораторий до российских стартапов — ученые и компании учатся возвращать голос тем, кто молчал годами. Сегодня предлагаю разобраться, как это работает и какие проекты меняют жизни уже сейчас.

Что за технология?

Созданные устройства умеют считывать электрическую активность той части мозга, которая управляет движениями мышц, необходимых для речи — губ, языка, гортани и лица в целом. Когда человек пытается говорить, электроды, имплантированные в мозг, регистрируют эти сигналы.

Продвинутые алгоритмы ИИ расшифровывают эти паттерны, преобразуя их в синтетическую речь почти в реальном времени. Технология опирается на глубокое обучение и нейросети. Их учат интерпретировать индивидуальные сигналы мозга, адаптируясь к каждому пациенту. Цель специалистов — создать систему, которая работает так же естественно, как обычный разговор, сохраняя интонацию и эмоциональную окраску.

Забегая вперед, о Neuralink я не рассказываю. Сегодня мы говорим о восстановлении речи, а Neuralink фокусируется на интерфейсах мозг-компьютер (BCI) для управления ПК и другими устройствами. Хотя их импланты с тысячами электродов теоретически могут поддерживать речевые приложения, публичные результаты Neuralink касаются других задач — например, управления курсором, а не синтеза голоса.

Примеры проектов

Исследователи и компании по всему миру разрабатывают нейропротезы речи, используя разные подходы. Но каким бы ни был проект, люди, потерявшие возможность говорить, снова получают шанс быть услышанными. Ниже — несколько примеров.

Университет Калифорнии, Сан-Франциско (UCSF)

С начала 2010-х годов команда под руководством нейрохирурга Эдварда Чанга в UCSF разрабатывает нейропротезы речи — имплантируемые устройства, позволяющие восстанавливать способность к речи у людей с параличом. В этом проекте работают ученые из Университета Калифорнии в Сан-Франциско и Беркли. Исследования финансирует Национальный институт — он занимается проблемами слуха и нарушениями общения (NIDCD).

Разработка основана на высокоплотных электродах, размещенных на поверхности моторной коры мозга. Как и писала выше, они регистрируют нейронную активность, связанную с речью. Сигналы обрабатываются в реальном времени с помощью глубоких рекуррентных нейросетей, преобразующих их в синтетическую речь.

Алгоритмы, аналогичные тем, что используются в голосовых помощниках, обеспечивают потоковое воспроизведение речи с задержкой менее одной секунды. Это суммарный технический лаг всей цепочки: от регистрации нейронной активности, ее обработки ИИ, декодирования в текст и генерации синтетической речи.

Пациентка с имплантатом, подключаемом к генератору голоса. Источник
Пациентка с имплантатом, подключаемом к генератору голоса. Источник

В апреле 2025 года команда под руководством нейрохирурга Эдварда Чанга опубликовала исследование в Nature Neuroscience, посвященное женщине, потерявшей речь 18 лет назад из-за инсульта. До операции пациентка не могла говорить. После установки имплантата ситуация изменилась: теперь она мысленно «произносит» фразы, используя специальный набор из 1 024 самых распространенных слов — именно на таком словаре ученые обучали систему. Последняя улавливает ее мозговые сигналы и превращает их в речь, которую слышат окружающие. Благодаря этой технологии задержка между мыслью и появлением звука сократилась с восьми секунд до одной, что уже близко к обычной речи. Скорость распознавания — 47,5 слов в минуту, это примерно треть от темпа нормального разговора.

Сейчас ученые хотят создать беспроводную версию устройства: его будет гораздо удобнее использовать. Еще ведутся исследования по передаче эмоций компьютерному голосу, но это уже следующий этап развития технологии.

Precision Neuroscience

Основанная в 2021 году в Нью-Йорке компания Precision Neuroscience разрабатывает интерфейсы мозг-компьютер (BCI) для клинического применения, включая восстановление речи. Она основана Бенджамином Рапопортом, который раньше был в команде Neuralink, и Майклом Магером. Precision стремится создать минимально инвазивные, биосовместимые и высокоточные нейроинтерфейсы для пациентов с неврологическими нарушениями.

Ключевой элемент системы — интерфейс Layer 7. Это тонкая микропленка толщиной в пятую часть человеческого волоса, содержащая 1 024 платиновых электрода. Гибкая структура повторяет изгибы тканей мозга. Ее устанавливают поверх коры через микроразрез менее 1 мм. Интерфейс умеет регистрировать и стимулировать нейронную активность, обеспечивая высокую точность обработки сигналов.​

Вот так выглядит установленный электрод в мозге человека. Источник
Вот так выглядит установленный электрод в мозге человека. Источник

Система использует алгоритмы искусственного интеллекта для обработки электрических сигналов мозга. Их преобразуют в команды или речь.

Компания провела испытания с 37 пациентами, а 17 апреля 2025 года получила разрешение FDA оставлять сенсоры в мозге до 30 дней. Генеральный директор Майкл Магер комментирует, что благодаря этому за год его команда сможет собрать самую большую в мире коллекцию точных записей мозговой активности. В будущем Precision хочет сделать все компоненты системы настолько маленькими и безопасными, чтобы можно было создать постоянные импланты и использовать эту технологию для помощи людям после инсульта или с боковым амиотрофическим склерозом (БАС).

Университет Калифорнии, Дэвис (UC Davis)

Лаборатория нейропротезирования UC Davis основана в начале 2010-х годов. Под руководством нейроинженеров Сергея Стависки и нейрохирурга Дэвида Брандмана команда ученых разрабатывает интерфейсы мозг-компьютер (BCI). В первую очередь для восстановления речи у пациентов с неврологическими нарушениями — паралич, БАС, инсульт.

Пациент испытывает возможности импланта. Источник
Пациент испытывает возможности импланта. Источник

Система использует имплантированные в моторную кору микромассивы электродов (Utah arrays): они регистрируют электрическую активность тканей мозга, связанную с попытками говорить. Алгоритмы глубокого обучения, включая сверточные и рекуррентные нейронные сети, обрабатывают эти сигналы, преобразуя их в текст или синтетическую речь. В некоторых случаях синтезированный голос моделируется на базе записей пациента до утраты речи. Это позволяет восстановить индивидуальные особенности звучания.​

В исследовании под руководством Сергея Стависки участвовал 67-летний мужчина с боковым амиотрофическим склерозом. Результаты весьма неплохие: точность распознавания речи до 97% и скорость произношения до 32 слов в минуту.

К сожалению, синтетический голос пока не передает интонацию и эмоциональную окраску. Команда работает над улучшением алгоритмов и электродов, чтобы цифровая речь звучала естественно, с возможностью контролировать высоту и ритм для пения или выразительного общения.

BrainGate

BrainGate — консорциум научных организаций, занятых восстановлением речевых возможностей парализованных пациентов. Начал работу в США в 2000-х годах при участии университетов Брауна, Стэнфорда, Массачусетса, Кейс Вестерн и других. Основная задача команды — создание интерфейсов мозг-компьютер (BCI) для восстановления речи, моторики и управления устройствами у людей с параличом, вызванным инсультом, травмами или нейродегенеративными заболеваниями.

Технология основана на имплантируемых микроэлектродных матрицах, которые устанавливаются в моторную кору мозга. Массивы фиксируют нейронную активность, связанную с попытками говорить или совершать движения. Данные с электродов анализируются с помощью нейросетей: сигналы декодируются в текст, команды для управления техникой или в синтетическую речь, зачастую на основе ранее записанного голоса пациента.

Проведение испытания. Источник
Проведение испытания. Источник

BrainGate провела клинические испытания. В 2023 году пациентка с БАС Пэт Беннетт смогла набирать текст со скоростью 62 слова в минуту буквально силой мысли. В 2024 году система декодировала полные предложения с точностью распознавания до 75% у пациента с полным параличом, синтезируя голос на основе его прошлых записей. Технологию клинически испытали на 20 пациентах, причем успешно.

НейроЧат

В России созданием интерфейсов мозг-компьютер для людей с тяжелыми нарушениями речи и движений занимается «НейроЧат». Цель — позволить пациентам с инсультом, травмами позвоночника и боковым амиотрофическим склерозом снова общаться, отправлять сообщения или управлять устройствами.

Клинические испытания технологии. Источник
Клинические испытания технологии. Источник

Что с перспективами

Обучение систем, показанных выше, дело небыстрое. Оно занимает десятки или сотни часов, пока пациенты мысленно «произносят» текстовые подсказки, а нейросети все это анализируют и обучаются. Для ускорения процесса команда под руководством Ника Рэмси исследует, насколько схожи паттерны моторной коры у разных людей. Если они близки, модели, обученные на предыдущих пациентах, могут сократить время подготовки для новых пользователей.

Есть еще одна проблема, связанная с оборудованием. Современные электроды не всегда способны точно уловить все нюансы мозговых сигналов, которые нужны для естественного звучания голоса. Ученые стараются создать более чувствительные датчики и улучшить алгоритмы, чтобы синтетическая речь стала живой и эмоциональной. Например, для генерации реалистичных голосов уже применяют современные нейросетевые модели — трансформеры (это тот же принцип, на котором работает ChatGPT от OpenAI).

Этические вопросы играют важную роль в разработке технологий восстановления речи. Ник Рэмси подчеркивает, что современные системы не способны и не должны декодировать все мысли человека — они работают только тогда, когда пользователь сознательно пытается что-то сказать. Это важно, потому что многие мысли озвучить не хотелось бы никому из нас. Так что такой подход гарантирует, что управление остается полностью под контролем пользователя.

Недостатков и проблем, конечно, много: технологии синтеза естественной речи на основе нейроинтерфейсов все еще в стадии развития. Но каждый новый шаг в этой области приближает будущее, когда утратившие голос пациенты снова смогут говорить.

Теги:
Хабы:
+5
Комментарии0

Полезные ссылки

Обходим подводные камни работы с UDA в коде на Lua для ScyllaDB: дружим Java-драйвер и пустые значения

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров372
Всего голосов 5: ↑5 и ↓0+10
Комментарии0

Пайплайн распознавания номеров транспортных средств: как это устроено

Время на прочтение7 мин
Количество просмотров2.2K
Всего голосов 23: ↑22 и ↓1+25
Комментарии1

Интеграция виджета обратного звонка МТС Exolve в документацию на MkDocs

Время на прочтение8 мин
Количество просмотров404
Всего голосов 5: ↑5 и ↓0+7
Комментарии0

Путь видео в онлайн-кинотеатрах от «стекла до стекла». Middleware — ядро, подписки, сервисы, витрина

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров737
Всего голосов 4: ↑3 и ↓1+4
Комментарии0

Приручая хаос: как структурировать процессы в эксплуатационных командах. Кейс МТС

Время на прочтение6 мин
Количество просмотров695
Всего голосов 3: ↑3 и ↓0+4
Комментарии0

Информация

Сайт
www.mts.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия