Активность мозга человека впервые транслировали в чёткую речь


    Схема метода реконструкции речи. Человек прослушивает слова, в результате активируются нейроны его слуховой коры. Данные интерпретируются четырьмя способами: сочетанием двух типов регрессионных моделей и двух типов речевых представлений, затем поступают в систему нейросетей для извлечения признаков, которые впоследствии используются для настройки параметров вокодера

    Нейроинженеры Колумбийского университета (США) первыми в мире создали систему, которая переводит мысли человека в понятную, различимую речь, вот звукозапись слов (mp3), синтезированных по мозговой активности.

    Наблюдая за активностью в слуховой коре головного мозга, система с беспрецедентной ясностью восстанавливает слова, которые слышит человек. Конечно, это не озвучивание мыслей в прямом смысле слова, но сделан важный шаг в этом направлении. Ведь похожие паттерны мозговой активности возникают в коре головного мозга, когда человек воображает, что слушает речь, или когда мысленно проговаривает слова.

    Этот научный прорыв с использованием технологий искусственного интеллекта приближает нас к созданию эффективных нейроинтерфейсов, связывающих компьютер непосредственно с мозгом. Он также поможет общаться людям, которые не могут говорить, а также тем, кто восстанавливается после инсульта или по каким-то другим причинам временно или постоянно не способен произносить слова.

    Десятилетия исследований доказали, что, в процессе речи или даже мысленного проговаривания слов в мозге появляются контрольные модели активности. Кроме того, отчётливый (и узнаваемый) паттерн сигналов возникает, когда мы слушаем кого-то или представляем, что слушаем. Эксперты давно пытаются записать и расшифровать эти паттерны, чтобы «освободить» мысли человека из черепной коробки — и автоматически переводить их в устную форму.


    (А) Сверху показана оригинальная спектрограмма образца речи. Ниже приведены восстановленные слуховые спектрограммы четырёх моделей. (B) Магнитудная мощность частотных полос в течение невокализованной (t = 1,4 с) и вокализованной речи (t = 1,15 с: промежуток показан пунктирными линиями для оригинальной спектрограммы ит четырёх реконструкций)

    «Это та же технология, которая используется Amazon Echo и Apple Siri для устных ответов на наши вопросы», — объясняет д-р Нима Месгарани, ведущий автор научной работы. Чтобы научить вокодер интерпретировать мозговую активность, специалисты нашли пятерых пациентов с эпилепсией, уже перенёсших операцию на головном мозге. Их попросили прослушать предложения, сказанные разными людьми, в то время как электроды измеряли мозговую активность, которую обрабатывали четыре модели. Эти нейронные паттерны обучали вокодер. Затем исследователи попросили тех же пациентов послушать, как динамики произносят цифры от 0 до 9, записывая сигналы мозга, которые можно было пропустить через вокодер. Звук, производимый вокодером в ответ на эти сигналы, проанализирован и очищен несколькими нейронными сетями.

    В результате обработки на выходе нейросети был получен голос робота, произносящий последовательность чисел. Для проверки точности распознавания людям дали прослушать звуки, синтезированные по их собственной мозговой активности: «Мы обнаружили, что люди могут понимать и повторять звуки в 75% случаев, что намного выше и превосходит любые предыдущие попытки», — сказал д-р Месгарани.


    Объективные оценки для разных моделей. (A) Средний балл по стандартной оценке ESTOI по всем испытуемым для четырёх моделей. B) Охват и расположение электродов и оценка ESTOI по каждому из пяти человек. У всех оценка ESTOI вокодера DNN выше, чем других моделей.

    Сейчас учёные планируют повторить эксперимент с более сложными словами и предложениями. Кроме того, те же тесты запустят для сигналов мозга, когда человек воображает, что он говорит. В конечном счете они надеются, что система станет частью имплантата, который переводит мысли владельца непосредственно в слова.

    Научная статья опубликована 29 января 2019 года в открытом доступе в журнале Scientific Reports (doi: 10.1038/s41598-018-37359-z).

    Программный код для проведения фонемного анализа, расчёта высокочастотных амплитуд и восстановления слуховой спектрограммы выложен в открытый доступ.
    Поделиться публикацией

    Похожие публикации

    Комментарии 68

      +9
      Ещё несколько лет подобных разработок и хранить секреты на полицейском допросе станет горааааздо труднее. А шпионов будут обучать не только держать рот на замке, но и контролировать внутренний диалог.
      Прям готовый сюжет для киберпанка…
        0
        это пока попадает под 51 статью
          +1

          Так подозреваемый не обязан вести внутренний диалог. 51-я говорит, что человек не обязан. Но может, если хочет. Хочет вести внутренний диалог — пожалуйста.


          На практике конечно, может по разному повернуться, сильно зависит от первых попыток использовать. Будет ли общественное одобрение или нет. На всякий случай уточню, что я не про Россию. Первое практическое использование наверняка не здесь будет, а в США или Китае.

        +1
        контролировать внутренний диалог


        На самом деле — это основы медитации, так что сложного тут ничего нет и технология отработана.
          0
          Инетересно, что за технология. Про такую слышал

          www.youtube.com/watch?v=YMFgjuNWYgo
            0
            Поиск выводит на сборник из 101 техники остановки внутреннего диалога. На любой вкус.
            0
            Но это можно обойти, слегка ослабив самоконтроль человека медикаментозно. Технология отработана. Ну, товарищ майор так говорит, во всяком случае.

            В действительности, это не меняет сути — лгать можно и во внутреннем говорении. Вот если бы можно было подслушивать незаметно, неявно… Впрочем, к тому моменту, может мозги людей начнут программировать через эти же электроды. И не получится лгать после кодовой фразы произнесенной товарищем майором уполномоченным сотрудником органов правопорядка.
            0

            Помнится, у Бестера упоминался блок сочувствия — собираешься выдать секретную информацию и организм самоотключается

              0
              Вы не про трилогию про «Пси-Корпус» автора Киз Дж. Грегори?
                +1

                Альфред Бестер "Тигр! Тигр!" 1955

                  +1
                  Есть еще книга Рона Хаббарда «Поле битвы — Земля». Там у расы психлосов (это в переводе так, в оригинале вроде psyclos) каждому при рождении внедряли в мозги «предохранитель», который отрубал мозговую деятельность сразу как только начинаешь их спрашивать об секрете телепортации, который знали только они во вселенной этой книги. Причем, вживляли всем и отключались все, даже те, кто не имел отношение к инженерным наукам. Сами же они называли это «падучая болезнь». Сказал бы больше, но лучше прочтите книгу.
                    0
                    Когда-то очень давно в детстве видел фильм по этому роману. Хотя про сам роман узнал только что. Фильм смотрел очень давно, но запомнил что он был довольно глупым и не реалистичным. А про предохранители в мозгу вроде в фильме не было. Но сама идея выглядит глупой.
                    Во-первых, можно сразу вырубить психлоса пару вопросами, что как-то тупо для высокоразвитой расы. Во-вторых, даже сейчас любая сложная технология не может поместится в голове одного человека. То есть нужно было бы похитить сотни ученых-психлосов, которые знают про телепорт, чтобы хоть что-то полезное из них вытянуть. Я бы еще прикинул, что главный принцип технологии какой-то не сложный, но раз другие расы не додумались до этого, то вероятно там все сложно. А лучший способ похитить какую-то технологию это получить доступ до самого устройства и технической документации на компьютерах.
                    Поэтому с первого взгляда, всякие предохранители в каждом мозгу выглядят немного глупыми для этого конкретного случая. Возможно в книге это все как-то хорошо объясняется, но от прочтения отталкивает низкий рейтинг и громадный размер.
                    Роман содержит около полумиллиона слов и считается одним из самых больших однотомных романов в истории научной фантастики — 1039 страниц!
                      0
                      Так вышло, что я сначала прочитал роман еще учась в школе (не помню точно, но вроде 2 приличных тома было), а потом много позже увидел фильм. Это был форменный пипец. Он даже на 1% не приблизился к книге. Так что не удивительно, что даже без ознакомления с первоисточником фильм не зашел.
              0
              А шпионов будут обучать не только держать рот на замке, но и контролировать внутренний диалог.
              В одной из серий Mind Field Майкл пытался обмануть детектор лжи, основанный на распознавании сигналов P300 в ЭЭГ. Даже несмотря на умственные «меры противодействия», которые он использовал, машина безошибочно его вскрыла.
                0
                Только вот «детектор лжи» не детектирует ложь. Нет адекватных научных подтверждений того, что он работает.
                И суд не принимает его результаты в качестве доказательства.
                  0
                  А вот P300 детектирует, причем, это бессознательная реакция.
                    0
                    Этот конкретный полиграф, как и все остальные, всего лишь детектирует изменение различных параметров физиологической активности, а никак не определяет ложь.
                    Этим занимается человек. И этот процесс маппинга показаний прибора на вопросы весьма субъективен и ненадёжен.
                0
                Оно уже актуально еще с моего пятилетнего возрастаб раньше я просто не помню… Ничего нового, кстати и прорывного в этом посте не прочитал. Наверное Вам просто не рассказывали.
                  0
                  Простите, но в таком случае допрашивая меня из динамиков будет звучать несвязная речь про «Материнство, администратора, много секса, розового пони, указание вектора и прочая бранная речь.»
                  Таков мой внутренний диалог… Хотя внешне буду весьма респектабельно выглядеть.
                    0
                    шпионов будут обучать не только держать рот на замке, но и контролировать внутренний диалог


                    Есть вариант попроще: непрерывно ругаться мысленным матом на допросе. Перемежая гимнами, любовной лирикой и ГОСТами. Пусть ИИ мучается.
                      +1
                      Окклюменция же :)
                      0
                      Я в демонстрации четко улавливаю китайский акцент. К чему бы это?
                        +6

                        Шустрая бурая лисица прыгает через ленивого пса, шустрая бурая лисица прыгает через ленивого пса...

                          +3
                          — Сэр!
                          — Что?
                          — С прибором что-то не так! При ментальном допросе российский агент предлагает нам съесть ещё этим мягких французких булок, но в комнате даже нет хлеба!
                          — Мне кажется он першёл на латынь, помотрите на распечатку…

                          Распечатка:

                          Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
                          0
                          Самое интересное начнется когда появятся гарнитуры для телефонов, толпы молчаливых людей, и когда их начнут прослушивать.
                            +9
                            … и наказывать за мыслепреступления.
                              0
                              Наказывать неэффективно, лучше сразу ставить DPI-имплантант в ключевые точки мозга и блокировать всё запрещённое.
                                0
                                Но жестко блокированное, скорее всего, быстренько всплывет в форме голосового голюциноза. Т.е. срок эксплуатации такого «зомбика» будет не очень длинный. Но уродов это вряд ли остановит. Кто-то не из глупых сказал, что бог создал всех людей веселыми и счастливыми — пока они не начали лезть в настройки )))
                                  0

                                  Но зачем? Лучше сразу всё необходимое залить.

                                  +1
                                  Кто на Плюке правду думает? Абсурд!
                                    0
                                    Профилактика наше все. С детства люди будут носить шапочки и получать током за неправильные мысли. Глядишь и привычка выработается мыслить «правильно».
                                    +3
                                    Это всё-таки не мысли, а звук снаружи. Может они там, условно, проводки на входе слушают. Ну, какой-то условный речевой анализатор в мозге научились дебажить. Это большой шаг, но это не мысленная активность. Мы вообще, проговариваем в мозге мысли? Или думаем образами, ещё фиг знает чем?
                                      0
                                      На картинках четко видно, с какой части мозга снимались данные. Кроме того, выяснили, что при внутреннем диалоге есть активность в областях, и создающих, и распознающих речь.
                                        0
                                        Активность-то есть, она есть всегда где есть ассоциации, вопрос на сколько она применима для синтеза…
                                        ИМХО было-бы гораздо интереснее прикрутить подобную систему к центру Брока, из которого вполне можно синтезировать речь, было-бы и людям полезно, и не так банально.
                                          0
                                          А потом бы еще об этом написали статью на Хабре… Стоп, вот же она!
                                            0
                                            Таки, да! Но радоваться рано, ибо эти эксперименты были кратковременны и у людей не было проблем с речью. Людям вообще свойственно магическое сознание, причина-следствие, не не слышал.
                                            То есть, если у человека были травмированы в хлам связки, а система была обучена предварительно, ему можно помочь… (только где такого найти)
                                            В случае-же банального постинсульта, проблемы начинаются как раз в голове, и даже предварительно обученный девайс не поможет.
                                        0
                                        В основном да, мышление неразрывно связано с речью.
                                        0
                                        РосМенталНадзор
                                        +1
                                        Это нета же новость? habr.com/ru/post/435904

                                        Такими темпами популярной модификацией станет вживление металлической экранирующей сетки поверх черепа, чтобы никто не смог считать активность мозга.
                                          0

                                          достаточно шапочки из фольги

                                            0
                                            достаточно шапочки из фольги

                                            Неа. Ритмы мозга — это Вам не 50 Гц, а куда ниже. Если не считать слабости самого сигнала, то может 0.5 мм меди нужно будет. По поводу «сетки» не в курсе, но по идее сетка с «размером» пустых ячеек 1 длина волны, половина, треть или т.д. при той самой плотности (г/кв. см) может быть эффективной с точки зрения рассеивания сигнала.
                                            Ещё не забудьте, что шапочку нужно заземлять через толстый провод (может сечением 60 кв. мм) из хорошего проводника на конденсатор такой емкости, чтобы «половина периода мозгового импульса» не смогла зарядить его слишком сильно.
                                              +1
                                              У С. Лема упоминалось надеваемое на голову устройство из металлической сетки. К сетке подключался генератор импульсов, имитирующий мозговую активность новорожденного. Человек с такой сеткой на голове становился неинтересен рою микро дронов, отлавливающему по Планете разумных.
                                                0
                                                Если имеется в виду «уменьшить мощность излучения до уровня мозга новорожденного» — это может быть не очень опасно. Но так, я бы не рискнул себе «подделать энцефалограмму».
                                                0
                                                60 кв. мм?.. Вы так шутите?..
                                                От этих наводок ток дай бог микроамперы, там любой металлический волосок подойдёт!
                                                И, разумеется, по причине всё того же фантастически низкого тока никакой особо большой ёмкости не нужно.
                                                  0
                                                  Да это так, фантастический медный провод. Для применения в цепях на частоту 50 Гц. Если нужны большие частоты (типа колонок на 5 кГц), то внешняя часть провода (то есть кольцо сечением 0.6 кв. мм) будет изготавливаться из серебра.
                                                  Про низкий ток — это понятно. Главное — это прикинуть, что ток 1 мкА (средний за условные пол периода) за 1 с заряжает конденсатор на 1 мкКл. Это означает, что (при наличии такого фантастически высокого тока утечки) конденсатор на 1 мкФ будет заряжен на напряжение 1 В. Отсюда сразу нужно сделать 2 вывода:
                                                  1. Активное сопротивление провода на пути «сетка — конденсатор» должно быть существенно меньше 1 мкОм.
                                                  2. «Вместо мозга» не стоит подсовывать генератор напряжения на частоте 1000 ГГц, т.к. в случае наличия в нем большой мощности и способности меди провести такой ток (что есть бред) наш источник напряжения будет видеть конденсатор как КЗ. Нужно просто убедиться, что к-р имеет сопротивление обкладок не менее того 1 мкОм.
                                            +6
                                            Наконец-то я дожил до создания миелофона!
                                              0
                                              все упирается в ту же проблему — пока у нас не разработают технологию качественного и безопасного размещения электродов в головном мозге — все так и будет болтаться на уровне фантастики и редких экспериментов (( Все упирается в плотность электродов в мозге и думаю, что даже сейчас технологии уже позволяют и техническую телепатию и даже снятие изображения с мозга, более того снятие воображаемого изображения с мозга, включая сны. Ну и нормальный нейроинтерфейс так же можно замутить… собственно пресловутая нейросеть, про которую пишут в каждой второй фантастической книжке — есть сеть электродов покрывающая разные отделы мозга, совмещенная с нейросетью, которая индивидуально обучается распознавать все сигналы с электродов конкретного человека.
                                              Будущее гораздо ближе, чем может показаться и если задаться такой целью, отбросив глупые моральные ограничения — то имплантируемые в мозг нейросети первого поколения можно создать лет за 10-15 — вместе с интерфейсом и возможностью передавать, записывать и получать не только звук и изображение но и запахи, вкусы, эмоции…
                                                0
                                                глупые моральные ограничения

                                                Какие например? Может, вы о правовых ограничениях?
                                                0
                                                Ждём новых законов про прослушку мыслей от Мизулиной и Яровой?
                                                  +4
                                                  С обязательным хранением года внутреннего монолога?
                                                  +2
                                                  Так, миелофон есть, где флиперы, автоматы с бесплатным мороженным и космические пираты?
                                                    +8
                                                    Новости из будущего:

                                                     Вчера депутатами Межгалактической Думы одна тысяча четырёхсот восемьдесят восьмого созыва был принят сразу в трёх чтениях законопроект, предусматривающий хранение мыслезаписией граждан за последние 6 месяцев и предоставление их правоохранительным органам в случае возникновения обоснованных подозрений в покушении на мыслепреступление.

                                                     Как пояснил спикер парламента Р. Белоусов-Жаботинский, данные меры направлены на защиту детей от участившихся в последнее время преступлений на почве здравого смысла. Законопроектом также предусмотрены льготы для пенсионеров и ветеранов освоения Марса.

                                                     По мнению допрошенных экспертов, данный законопроект не нарушает конституционной нормы на свободу мысли.

                                                    Мнение экспертов, избежавших ареста, пока неизвестно.
                                                      0

                                                      Не могли бы вы пояснить на какую часть этой истории пенсионеры и ветераны освоения Марса получают льготы?
                                                      Я не для себя спрашиваю.

                                                        0
                                                        Неужели для Илона, нашего, Маска?
                                                      +4
                                                      Удивили ежа голой задницей! Для тех кто не в теме, поясню суть происходящего:
                                                      Динамик воспроизводит звук, ухо его физически «слышит» дофига-полосным анализатором спектра, каждая полоса которого передаёт в мозг амплитуду сигнала как частоту импульсов по отдельно взятому нервному волокну. Совокупность этих волокон образует кабель, слуховой нерв, который через некоторое подобие коммутатора, иннервирует ту самую часть коры, которую накрывают растром электродов…
                                                      Таким образом, спектр слышимого сигнала, проецируется в пространстве «слуховой коры» (где он весьма разнесён в пространстве нервных колонок), откуда считывается и поступает в искусственную нейросеть, которая с одной стороны снижает шумы, с другой разворачивает сигнал в линейное пространство, что бы его можно-было отправить на вокодер…
                                                      Всё, никаких чудес, тут нет, похожие опыты проводились ничего удивительно в них нет, со звуком всё просто, чего не скажешь о зрительной коре, где ИНС-бы реально пригодилась, и собственно, но об этом тссс…

                                                      Никаким чтением мыслей, тут и не пахнет, это простое подключение к слуховому нерву, не более.
                                                      Внутреннего приговора, в этом месте нет, оно есть в других, но с ними как и со зрением, всё пока сложно.
                                                        0
                                                        Кмк, это чисто техническая статья. Выводы следующие:
                                                        1. Нынешней электрокортикографии достаточно для задачи реконструкции сложного аудиторного стимула
                                                        2. Спектральные характеристики сигнала — тоже достаточно high gamma, до 150Гц. т.е., возможно, что семплить больше 1000Гц и не нужно.
                                                        3. Архитектура классификатора, что на первых, что на последних слоях.
                                                        4. Количество и плотность электродов + время обучения

                                                        Кароче, это такие технические моменты, которые мало где освещены. А в функциональных экспериментах они проявляются хорошо. Можно транслировать метод в моторную кору и посмотреть эффективность в какой-нибудь задаче управления протезами. Но, в статье не проведен детальный анализ классификатора, нет анализа информации активности vs стимул. Это уже могло бы дать инфу о кодировании, хоть какой-то фундаментальный профит.
                                                          0
                                                          Но, в статье не проведен детальный анализ классификатора, нет анализа информации активности vs стимул.

                                                          Люди прекрасно понимали, что делали, а если заняться анализом то отсутствие какой-либо новизны, станет слишком очевидно.
                                                          Растры электродов, они не вчера появились, просто настоящие учёные, они стремятся к новому, врачи к полезному, а университетские задницы к грантам, вот и пилят публикации ради публикаций, на популярные темы…

                                                          1. в 70-х это можно было сделать, только нафига?
                                                          2. а это вообще со времён первых энцефалограмм, транскраниальные они у медиков
                                                          3. для профессионалов, глубоко понимающих математический смысл, это совершенно тривиальная задача, экспериментом её решают только люди не далёкие
                                                          4. вот как раз, когда у нейрофизиологов была мода на картирование мозга и его гистологию, с этим тоже стало всё понятно
                                                        –6
                                                        Могу поспорить на женском мозгу случится stack overflow =)
                                                          0
                                                          Это всё очень круто для людей, потерявших речевую функцию после инсульта и т.п. При этом в оригинале статьи всё-таки ключевой момент такой «but instead could be translated into verbal speech at will» At will — то есть исследователи все-таки не хотят прослушивать все мысли (там ведь такой поток сознания беспорядочный и сложный зачастую), а именно переводить конкретные мысли в слова по воле человека.
                                                            +1
                                                            Увы, инсульт, он как раз таки в голове, в зоне отвечающей за моторику речи…
                                                            … а тут вселишь зона куда приходит слуховой нерв, никаких мыслей, и даже проговоров про себя, тут услышать нельзя, только то, что слышит ухо, и не более того ;-)
                                                            0
                                                            Скрипач: Вот потому, что вы говорите то, что не думаете и думаете то, что не думаете, вот в клетках и сидите. И вообще, весь этот горький катаклизм, который я тут наблюдаю… и Владимир Николаевич тоже... — Кин-Дза-Дза
                                                              0
                                                              А как на счет обратного процесса на том же принципе, где мозг возбуждается определенным образом и для сознания формируется «свой голос» в голове?
                                                                0
                                                                Вы хотите быть добровольцем?
                                                                  0
                                                                  Нет. Главное чтобы мы все незаметно не стали невольными добровольцами. Логика подсказывает, что принципиально это становится/стало достижимо.
                                                                    0
                                                                    Уже в серии! www.popmech.ru/weapon/news-461502-rossiyskie-fregaty-poluchili-oruzhie-vyzyvayushchee-toshnotu-i-gallyucinacii

                                                                    Фрегаты ВМФ России оснастят станциями визуально-оптических помех 5П-42 «Филин». Это оружие способно вызвать галлюциногенный эффект, тошноту, головокружение и дезориентировать в пространстве.
                                                                      0
                                                                      Ну стробоскопический эффект может дать неприятные ощущения. А вот от монитора 60 Гц кажется пульс у человека не очень сильно меняться будет.

                                                              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                                              Самое читаемое