В MIT разработали новый тип интерфейса, позволяющий превращать «мысли» в голос


    Арнав Капур, один из разработчиков нового типа интерфейса, демонстрирует работу устройства

    Инженеры MIT создали систему, которая транскрибирует проговариваемые про себя слова и предложения в текст. Для успешной работы системы ее носителю нужно четко проговаривать слова и фразы про себя. В этом случае начинают работать мышцы лица, горла и языка, отвечающие за речь. Они не работают в полную силу, а лишь активируются, чего вполне достаточно новой системе для «чтения».

    Со стороны это выглядит так — человек просто молчит, а система «говорит», вернее печатает. Разработка состоит из двух частей: гаджета, который необходимо носить на лице и специально «обученной» нейросети, которая анализирует получаемую информацию и ассоциирует ее с буквами и словами. Кроме того, интерфейс позволяет управлять гаджетами — переключать каналы на ТВ, вести учет затрат и вести вполне обычную активность.

    Гаджет, который нужно надевать на ухо, включает в конструкцию «костяной наушник», то есть наушник, проводящий звук по кости к внутреннему уху. Внешний канал остается открытым и человек слышит все, что происходит вокруг.

    Такая система весьма портативна и подходит для ношения как на улице, так и дома. Некоторые способы ее применения необычны. Например, можно играть в шахматы, проговаривая про себя ходы противника и получать помощь от компьютера.

    Использовать разработку можно не только людям с физическими проблемами, но и обычным пользователям в самых разных ситуациях. Задачей разработчиков было создание системы, которая позволяет улучшить способности человека, дополнить его интеллект и в некотором роде органы чувств.

    «Мы уже неспособны жить без смартфонов и других цифровых устройств», — говорит Петти Маес, один из участников проекта. «Но использование этих гаджетов мешает нам, необходимо прерываться для того, чтобы с ними работать. Например, идет беседа, и вдруг возникает нужда воспользоваться телефоном. Нужно его найти, взять в руки, ввести пароль и открыть приложение. Поэтому мои студенты и я долгое время экспериментировали с новыми типами систем и их форм-факторами, которые позволяют людям использовать преимущества современных технологий и сервисов, не отвлекаясь на, собственно, гаджеты».

    Результаты работы были доложены на конференции Association for Computing Machinery’s ACM Intelligent User Interface.

    В принципе, идея, предложенная учеными, не нова. Она появилась где-то в 19-м веке, а с появлением новых технологий над ее реализацией стали работать уже серьезно. В 60-х годах проговаривание про себя фраз и слов во время чтения стали считать сторонним фактором, который препятствует скорочтению (собственно, так оно и есть). Но у проговаривания есть свои преимущества, оно может использоваться при разработке компьютерных интерфейсов. Один из примеров был приведен выше.


    В ходе создания системы ученым понадобилось вначале понять, какие мышцы на лице человека задействуются в ходе проговаривания активнее всего. После этого стартовала разработка прототипа устройства для преобразования «мыслей в текст». Основным считывающим сигналы элементом системы были электроды в количестве 16 штук.

    С них снимали показания и сверяли с тем, что произносил про себя человек. Затем на основе полученного массива данных разработчики стали обучать нейросеть. Кстати, изначально устройство охватывало обе стороны лица. Но затем оказалось, что нейросеть преобразовывает сигналы в текст без проблем даже в том случае, если электроды находятся лишь на одной стороне лица. Поэтому для снижения габаритов системы ее уменьшили вдвое.

    Обучение нейросети начали с малого — всего с 20 слов. С течением времени словарь увеличивали, и нейросеть стала более «умной». По словам ученых, ее можно персонализировать под любого человека, увеличивая точность распознавания «мыслей». Чем больше будет тренировок, тем лучше сможет работать система.

    У разработчиков не было планов доводить ее до совершенства, это лишь proof-of-concept. Технология может использоваться во многих сферах, включая производство. Можно представить себе промышленное предприятие, уровень шума на котором мешает нормальному общению сотрудников по рабочим вопросам. В этом случае можно использовать такую систему. Аналогичная ситуация — с пожарниками или водолазами. Им не нужно будет говорить, система озвучит «мысли».

    Пока что о коммерциализации технологии речь не идет, но такое развитие событий тоже не исключается.


    Madrobots
    246,00
    Приближаем сингулярность за ваши деньги
    Поделиться публикацией

    Комментарии 24

      +2

      Интересно было бы, если бы они смогли уменьшить систему до размера слухового аппарата и без внешних датчиков на лице. Выглядит как-то громоздко пока. Также не ясна погрешность распознавания, насколько она выше/ниже чем у современных систем распознавания речи? Но вообще идея интересная.

        0
        Как минимум, на эту систему не действуют посторонние шумы. Плюс нет вероятности, что система услышит команду постороннего человека. Полагаю, у этой системы большое будущее, даже если точность распознавания ниже, чем у систем распознавания речи, она могла бы дать дополнительный канал управления, когда заняты все руки.
          0
          Они говорят о точности 92 процента, правда непонятно на каком словаре.
          0
          Сорри, но мне непонятно, что значит проговаривать «про себя». Тихо шептать? Или как можно проговаривать не открывая рта?
            0
            Двигать челюстью, языком и немного губами так, будто говоришь слово.
              +1
              Легко. Попробуйте прочитать этот текст так, как если бы вы говорили его вслух, но не открывать при этом рта, и не двигая намеренно языком. Если наблюдать за этим процессом внимательно, заметите, что язык (и другие ответственные за речь мышцы) все равно совершает микроскопические движения. Они и будут улавливаться датчиками.

              Вообще для «тихого» общения есть два основных подхода — (развивающийся сейчас) с помощью датчиков, считывающих активацию мышц, и с помощью обычных микрофонов (старые добрые ларингофоны).
              0
              Интересно, как отрабатывает эта распознавалка при жевании
                0
                «Ням-ням-ням»? ;)
                +2
                Даёшь технологию в массы!)
                image
                  0
                  Я вот не знаю ни одного человека, который бы пользовался голосовым управлением. А вот эта штука, у которой явно больше погрешность, и вообще бесполезной получается.
                    +1
                    Теперь видите, пол года пользуюсь алексой от амазона дома
                      0
                      Я уже несколько лет ежедневно пользуюсь Siri. Она всё ещё очень тупая, но тем не менее очень полезная. Начиная от набора голосом текстовых сообщений, Call my wife, Set an alarm for, Set a timer и заканчивая Take me home, Where is my wife? и Hey Siri, What time is it now?, когда валяешься на диване и смотришь какой-нибудь фильм по Netflix.
                        0
                        А немые люди?
                        +1
                        Вот и новые вершины для цензуры обрисовываться начали.
                          +1
                          Получился очень громоздкий и плохо держащийся лорингофон.
                            0
                            С такой штукой, когда доведут до ума, голосовое управление компом (да и не только) может получить шанс — станет бесшумным и помехозащищенным. Да и просто комфортнее, когда вслух не надо команды произносить. А если еще курсором можно будет управлять движениями глаз…
                              0
                              Так лорингофон уже сейчас доведен до ума.
                                0
                                С ним же придется вслух команды проговаривать… Представьте себе такой офис)
                                  0
                                  В том то и дело, что нет. Вы проговариваете слова, не выдавая воздух из легких, он реагирует на дрожание связок. После получасовой тренировки у вас это получается без слышимых звуков.
                            0
                            Слышал нечто подобное лет 5-7 назад.
                            Вот только гугл ничего не нашёл. Я из параллельной вселенной?
                              0
                              Я смотрел передачу, по-моему на Discovery, о чем-то похожем (только там на горло электроды были) где-то в середине 00-х.
                                0
                                Ничто не ново под луной. Достаточно открыть старый номер «Техники-молодежи»
                                tm.itizdat.ru/docs/Archive/TM_01_1994/41
                                  0
                                  Заголовок желтый, несмотря на кавычки.

                                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.