Comments 4
ЭЭГ (электроэнцефалография): Этот метод, наоборот, очень быстрый. Он с точностью до миллисекунд показывает, когда происходит активность.
Откуда там миллисекунды?
ЭЭГ определяет ритмы мозга, самые быстрые из которых 40Гц
Или Китайцы что-то другое на поверхности черепа научились мерить?
Надо будет внимательно прочитать, что именно они сделали и как проверили. Так как раньше, данные по визуализации получали не совсем из всего мозга, а скорее из ее части, которая кодировала сенсорные сигналы в подобие токенов. Зрительные области, где происходило кодирование сигнала. Это аналогично, как подключиться ко входу между штекером USB с камеры и входом USB. Поэтому надо смотреть, что именно китайцы сделали, а что журналисты преувеличили.

Что касается ЭЭГ, то он в лучшем идеальном случае сможем получить информацию из самого верхнего слоя 1, через который проходит модуляция нижних слоев другими участками мозга.
Но ЭЭГ улавливаем по сути ритмы, а не сигналы единичные нейронов. Поэтому может лишь указать, что сейчас внимание на деталях, на объекте и так далее.
Другая проблема, что во время стресса норадреналин к примеру, просто будет снижать уровень воздействия сигнала. А слой 1 играет большую роль через модуляцию сигнала нероймедиаторами. Во время просмотра яркого фильма (который выбрали), явно стресс будет скакать.
Поэтому хорошо бы детально проверить исследование и результаты. Чтобы не вышло так, что его результаты притянуты за уши, вольно интерпретировались, подсогнались или вообще журналисты не правильно поняли.
Меня тут очень смущает, как минимум экстрагирование результата 6 испытуемых на обобщенные результаты. В ЭЭГ исследованиях, за которыми я провел годы разбирая их и пробуя, были проблемы. Там часто встречалось такое, как "провели исследование на 8 иранских женщинах" и результат экстраполировали на всех. Проблем в таких результатах множество: малая выборка, слишком специфичная выборка, культурные особенности, постановка эксперимента исследования и так далее. Например, когда проверяешь, то легко может оказаться , что это реакция не на котиков, а на мерцание определенного цвета на изображении или лампы в помещении и так далее. Должно быть хотя бы 50 испытуемых разного возраста, пола, разных культур, в разных помещениях, с точным описанием протокола самого исследования. Иначе может они научились определять по видео их религиозное отношение и это влияет на предсказание.
Что они сделали на самом деле.
Использовали комбинацию fMRI и EEG, чтобы восстановить акустические характеристики услышанных звуков.
Анализировали мел-спектрограммы (представление звука, близкое к человеческому восприятию), чтобы сравнить оригинальные и восстановленные аудиосигналы. То есть это исследование об анализе слуха и связи зрительных зон и тех что связаны с восприятием речи.
Что в итоге выявили: что добавление данных из зрительных областей мозга (по fMRI) улучшает качество аудиореконструкции, что подтверждает взаимосвязь между слуховой и зрительной обработкой.
Хотя так же анализировали видео данные для реконструкции.
Но вот точные подробности, не совсем понятные. В плане обучения. Исследование реально интересное, но в нем не хватает деталей. Какие конкретно участки анализировали, как сопоставляли сигналы. Их архитектура раскрыта не полностью, так же мало сведений о том как происходило обучение, какие методы были при восстановлении данных. С их сайта я так понял, что они используют архитектура nerf (название по памяти не помню точно), так которая позволяет по фото восстановить данные об объекте (чтобы потом вращать его к примеру). В репозитории, который они привели только картинки из их исследования.
С одной стороны, работа проделана большая и результаты впечатляют. С другой, слишком мало подробностей. Пока из нее можно только сделать вывод, что учитываете зрительного сигнала, позволяет улучшить качество распознавание слышимой речи. Что логично (зрение модулирует слуховые сигналы), но подтвердили это экспериментом. Видимо зрение, позволяет усилить важные сигналы. ЭЭГ тут выступает в качестве ритмов, которые как раз позволяют синхронизировать данные аудио и видео (ритмы выделяют наиболее важные признаки, через усиление важных сигналов, как например механизм внимания в трансформерах). Это похоже на мультмодальные модели, где через cross -attention происходит интеграция одного типа данных в других.
ИИ читает мысли во время просмотра «Теории Большого Взрыва» с помощью фМРТ и ЭЭГ