
Представлена TRIBE v2 — модель, которая предсказывает, как именно человеческий мозг отреагирует на любое изображение или звук. По сути, это цифровой двойник мозга: на вход подается видеоролик, а на выходе получается карта нейронной активности — какие зоны и насколько сильно "загорятся". Модель создана командой Brain & AI, входящей в Meta* FAIR (* — Meta признана экстремистской и запрещена в России).
Практический смысл TRIBE v2 — возможность проводить нейронаучные эксперименты in silico, без живых испытуемых в томографе. Например, можно быстро проверить, как мозг среднестатистического человека отреагирует на конкретный визуальный стимул. Потенциальные области применения — от интерфейсов мозг-компьютер до исследований восприятия и клинической диагностики. При этом TRIBE v2 — это не модель сознания и не "искусственный мозг": она предсказывает гемодинамическую реакцию (приток крови к активным зонам), а не мысли или эмоции напрямую.
Как это устроено: модель берет три потока информации из видео — картинку, звук и текст (субтитры или расшифровку речи) — и пропускает их через предобученные нейросети Meta* (V-JEPA 2 для видео, Wav2Vec-BERT для аудио, Llama 3.2 для текста). Затем трансформер объединяет все три модальности и предсказывает конкретные паттерны BOLD-сигнала фМРТ по всей коре.
Интересно, что первая версия TRIBE тренировалась на данных всего четырех человек, которые смотрели в томографе шесть сезонов «Друзей» и несколько фильмов, а мозг разбивала на 1 000 крупных участков. TRIBE v2 обучена на более чем 500 часах записей фМРТ от 700 с лишним добровольцев. Модель работает с кортикальной сеткой из ~20 000 вершин, умеет делать предсказания для незнакомых людей без дополнительной настройки и доступна для исследователей под некоммерческой лицензией.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
