Наш ответ Гогену. Часть четвёртая — слух, зрение и одна закономерность, присущая эволюции белковых нейросетей / Хабр

Это четвёртая часть истории о том, как природа постепенно училась исследовать саму себя. С третьей частью можно ознакомиться здесь.

Итак, предыдущую часть мы закончили описанием системы восприятия запахов. Но это лишь одна из систем коммуникации с внешним миром, причём, достаточно простая. Пора перейти к более продвинутым органам чувств - слуху и зрению.

Именно эти два канала сообщают нам большую часть информации о внешнем мире, помогая мозгу строить его адекватную модель. Действительно, запах может сигнализировать лишь о наличии какого-то важного для живого организма объекта, обычно лишь в непосредственной близости от него, в бинарной системе - есть или нет. При этом, расстояние до объекта определить можно лишь очень приблизительно, а направление на источник запаха находясь на одном месте определить практически невозможно. В отличии от обоняния, слуховая и зрительная системы сообщают мозгу гораздо больше информации, и она гораздо более конкретна.

Начнём со слуховой системы. Само ухо принято делить на внешнее (это то, которое у всех на виду), среднее, функция которого, по сути, заключается в передаче звукового сигнала от внешнего к внутреннему уху с помощью специальных косточек, и, собственно, само внутреннее ухо, в котором и расположены рецепторы звуковых волн. Внутреннее ухо имеет форму улитки и внутри заполнено жидкостью, которая передаёт колебания звуковых волн специальным чувствительным волоскам, расположенных группами на внутренней поверхности упомянутой улитки.

Каждая группа волосков настроена на резонанс с волнами определённой частоты, причём она по мере движения вглубь улитки постепенно уменьшается. В среднем, человеческое ухо способно воспринимать частоты от 20 герц до 20 кгц. Сигнал от тех волосков, которые были активированы пришедшей звуковой волной, передаётся далее на так называемые слуховые ядра, расположенные примерно на границе между продолговатым мозгом и мостом, то есть, недалеко от основания черепа.

,Впрочем, как говорится, лучше один раз увидеть, чем сто раз услышать, вот двухминутное видео, демонстрирующее всё вышеописанное весьма наглядно и не напряжно.

Нейроны, принимающие сигналы от аксонов улитки, расположены в слуховых ядрах не случайным образом, а строго упорядоченно - их локализация определяется высотой звука, на который реагируют соответствующие им рецепторы. Условно говоря, вначале идут те, что реагируют на самые низкие частоты, на грани инфразвука, потом частота регистрируемых волн постепенно повышается, пока не достигает области вблизи ультразвука. Такое упорядочивание называется тонотопическим.

Одна из основных функций слуховых ядер заключается в грубом определении направления на источник звука. Это достигается за счёт того, что в них передаётся информация от обоих ушей, которые, в принципе, обычно слышат примерно одно и то же, и поэтому по разнице во времени прихода сигнала в левое и правое ухо, хотя она и составляет менее одной микросекунды, можно примерно оценить направление на звук.

Кроме того, в случаях, когда источник находится сбоку, сигнал от ближайшего к нему уха будет ощутимо сильнее, чем от противоположного, которое при этом будет находиться в зоне акустической тени. Так же нейроны слуховых ядер умеют отличать источники звука спереди и сзади головы. За счёт всех этих эффектов, даже не поворачивая головы, человек с нормальным слухом обычно способен определить направление на источник звука с точностью до трёх (!) градусов.

От слуховых ядер информация об акустических сигналах поднимается выше, к четверохолмию, расположенному в среднему мозге. Как ясно из названия, этот отдел мозга внешне состоит из четырёх бугорков. При этом, нижние два холмика отвечают за обработку слуховой информации, а два верхних - визуальной.

В четверохолмии расположены нейроны детекции новизны, которые непрерывно сравнивают вновь поступившие сигналы с теми, что поступали в мозг несколько десятых долей секунды назад. Они срабатывают в том случае, если в сигнале произошли какие-то ощутимые изменения, например, появился какой-то новый звук, или резко изменилась громкость уже существующего до этого звука. В ответ на срабатывание упомянутых детекторов у многих животных происходит рефлекторный поворот ушей в направлении на звуковое событие (так называемый ориентировочный рефлекс). Это хорошо заметно, например, у кошек, откуда, видимо, и пошёл фразеологизм про "ушки на макушке". У нас уши уже утратили былую подвижность, и приходится в этих случаях поворачивать всю голову вместе с ушами.)

Каков механизм данного рефлекса на нейронном уровне? Здесь отрабатывает так называемый тектоспинальный тракт, который посылает соответствующий сигнал от среднего мозга в обратном направлении, к спинному мозгу, где его моторные нейроны отдают соответствующие команды мышцам ушей (если они подвижны), шеи и верхней части туловища. Видимо, эта информация с точки зрения эволюции так важна, что нуждается в немедленной рефлекторной реакции, ещё до того, как высшие отделы мозга попытаются понять что к чему.

Но оставим мышцам делать свою работу, а мы вместе со слуховым информационным потоком устремимся ещё выше, в таламус, находящийся в промежуточном мозге. Это последняя станция перед большими полушариями мозга с их неокортексом, которая ответственна за множество различных функций, но нас, в данном, случае интересует конкретно обработка акустической информации в медиальном коленчатом теле. Основная его работа заключается в контрастировании поступившего с нижних уровней спектра частот, то есть, пики на нём усиливаются, а шум между ними, наоборот, подавляется.

Кроме того, таламус, являющийся последней промежуточной станцией на пути акустических сигналов к коре больших полушарий, тесно связан на нейронном уровне с гиппокампом и лимбической системой. Здесь можно уловить тот же принцип, который мы уже видели при обработке информации о запахах - перед отправкой информации в кору головного мозга она может быть запомнена в случае, если имеет сильную эмоциональную окраску.

Важно отметить, что таламус в процессе своей работы тесно взаимодействует с корой больших полушарий, производя по её запросу дополнительную предобработку сигнала, облегчающую дальнейшую с ним работу в рамках конкретной задачи, решаемой в данный момент мозгом. Например, если вам нужно расслышать, что говорит ваш собеседник, одновременно активно работающий при этом отбойным молотком, из новой коры в таламус приходит указание приглушить звучание на низких частотах спектра, и, наоборот, усилить сигнал в той области спектра, которая характерна для голоса вашего собеседника. Короче говоря, таламус берёт на себя функции, аналогичные функциям звукооператора на концерте (всё уже придумано до нас!).

От таламуса информация, наконец, поступает в неокортекс. Там, в свою очередь, ей придётся пройти ещё три этапа обработки и анализа. В первичной слуховой коре расположены нейроны, настроенные на детекцию звуков строго определённой частоты (тональности), причём, с очень высокой точностью. По некоторым данным, люди с музыкальным слухом могут различать даже ноты, отличающиеся по высоте звука лишь на пол процента!

Далее информация от всех нейронов, сработавших в первичной коре, идёт во вторичную. В ней сигналы от отдельных нейронов, фиксирующих звуки определённой частоты, анализируются вместе, как некие паттерны более высокого порядка. В принципе, это похоже на применяемый в астрономии спектральный анализ вещества звёзд - по зафиксированным на определённых частотах спектра сигналам (полосам поглощения, характерным для конкретных химических элементов), определить класс звезды (см. рисунок ниже).

Определение классов звёзд по их спектрам поглощения. Взято с интернет ресурса phscs.ru

Подобно тому, как астрономы по спектру уверенно определяют состав внешних слоёв и класс звезды, удалённой от Земли на многие тысячи световых лет, так и наш мозг по набору тональностей дошедшего до наших ушей звука обычно уверенно определяет его возможный источник, который может находиться достаточно далеко.

Опознавание некоторых характерных звуков, которые эмоционально окрашены, и нужны для коммуникации между людьми (плач, крик боли и т.п.) прошито в нашем мозгу уже от рождения, но узнаванию и запоминанию большей части характерных звуковых сигналов, периодически встречаемых нами на протяжении жизни, мы учимся сами, начиная с раннего детства.

Наконец, из вторичной слуховой коры информация передаётся в третичную. Она пытается найти в информации, представленной вторичной корой, образы, соответствующие инвариантам более высокого порядка. Наиболее понятный пример такого образа или паттерна - соотношение тональностей, то есть, те звуковые паттерны, которые инвариантны относительно сдвига в логарифмической системе координат спектра частот, выдаваемого вторичной корой. Скажем, мы можем узнать одну и ту же мелодию, исполненную как на скрипке, так и на контрабасе, хотя диапазоны частот, которые можно извлечь из этих инструментов, почти не пересекаются.

Важной областью третичной звуковой коры является так называемый центр Вернике. Он отвечает за распознавание речи. Благодаря ему мы понимаем речь людей, говорящих с разной скоростью, имеющих разный тембр голоса, пол, возраст и особенности дикции. По сути, центр Вернике осуществляет преобразование сигналов из вторичной звуковой коры в набор объектов в виде слов, причём, оно инвариантно к массе других факторов, которые при данной обработке рассматриваются как помехи. Люди с повреждённым центром Вернике могут отлично слышать саму речь, но смысл сказанного от них полностью ускользает.

Недавно было проведено сравнение обработки и распознавания речи в мозге с аналогичным процессом, который происходит в типовой программе распознавания речи на основе рекуррентных нейросетей типа RNN transducer с шестью слоями. Так как в новой коре мозга тоже имеется шесть слоёв, было любопытно сравнить те признаки, которые формировались в процессе распознавания в каждом слое в белковом и кремниевом мозге. Как выяснилось, несмотря на ряд оговорок, основные этапы обработки в обоих случаях на удивление хорошо соответствуют друг другу. Весомый аргумент, что законы оптимальной обработки сигналов, приходящих из внешнего мира, в общем и целом близки и не зависят от конкретной аппаратной реализации базы, на которой они осуществляются.

Рассмотрим теперь, как происходит восприятием визуальной информации. Свет попадает на сетчатку, расположенную на дне глазного яблока, через зрачок, причём, следуя законам оптики, картинка туда доходит перевёрнутой кверх ногами. Непосредственно световые волны воспринимают рецепторы двух типов - палочки и колбочки. Палочки ответственны за информацию об общем уровне освещённости, а колбочки - за передачу информацию о цвете. Палочек у нас около 130 млн, а колочек гораздо меньше, всего около 7 млн. Сами колбочки бывают трёх разных типов, отличающихся длиной волны света, на которую приходится максимум их чувствительности.

А вообще, наши глаза способны видеть в достаточно узком диапазоне примерно от 400 до 700 нм, то есть в диапазоне, где длины волн отличаются менее, чем в два раза. Это разительно отличается, например, от слуховой системы, способной воспринимать звук в диапазоне, где длины волн отличаются примерно в 1000 раз. Тем не менее, зрительная система в итоге несёт в наш мозг гораздо больше информации, чем слуховая.

Сигналы от обоих глаз в виде двух нервных пучков далее идут в промежуточный мозг, но по пути частично обмениваются аксонами таким образом, что в правую половину мозга поступает информация из левой половины сетчатки каждого глаза, а в левую, наоборот, из правой половины сетчатки каждого глаза (соответствующая "развязка" называется хиазма). Это необходимо для того, что бы мозг впоследствии мог по разности картинок, наблюдаемых обоими глазами, восстановить информацию о расстоянии до наблюдаемых объектов, то есть, преобразовать плоское изображение в объемную сцену (стереозрение).

Далее информация расходится сразу по нескольким направлениям. Самый короткий путь от глаз проходят нервные окончания, которые обрабатывается в древней части промежуточного мозга - гипоталамусе, который является чем-то вроде связующего звена между нервной и эндокринной системами. Нервные центры, расположенные в этой области, реагируют только на изменение общей степени освещённости. Это нужно для регулирования суточных (день-ночь) и сезонных (времена года, грубо говоря) периодов мозговой и гормональной активности. С суточными всё более-менее ясно (сон-бодрствование и т.д.), а сезонные включают, в частности, активизацию половых инстинктов весной, впадение в спячку зимой, регулировку ежегодных перелётов птиц на места зимовки и обратно.

Другой пучок аксонов, как и в случае слуховой системы, направляется в средний мозг, а конкретнее, в уже известное нам четырёххолмие. И там оно тоже, как и в слуховой системе, выполняет важную функцию детектора новизны. Почему эта функция так важна? Дело в том, что для мозга наиболее интересна именно новая информация, то есть, когда в видеопотоке неожиданно что-то меняется. Например, появился какой-то объект на периферии зрительной зоны. Он ещё плохо виден, ещё непонятно, что это вообще такое, но зрачки глаз (а если нужно, то и вся голова целиком) уже рефлекторно поворачиваются в сторону нового объекта.

Примерно то же самое происходит, когда какой-то неподвижный ранее объект вдруг начинает двигаться в поле зрения (кстати говоря, лягушка, например, вообще видит только движущиеся объекты, остальные её мозг просто не интересуют!). Достигается это, как и в случае слуховой системы, благодаря сразу нескольким пучкам нервных волокон, которые отдают соответствующие команды мышцам, управляющим движением глаз и головы в целом напрямую, в обход новой коры больших полушарий. Так же средним мозгом отдаются команды глазным мышцам в том случае, если нужно сфокусировать внимание на каком-то объекте, находящемся достаточно близко от глаз, что достигается изменением формы хрусталика.

Третий (и основной) поток информации из глаз идет в таламус. Там он обрабатывается латеральным коленчатым телом, функции которого очень похожи на функции медиального коленчатого тела в слуховой системе, а именно, контрастирование сигнала, то есть, усиление его неоднородностей. Так же информация поступает в так называемую подушку таламуса, которая имеет связь с корой больших полушарий и участвует в интеграции зрительной и звуковой информации, узнавании предметов и некоторых других функциях.

Из таламуса, как и в случае звуковой информации, информация попадает в кору больших полушарий, а более конкретно - в четвёртый слой первичной зрительной коры (зона V1). На всякий случай напомню, что всего в неокортексе млеков обычно шесть слоёв, см. предыдущую главу. По сути, изображение проецируется на первичную зрительную кору по топографическому принципу, то есть, те области изображения, которые были расположены рядом на сетчатке, точно так же рядом расположены и в первичной коре. По аналогии со звуковой тонотопической картой, нейроны в которой упорядочены по возрастанию акустических частот, такое преобразование называется ретинотопической картой. Основное её отличие в том, что в ней нейроны упорядочены уже не в одномерном, а в двумерном пространстве.

Главным признаком, выделением которого занято большинство нейронов первичной зрительной коры, является детектор границ, то есть, тех областей изображения, в которых при сканировании в определённых направлениях яркость меняется особенно резко, скачком. Обычно эти зоны изображения соответствуют линиям или контурам различных объектов. Как показывают исследования, у человека неокортексом детектируются примерно 15 возможных направлений границ (контуров), что означает, что направления определяются с дискретностью примерно в 12 градусов.

Кроме линий (границ) в первичной зрительной коре вычисляются следующие основные признаки фрагментов изображения: пространственная частота (полезно для детекции текстур), детекция факта движения фрагмента в поле зрения и грубое определение его направления, диспаратность, цвет, разность в характерной яркости соседних областей.

После первичной зрительной коры сигнал передаётся во вторичную (зона V2). В ней на основе информации из первичной коры формируются уже более сложные признаки изображения, которые позволяют выделять на нём целостные объекты - восстановление (мысленная достройка мозгом) границ, которых фактически не видно, но по законам физики и оптики они должны быть, отделение объектов от фона, восстановление информации о глубине и объёме сцены на основе диспаратности, вычисленной в зоне V1 и информации от других признаках и т.д.

После вторичной коры информация, как и в случае слуховой цепочки, идёт в третичную. Там выполняются самые сложные задачи, обычно свойственные только людям, такие как, например, распознавание рукописных и печатных текстов, узнавание лиц родственников, знакомых и просто медийных личностей и т.д.

Подобно системе распознавания звуков, современные программы, использующие свёрточные нейросети, обрабатывают изображения во многом основываясь на методах, в некоторых отношениях схожих с соответствующими способами биологических систем, описанными выше, вот, например, одна из статей, в которой делаются соответствующие выводы.

Схема работы зрительной системы на нейронном уровне. Взято с интернет ресурса files.student-it.ru

Всё вышеизложенное относится к так называемому подходу снизу - вверх, то есть, от частного, к общему, он относительно хорошо изучен, по крайней мере, на первых этапах. Но зрительная система может использовать и подход сверху-вниз, то есть, помогать интерпретации изображения путём выдвижения и проверки гипотез, исходя из контекста. Этот процесс изучен гораздо хуже, чем восходящие потоки информации, но в пользу него говорит, например, тот факт, что кроме связей, идущих от таламуса к первичной зрительной коре, существует и большое количество обратных связей - от первичной коры к таламусу.

За недостатком места отсылаю интересующихся к одной из статей, в которой делается попытка разработки теоретического базиса, описывающего такие потоки. Если кратко, то, предположительно, информация, извлечённая на более высоких уровней абстракции, может понижать порог активности для срабатывания определённых нейронов на предыдущем уровне, как бы подталкивая его к отработке той или иной интерпретации, выбранной на более высоком уровне. Это можно наглядно проиллюстрировать на примере различных рисунков, для которых возможны две версии описания увиденного, и мозг способен переключаться с одной на другую и обратно.

William Ely Hill.My Wife and My Mother-in-Law

Скажем, на приведённом рисунке американского карикатуриста прошлого века Вильяма Хилла с говорящим названием "Моя жена и моя теща" возможны две интерпретации увиденного, и мозг может "видеть" либо одну версию, либо другую, но не обе сразу. Видимо, при построении модели увиденного где-то на высоком уровне в какой-то точке графа две опции интерпретации имеют сравнимые вероятности, и мозг в ней поворачивает то влево, то вправо.

По сути, работа зрительной системы, да и мозга вообще, это поиск новой информации, то есть того, что на каком то уровне не очень согласуется с нашим внутренним байесом. Например, мозг сканирует попиксельно картинку, и, положим, идут один за другим лишь белые пикселы. Вдруг, попался чёрный. Это информативное событие, на него надо обратить внимание. Пока всё ожидаемо исходя из аппроксимации, наш мозг не обращает на это внимания, но как только произошло нечто неожиданное, он сразу возбуждается, и сигналит об этом на более высокий уровень.

В конце-концов уже обработанная и обобщённая информация от большинства органов чувств, как рассмотренных нами (видео, звуки, запахи), так и других, оставшимися за пределами нашего изложения (вкус, тактильные рецепторы и т.д.) поступает в теменную ассоциативную кору, в которой окончательно и формируется единое, комплексное ощущение от объектах внешнего мира. Например, если мы видим на столе перед нами вазу с розами, и ощущаем запах роз, то мы имеем внутреннюю уверенность, что протянув руку к букету, мы можем почувствовать боль от укола шипами, а если мы видим перед собой кошку, то интуитивно понимаем, что она может мяукнуть, и для нас это отнюдь не будет сюрпризом. А вот если она вдруг залает, это будет очень неожиданным, сразу привлечёт наше внимание и напряжёт весь мозг в попытках объяснить это странное явление.

Для мозга всегда информативно что-то новое, что-то неожиданное. Скажем, мы стоим на берегу моря, и смотрим вдаль в подзорную трубу. Пока мы видим лишь волны и чаек, нас это не удивляет. Но если мы вдруг увидим на горизонте бригантину с алыми парусами, наверное, у нас, как у легендарной Ассоль, сердце забьётся чаще. При этом, неожиданным может быть не только событие, но и его отсутствие. Скажем, если утром Солнце в положенный час не взойдёт, эту будет супер информативное событие, так как его априорная вероятность субъективно оценивается как десять в минус огромной степени.

Вся собранная мозгом информация обобщается в единую модель мира, которая позволяет ему предсказывать, что произойдёт в будущем в той или иной ситуации, включая возможные действия самого обладателя мозга. Это, при желании, можно и считать сознанием, но при такой интерпретации сознание в явной или неявной форме есть у любого живого существа, ведь какая-то, пусть и самая примитивная, модель внешнего мира по сути уже записана в его геноме. Оставлю эту мысль читателям помедитировать над ней на досуге.)

Наконец, после обработки входящей информации, если существо, обладающее мозгом, ещё живо, ему нужно принимать какие-то решения и контролировать их исполнение, если что-то пойдёт не так. Как мы уже описывали выше, те решения, который нужно осуществлять срочно, реализуются даже без обработки в высших отделах мозга на уровне рефлекторных реакций (горячо - вначале отдёрни руку, а потом будем разбираться). Чем выше уровень обработки информации, тем больше времени обычно допустимо для размышлений о лучшем решении.

Обдумывание самых абстрактных мыслей без конкретных результатов может продолжаться очень долго. Скажем, Эйнштейн размышлял об общей теории относительности целых 8 лет, прежде чем сформулировать её окончательный вариант.

За составление планов действий, рассуждения, анализ потенциальных рисков и профитов у нас отвечают, большей частью, лобная доля и префронтальная кора мозга, но конкретные механизмы этих процессов пока ещё изучены очень слабо. С префронтальной корой так же связывают процесс принятия решений. На самом абстрактном уровне функционирование неокортекса в этом случае тоже можно представить как перебор вариантов действий и выбор в итоге лучшего решения по какому либо критерию.

Но долго ли, коротко ли, когда решение принято, его нужно исполнять, и тут, если оно требует конкретных мышечных действий, наступает очередь мозжечка. Он получает соответствующие команды от высших отделов мозга и приступает к их выполнению. В процессе работы мозжечок непрерывно сканирует информацию о текущем состоянии тех параметров тела, которые он регулирует, и сравнивает их с тем состоянием, которое требует от него инструкция, пришедшая из коры головного мозга. Разница между текущим и требуемым конечным состоянием рассматривается как ошибка, которую он в процессе управления мышцами непрерывно пытается минимизировать. Благодаря такому подходу команды, пришедшие сверху, выполняются быстро и точно, по крайней мере, если человек здоров.

Интересно, что относительно небольшой по размерам мозжечок содержит больше нейронов, чем кора головного мозга, ведь управление в реальном времен всей массой мышц, задача совсем не простая. Правда, по количеству межнейронных связей кортекс, видимо, всё же его обгоняет в несколько раз.

В общем и целом, складывается следующая схема работы мозга. Через соответствующие каналы на вход нервной системы подаётся информация от разных органов чувств: зрения, слуха, обоняния, рецепторов вкуса, осязания, чувства равновесия (его обеспечивает вестибулярный аппарат). В зависимости от её важности она может быть обработана как на низких уровнях нервной системы с активацией соответствующих мышц, часто даже без участия сознания, так и передана в обобщённом виде на более высокие уровни абстракции для дальнейшего обдумывания (либо и то, и другое, параллельно).

Наконец, с точки зрения информационных потоков интересно будет посмотреть, как в процессе эволюции менялось количество межнейронных связей среднестатистического нейрона, что можно рассматривать как показатель, являющийся условным аналогом доли информационных генов в геноме (см. первую часть).

Собрав данные из открытых источников в интернете, мы получим обобщённую таблицу, приведённую ниже.

Следует отметить, что приведённые выше цифры для домовой мыши и человека относительно среднего количества связей на нейрон носят весьма приблизительный характер, так как данные в разных источниках разнятся, видимо, в том числе, и в связи с технической сложностью подобных подсчётов. Тем не менее, тенденция налицо - у более продвинутых животных не только больше нейронов вообще, у них растёт и количество межнейронных связей в расчёте на один нейрон, то есть, они умнее не только за счёт, образно говоря, грубой силы, но и за счёт более сложной организации структур мозга.

На этом на сегодня всё, в следующей статье мы рассмотрим следующий виток спирали усложнения самоорганизующейся материи - коллективы животных, включая человека.