Как стать автором
Обновить

Комментарии 49

И никто не предположил, что мозг сначала классифицирует объект, а потом игнорирует мелкие изменения.

собственно, это и изложено. Классифицировать объект в каждый конкретный момент времени (кадр) — крайне высокая нагрузка. Потому для классификации объекта во времени как раз и требуется усреднение кадров.

Не точно таким же, но в чём-то похожим, образом поступают и в придуманных алгоритмах. Скажем, «круговой обзор» на современных ситроенах реализуют именно так, одной камерой, усредняя общую картинку во времени. При движении изображение сбоку формируется из изображения сзади/спереди за прошедшие секунды.
И да, там тоже «гориллу можно и не заметить».

Он каждый раз и классифицируется. Либо похож на тот, что был в близком месте, либо не похож и разбираемся на что похож. Делается это за доли секунды и не требует никакого сглаживания на 15 секунда, которое само по себе вышло бы куда дороже.

Он каждый раз и классифицируется.
только в зоне бинокулярного зрения. Там как раз есть возможность сверить образы из правого и левого поля и свести их к единому объекту. Чем дальше от этого поля — тем в большей степени для сведения/классификации используются не левый+правый кадры, а свежий+прошедшие.
Кстати, то же самое и в упомянутом круговом обзоре ситроенов: изображение непосредственно сзади — непосредственно же с камеры и показывается, а, чем глубже сбоку — тем оно фактически старее.
Но вернёмся к биообъектам.
Одно из самых распространённых объяснений ДТП на перекрёстках: «он так летел, что я его просто не увидел».
Объекты вне поля бинокулярного зрения, двигающиеся быстрее 40км/час, уже не распознаются — этот известный эффект можно считать другой формулировкой описываемого в посте лага. У собак, кстати, та же фигня, у кошек и вовсе граница в районе 20км/час, а вот у грачей даже выше 100км/час (у птиц вообще зрение получше нашего).

Про бинакулярное зрение можете рассказать пиратам - они любят хорошие шутки.

А ещё можете сами закрыть один глаз и походить по улице, чтобы убедиться, что всё прекрасно распознаётся.

Поле бинокулярного зрения — зона перекрытия областей предельной остроты зрения (жёлтое пятно). Так что даже один глаз в своей части этой зоны выдаёт картинку значительно лучшую, чем в остальных.
Но Вам, похоже, нужно не только устройство и работу глаза подизучать?

С одним глазом я постоянно спотыкаюсь - не распознаю рельеф тропинки/тротуара. И знакомых распознаю намного хуже. И вообще, пока ходил (из-за травмы) с повязкой на "ведущем" глазу, испытывал ощутимый дискомфорт - даже читать было сложно.

Сложно и неприятно, правда? Даже с современной технологией всё слишком мыльное при свободном движении. Цвета сливаются, а формы искажаются.

Во-первых не особенно, во-вторых это вызвано двумя факторами: задержкой видоискателя на типичном смартфоне и искажением перспективы, когда смотришь на спроецированную картинку.

Взять режим passthrough в VR шлеме, который на линзы быстро и правильно проецирует картинку с внешних камер устройства, и в нём вполне комфортно ходить по квартире. Несмотря на ужасное качество чёрно-белых камер в потребительских VR-шлемах.

Все объекты постепенно меняются, комната из начала и из конца ролика — очень сильно непохожи. Но поскольку происходит это постепенно, градиентом, мы (в среднем) ощущаем комнату неизменной.

Эта иллюзия объясняется физиологией зрения, у человека область чёткого зрения составляет 6 градусов, поэтому мы сначала быстро пробегаем взглядом по картинке, чтобы "просканировать" объекты, а затем мозг использует память + очень-очень размытую картинку с периферийного зрения, чтобы воспринимать ту часть сцены, которая находится за пределами чёткого зрения. Поэтому, можно либо сфокусироваться на одном объекте и заметить одно какое-то изменение, либо быстро бегать взглядом в поисках необычностей (как говорит нам "задание" перед видео) и не увидеть вообще ничего, т.к. на видео изменения намеренно очень медленные.

Ученые говорят, что эту иллюзию стабильности нельзя объяснить пассивной «слепотой к изменениям». И это не «слепота по невнимательности»: люди действительно смотрели на этот объект, ничего другого в кадре не происходило. И всё-таки их ощущения были искажены.

Скорее всего, этот эффект специфичен именно для восприятия лиц, у человека отдельный механизм отвечает за восприятие лиц (из-за чего на неправильные лица физически неприятно смотреть). И именно для восприятия такой мелкой детали как возраст. Сложно представить, например, что бубновый валет меняется на даму пик и человек ещё 15 секунд этого не замечает :)

Итого, я бы сказал, что были выбраны разные эксперименты, показывающие разные эффекты, неверно обобщены и был сделан неверный вывод.

На диплопию неприятно смотреть не потому, что "лица неправильные", а потому что понимаешь, что объект один и тот же, но не можешь понять где он находится и постоянно сбиваешься то на один слой изображения, то на другой.

Может там пример и не верный, но то что за лица отвечает другой отдел - это правда. Есть ведь повреждения мозга при которых:

1 вариант - у человека не наблюдается отклонений, он видит лица и может их описать, но совершенно не узнает кто это

2 вариант - он видит родственника или близкого друга, узнает его, но у него ощущение что это кто-то другой, очень похожий/двойник/"подменыш".

привет, даже добавлю: мы по всей видимости, левую-правую часть лица видим разными областями мозга, сшивая их вместе где-то еще. У меня эпилепсия, во время перед припадком я не вижу левых половин лиц людей. Вижу морду собаки и лица на фото или телефоне. Реальные лица распознаются чем-то совсем иным похоже

Мне кажется, что все значительно сложнее. Наш мозг не просто видит изображение, он строит модель окружающего мира. Воспринимаемый нами мир кардинально отличается от двумерного изображения, спроецированного на сетчатку глаза. Он трехмерен, наполнен предметами и объектами, в нем практически отсутствует вертикальная перспектива. А если мы повернем голову, то интерьер и все предметы останутся на своих местах, что разительно отличается от поворота в компьютерных играх.

При построении модели окружающего мира лишь часть информации поступает от наших глаз, а другая часть из нашей памяти. К тому же, частота нервных импульсов нейронов не превышает 1000 герц, человеческий мозг силен лишь высоким распараллеливанием процессов. Поэтому логично, что некоторые сложные подзадачи восприятия окружающего мира, не являющиеся критически важными, могут требовать нескольких секунд на обработку.

Мозг постоянно составляет мозаику из маленьких кусочков, угловой размер которых соответствует макуле (центральной зоне сетчатки). Т.е. мозг наблюдает мир как через мутное стекло с маленьким прозрачным окошком. Этот эффект "замочной скважины" можно почувствовать в полной мере при разглядывании стереограмм. Т.к. участок с полноценным бинокулярным зрением имеет ещё меньший размер, на то, чтобы полностью рассмотреть 3D-форму, может уйти полминуты или больше.

НЛО прилетело и опубликовало эту надпись здесь

а самые продвинутые ещё могут отрендерить то чего не было в реале в материи, это самая малоизученная часть жизни, курица не кушает кальций а яйца в скорлупе, волшебство

Пожалуй, соглашусь - когда стал водить машину (а со мной это случилось уже после 40 лет), первое время очень уставал от "построения модели окружающего пространства", т.к. строил модель весьма подробную, что полезно для пешехода или велосипедиста, но избыточно для автомобилиста. Со временем перестал отслеживать окружающее пространство столь детально, что позволило совершать поездки на приличные расстояния (более 500 км, против раннего предела в 60), но зато теперь, когда еду на велосипеде, перестал замечать бабочек/жуков, идущих на столкновение, которых раньше видел за много секунд (15-40) до сближения...

В общем, по мнению ученых из университета Абердина и Калифорнийского университета в Беркли, — мы все постоянно смотрим на 12-15 секунд в прошлое, и за счет этого получаем качественную картинку.

Что-то я не пойму, а как тогда самолеты летают и не врезаются в землю. С автомобилями еще понятно что все такие тормоза и поэтому аварий не случается. Но как с самолетом быть? Если пилот смотрит на 15 сек в прошлое.

с самолётами как раз проще. Скорость выше — но и расстояния больше. А уж опасностей сбоку меньше на несколько порядков.
В изложенном — нужно понимать — речь идёт не об отставании во всех точках картинки, во всех объектах, а в целом. В поле бинокулярного зрения всё гораздо быстрее — но оно весьма узкое.
НЛО прилетело и опубликовало эту надпись здесь
Во-первых, по времени от ошибки до краха всё равно получается гораздо мягче, чем в автомобильном движении.
Во-вторых, речь ни в посте, ни в комментах не идёт о том, что вообще вся картинка сформирована с лагом в 15 секунд. Как раз в авиации известен «туннельный эффект», когда пилот активно обрабатывает непосредственную задачу и напрочь не замечает остального. Вот это «напрочь» как раз и уходит в те 15 секунд.

там ещё проще, с некоторого опыта, вырабатывается модуль предсказаний, это как стрелять с упреждением

модуль предсказаний
он есть, встроенный. Попробуйте на ярком солнце закрыть глаза и продолжить идти или поворачиваться. Не только перед глазами будет какое-то время изображение, но и смещаться-поворачиваться оно будет, пересчитанное по инерциальным датчикам.
А ещё есть пилоты Формулы 1, которые 15 секунд назад были в километре от нынешнего местоположения :-)

Они просто за 15 секунд до поворота поворачивают руль.)

Рискуя показаться неполиткорректным, все же замечу, что девушка на видео азиатской внешности, а об этническом составе исследуемых групп людей ничего не сказано, по крайней мере, здесь. Из обывательского опыта замечено, что не азиатам распознавать возраст азиатов, как правило, довольно сложно, и это может влиять на результат.

НЛО прилетело и опубликовало эту надпись здесь

Пора вводить термин "нетфликовцы", потому что тут же добавляются еще и корейцы.
Лично я кстати вообще не понимаю как можно перепутать корейца\японца\китайца, они сильно отличаются строением лиц (на мой взгляд). Хотя слепой тест не проходил, да, может быть заблуждаюсь :)
Вы попробуйте Бурята от Тывинца отличить .. вот где мой детектор ломается наглухо.

Скорее тогда уж дорамщики, но речь то не про национальность, а про возраст.

«А белые вообще все на одно лицо...»
Видео с комнатой да, хороший пример.
А вот с гориллой не совсем понял, ее же прекрасно видно на видео.

Когда о ней заранее предупреждают - то видно. А в классическом эксперименте участникам предлагают проверить свою внимательность, считая броски мяча. Результаты поразительные. Многие пропустившие потом утверждают, что им показали два разных видео.

Спасибо, теперь понял суть эксперимента )

Автор статьи наспойлерил. Про гориллу надо было в тексте после видео написать, а заголовок исправить - Знаменитое видео, в котором надо посчитать броски мяча.

Не заметить гориллу - это как баннерная слепота. Горилла мешает считать броски, так же как баннеры мешают читать.

Еще говорят, хороший рыбак никогда не заметит, что рядом деревня сгорела, потому что смотрит на поплавок.

Кстати, пересмотрел это видео еще раз, именно следя за мячами. Конечно я знал что будет человек в костюме гориллы и видел как он проходит, но не переводил на него взгляд. Обратил внимание, что периферическим зрением я не видел как он бъет себя руками по груди и не видел морду, только силуэт.

Думаю дело в этом. Думаю что человек не Видит глазами в реалтайме, он видит Мозгом. Т.е. картинка Создается в мозге и мы ее видим отуда, глаза занимаются только Актуализацией, по мере необходимости. Это уменьшает нагрузку на распознавание но тем самым и создает оптические иллюзии разного рода. Мозг не справится с прямым , постоянно включенным, распознованием всего поля зрения за разумное время. Это тоже можно наблюдатьнапример утром или после потери сознания- классический вопрос "где я?", задаваемый после долгой потери сознания, комы и прочего. Процесс Зрения -дополнительный, для распознавания, как и остальные источники информации.

Отсюда и эффект, который отмечают выжившие при падении с большой высоты или авариях на транспорте - "лечу/еду, и раз - выключили свет, очнулся уже тут".

Момент удара просто не успевает отразиться в сознании, оно выключается раньше, чем мозг обрабатывает поступившие данные. Учитывая скорость реакции человека на раздражители - минимум 0,1 сек., и скорость при падении с 20-го этажа в районе 30 м/с - последнее, что успеет теоретически отразить сознание, будет вид с высоты около 3 метров.

Угу, отсюда скорость рефлексов всегда выше обДумывания. Но... при этом появляется Предсказание - зная в целом поведение наблюдаемой системы можно предугадывать ее будущее состояние. Мораль - умные боксеры потенциально сильнее.

Или просто при ударе получает сотрясение, которое отлично очищает кратковременную память. Если перестараться — то эффект затягивается. Один знакомый после того, как приложился головой (благо ещё в шлеме был) пару дней (по словам друзей) жил в режиме золотой рыбки. Сами наблюдал это где-то в течении часа, когда каждые пару минут спрашивал, а что произошло?

Больше всего это заметно с VR шлемом. Когда он на тебе, все плавно и не дергается. Когда же смотришь трансляцию на экране телевизора того, что видит человек в шлеме, то порой тошнит от того, как все дергается и трясется. Можно посмотреть любую трансляцию на ютубе. Разительная разница восприятия.

Всё просто. Когда на тебе — движение согласованно со зрением и мозг прекрасно знает заранее, куда картинка уедет. Иначе даже просто читать текст на экране когда листаешь не ты — и то сбивает очень сильно. Если есть возможность листать в обе стороны. Если не угадываешь направление, то мозг какое-то время пытаеться заново склеить картину. Кстати шлем для этого не нужен. Любая экшн-камера на голове с отключенным или отсутсвующим(кто имел дело — знает :)) стабилизатором. Порой самому свою запись смотреть потом сложно.

При записи видео с рук даже со стабилизатором (гимбалом) невозможно избавиться от колебания картинки в такт с шагами. Особенно заметно, если идёшь к примеру вдоль ограды. Чтобы получить стабилизацию видео, эквивалентную той, что в мозге, снимать надо с дрона, проверено многочисленными собственными опытами.

Речь не о том. Когда движение плавное — восприятие так не рвётся. Даже обычный програмный стабилизатор делает картинку вполне преемлемой. Говорю как активный пользователь гопры начиная с первой. Стаб очень сильно помогает.

А подвес — так тут вопрос — о каком подвесе речь. Профессиональные бывают и 6-осевые (три поворота и три перемещения). Правда это огромная дура с космическим ценником. Можно увидеть в деле на бэкстейжах съёмок всяких фильмов.

Ну и в просто варианте есть способы. Можно просто на трос повесить, если камерой крутить не надо. Дёшево и сердито. На асфальте народ ещё со скейта или велика снимает. Тоже весьма ровно получается. Можно так же немного попрактиковаться и постараться шатать камеру с учётом шага. Большой вес камеры, кстати, сильно помогает. Правда и долго снимать с нормальной тяжестью сложно.
НЛО прилетело и опубликовало эту надпись здесь
Всё это не более чем дешёвые фокусы:

1) Лицо. Почему азиатское? А потому что даже сами азиаты не всегда могут сказать кто 40-летня мама, а кто её 18-летняя дочь (если мама в офисах работала, а не в полях под палящим солнцем). Особенность такая у монголоидной расы.

2) Меняющаяся комната. Первое: в центре поставлен нифига не меняющийся яркий контрастный объект, который приковывает внимание, а все изменения происходят в области периферии. Второе — все изменения происходят крайне неестественным способом «плавного проявления» — специально избегают собственно движения, которое стригерило бы наш «охотничий» условный рефлекс.

3) Ну и с гориллой — всё уже давно разобрано. Классический «неуловимый джо»: очевидно что это не горилла, а человек в костюме. К людям в таких костюмах современный человек привычен — ничего сверхординарного в таком нет. Ну и люди играют/смотрят игру и на всяких придурков вокруг им просто наплевать. Поэтому увидели и через 5 секунд забыли за ненадобностью это помнить. Так мы забываем тысячи вещей каждый день ибо память не казённая.

Ну а с учётом, того, что на основе этих фокусов строится научная теория… Грусноватенько.

Когда я играл в пинг понг, я часто замечал, что я знаю где находится шарик, когда я его отбиваю и я знаю как его отбить и в 70% случаев я знаю куда он полетит. Это было 20 лет назад. Сейчас мой компьютер сбоит и я ошибаюсь более чем в 50% случаев. Причем я знаю точно где шарик, но не попадаю по нему. Возможно это неточная мышечная реакция, либо все-таки неправильное определение. Но шарик летит миллисекунды и вижу я его не четким зрением, да и невозможно его увидеть, слишком быстро летит.

И я никогда не мог запомнить лица. Если специально не вглядываться, мог забыть через 5 минут. Случались даже неприятности из-за этого. Но мог узнать человека по походке на очень большом расстоянии, когда его не различить. И я прекрасно запоминаю мелодии. У каждого свой компьютер и заточен по разному.

Описываемый эффект можно отнести к пространственно-временной суммации (нелинейной компрессии) информации в визуальном тракте известной давно, и широко исследуемой. Схематически это выглядит так

Источник J. Zhou at al., Compressive Temporal Summation in Human Visual Cortex (2017).

Абстрагирование (и классификация, категоризация) является естественным продолжение этого процесса в более высоких отделах мозга, отвечающих за построение и описание внутренней модели мира и собственного состояния субъекта. Это неудивительно, т.к. суммативные механизмы заложены на нейронном уровне, и эта суммативность эксплуатируется в формальных моделях нейронов в ИНС. Особенно ИНС сверточного типа, структура кот. подобна структуре вентрального пути зрительной системы.

Лет десять назад группа авторов даже выдвинула идею, что компрессия лежит в основе функционирования сознания, см. одну из их публикаций Compressionism: A Theory of Mind Based on Data Compression, наряду с другими многочисленными объяснениями этого феномена. Они назвали свой подход компрессионизмом. Если приведенная работа является больше методологической, то в этой делается попытка ее некоторой реализации.

 Сложно и неприятно, правда?

в VR шлеме при выводе на экраны вида с камер неприятно, но не сложно.

Но при этом профессиональный геймер видит изменения уже в интервале 10 мс. А обычный человек 100мс. Во всяком случае лаг в 100 мс. уже довольно заметен.

В статье реально все перемешано в кучу. Ни о каком лаге в 15 секунд вообще в принципе не может быть и речи, вы бы не смогли играть в тот же River raid или вести машину по однообразному шоссе вроде M-11 или ЗСД даже с задержкой зрения в 1,5 секунды.

Современная теория зрения гласит, что мозг непрерывно получает картинку и грубо говоря "привыкает" к ней, это отчасти верно. Мгновенность реакции и эффективная обработка потоковости же объясняется следующим механизмом: мозг на основании картинки "прогнозирует", что будет на ней в следующий момент. Если какая-то область изменяется относительно "прогноза", то только этот участок картинки "рендерится" в реальном времени, остальная же картинка берется от "прогноза", то есть тупо не выгружается. Это что-то вроде классической мультипликации, где вы перерисовываете только движущуюся руку или рот, не рисуя заново всего персонажа, а задник вообще нарисован акварелью и не меняется всю сцену. А вот так называемая тотальная мультипликация, где движется все в кадре, требует уже чудовищных трудозатрат и мастерства аниматора (и отмечается наградами). Заодно является хорошей иллюстрацией к тому, насколько неоптимально и энергозатратно было бы нашему мозгу рендерить каждый кадр в реальном времени.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий