Russian_rehab_industry Jul 2 2019 at 13:57

Пионеры новых технологий: Вадим Арцев рассказал, как перестал быть незрячим

4 min

16K

Реабилитационная индустрия России corporate blogBiotechnologiesThe future is hereMedical gadgetsPopular science

+56

Comments 52

kranid Jul 2 2019 at 14:45

Расскажите про то как это работает. Как далеко оно позволяет воспринимать объекты? на сколько хватает зарядки? Можно ли где-то послушать аудиозапись того, что слышит пользователь?

3lo1i Jul 2 2019 at 17:38

Я не могу утверждать за автора, что это сделано именно так, но для преобразования изображения в звук, его обычно превращают из двухмерного в одномерное кривой Гильберта, затем цвет или яркость пикселя определяет частоту: youtu.be/3s7h2MHQtxc
К сожалению, не нашел записи, как звучит изображение, конвертированное подобным образом.

DeepFakescovery Jul 3 2019 at 10:42

может сделаем опенсорс альтернативу для смартфона? в чем проблема картинку с камеры преобразовывать в звук в наушники.

UFO just landed and posted this here

Sadler Jul 3 2019 at 12:48

Тогда хорошо, что устройство из статьи её тоже не получает.

engine9 Jul 18 2019 at 20:53

Её можно получить «делая» шифт одного «глаза», покачивая головой в стороны.
Так делают одноглазые и еще так снимают стереопары на одну камеру.

Большая гифка!

Осторожно

Фокусное объектива 500 мм, стереобаза 50 см примерно.

DanilaMedvedev Jul 3 2019 at 11:59

Уже есть опен сорс версия от автора — Питера Мейера. Она базовая. В проприетарной есть много дополнительных примочек и алгоритм по мелочи много где улучшен. Плюс все андроид девайсы глючат по своему, поэтому для реального проекта нужен мейнтейнер, который будет с этими глюками разбираться.

Вообще можете легко в плеймаркете VOICE for Andoid найти и скачать.

VOISeVision Jul 2 2019 at 19:22

Ответы на ваши вопросы и аудиозапись в фильме «Видим звуком» youtu.be/5TdPNBpEbB

DmitrySpb79 Jul 2 2019 at 22:58

Video Unavailable

Redy Jul 3 2019 at 11:42

Последняя буква в ссылке потерялась.
https://youtu.be/5TdPNBpEbBg
На 28:05 то, что слышит пользователь.

VOISeVision Jul 3 2019 at 12:02

Вы правы, правильная ссылка youtu.be/5TdPNBpEbBg

Sadler Jul 3 2019 at 12:53

Я прослушал пример с пешеходным переходом, и у меня возник вопрос. Я слышу, что «сканирование» происходит слева направо раз в секунду. А не пробовали передавать всю картинку разом? То есть, чтобы «линии» разделялись только панорамированием, а не панорама + время. Или это будет слишком сложно для понимания?

lex4x Jul 2 2019 at 14:52

А можно больше технических деталей?
как оно работает?
почему эта достаточно громоздкая конструкция выполнена именно в таком фромфакторе, а например основной блок не вынесен например на пояс а датчики не выполнены в виде очков или подобным образом?
или может это просто прототип?..
ps: тема интересная, хочется больше технических подробностей

norguhtar Jul 2 2019 at 15:12

Не совсем понятно какой основной блок. Насколько я понимаю там состав камера + плата аля Rasberry Pi + батарейка + наушники. Что выносить будете и куда?

seeingwithsound Jul 3 2019 at 10:35

технических деталей (английский): www.seeingwithsound.com/android-glasses.htm

DanilaMedvedev Jul 3 2019 at 11:57

Причина №1 — социальная. Незрячие люди не хотят носить убогие уродские железяки.

Остальные причины. Пробовали разное, ключевой вопрос, где камера. Камера должна быть между глаз (нейрофизиологически надо так, пробовали). Соответственно нужно носить очки. Хорошие очки дают хорошую камеру. На дорогих девайсах есть всё встроенное, следовательно отдельный носимый блок это плохо. Да, в рабочих версиях использовался (и используется?) отдельный Raps Pi в носимом на поясе блоке, но идеально все держать в очках.

Russian_rehab_industry Jul 2 2019 at 14:53

Благодари вас за интерес! Узнать больше о технологии vOICe vision можно из нашего подробного разбора или на официальном сайте: voicevision.ru.

-5

Ti_Fix Jul 3 2019 at 09:37

К сожалению, в указанной вами статье нет подробного разбора, только общая информация. Хотелось бы увидеть больше технических деталей реализации.

GnuriaN Jul 2 2019 at 15:15

А человек который видил всегда, сможет научится пользоваться этими очками/технологией?

StriganovSergey Jul 2 2019 at 16:01

Думаю, да. Здорово научиться чувствовать пространство сзади, за спиной и с боков не оборачиваясь.
Или водителю чувствовать обстановку вокруг машины не глядя в зеркало. Короче, крайне полезная вещь должна получиться, если форм фактор исправить.

agoook Jul 3 2019 at 10:35

Похоже, что у вас тогда слух будет занят.

Nalivai Jul 3 2019 at 12:49

На фотках наушники с костной проводимостью, они звукам не мешают.

StriganovSergey Jul 3 2019 at 19:11

Как сделали разработчики я не знаю, но представляю себе это как генератор сигнала довольно высокой частоты, на верней границе слуховых возможностей человека. Поэтому на обычную речь и другие звуки влиять не должно.
Думаю там просто развертка как в телевизоре. Луч бегает сверху вниз, слева направо и меняет тональность и громкость в зависимости от расстояния.
Кстати, есть приделать инфракрасную камеру, то можно горячо/холодно отличать и в темноте видеть.

NioriX Jul 3 2019 at 10:51

Я думаю как раз на видящих и надо тестировать такие технологии, благо они не ничего не меняют на аппаратном уровне. Но ИМХО результативность технологии преувеличена. Я не отрицаю возможности воспринимать пространство в виде звука, мозг в случае нужды способен на невероятные вещи. Но вот качество оценить сможет только зрячий, и то не в полной мере, т.к. мозгу зрячего подобные финты не нужны, а значит обучаемость будет хуже.

-1

DanilaMedvedev Jul 3 2019 at 11:55

Я пробовал. Ещё 10 лет назад, когда мы РТД этот проект VOICEVISION запускали. Прикольно и работает. Но да, обучаться гемор, поэтому лично я после первых успешных попыток оставил их.

DanilaMedvedev Jul 3 2019 at 11:55

Да, надо просто времени выделить 3 месяца.

roboter Jul 2 2019 at 15:22

VISOR

safari2012 Jul 2 2019 at 15:57

Daredevil

ardin Jul 2 2019 at 16:10

Какая круть!
Давно беспокоит идея использовать сенсорное замещение для создания альтернативного канала восприятия информации.

Akon32 Jul 2 2019 at 16:37

А можете синхронно показать видео с камеры и звук с вашего устройства? Интересно, как вы кодируете видимые камерой объекты.

DanilaMedvedev Jul 3 2019 at 11:54

Тут полно видюшек и примеров: www.seeingwithsound.com/android-glasses.htm

Вообще кодируется ОЧ. ПРОСТО. Картинка конвертируется в ЧБ и делится на вертикальные полоски. В каждой полоске чем выше пиксел тем более высокая частота ему соответствует. Чем ярче пиксел, тем громче звук этой частоты. Таким образом эта полоска превращается в звук. И дальше в течение секунды полоски поочередно подаются на наушники как бы слева направо.

Объекты не кодируются. Кодируется вся картинка целиком — гештальт. И мозг уже сам разбирается.

QDeathNick Jul 3 2019 at 12:21

Лично мне не удалось найти там ни одного видео где был бы звук с устройства.
Может скинете ссылку на конкретное видео, если оно есть?

DanilaMedvedev Jul 3 2019 at 12:48

Вот тут интерактивное демо:
www.artificialvision.com/javoice.htm
нужна Java 6/7 в браузере.

На iPhone можно попробовать в Safari прямо в реальном времени app с камерой:
www.artificialvision.com/webvoice/webvoice.htm

А на карте сайта
www.artificialvision.com/sitemap.htm
можно открыть любой из пунктов в разделе MP3 sound samples и там есть картинки, звук и описание.

QDeathNick Jul 3 2019 at 18:24

Спасибо, вот это видео помогло понять что происходит, но стало понятно, что нужны месяцы тренировок.
Хочется теперь послушать как звучит кривая Гилберта, тоже не могу найти примеры.

Akon32 Jul 4 2019 at 10:43

Есть приложение "The vOICe для Android" (несколько урезанное). Можете скачать и попробовать.
У меня оно оставило смешанные впечатления. После пары минут упражнений мне удавалось различать яркость по "матрице" примерно 3х3 пиксела и отдельные крупные контрастные линии. Интересен режим выделения краёв. Но реальная картинка, особенно в плохих условиях, часто содержит лишь шум — как в звуке, так и на экране. Перемещаться по дому я сходу не смог.
Возможно, озвучивание depth map даст лучший результат. Или звуковая модель должна включать и вертикальное расположение пиксела (не частоту, а именно направление на источник).
Также допускаю, что после нескольких месяцев (или даже дней) тренировки можно научиться распознавать и то, что есть.

Exchan-ge Jul 2 2019 at 16:37

Окружающий мир за них «видит» футуристическое устройство на глазах, отдалённо напоминающее очки виртуальной реальности.

Вообще-то это напоминает одну конкретную вещь:

CaptainCrocus Jul 2 2019 at 20:29

Первые подобные приборы по принципу сенсорного замещения начал собирать Пол Бах-у-Рита, но он использовал электроды, подсоединенные к языку. Нейропластичность мозга приводила к тому, что у слепых визуальная информация со временем достигала зрительной коры и обрабатывалась ею.

DmitrySpb79 Jul 2 2019 at 22:55

Статья «на правах рекламы»?

Ни технических деталей, ни хотя бы примеров звуков и изображений, ничего. Авторы, вашему PR-отделу сложно хоть одну демку сделать и на YouTube выложить?
Слоника вы так не продадите…

DanilaMedvedev Jul 3 2019 at 11:51

Сорри за авторов (я не они). Но технические детали есть в изобилии на сайте изобретателя Питера Мейера www.seeingwithsound.com. Там же есть ссылки на научные статьи (в рецензируемых журналах и все такое) научных партнеров, таких как Амир Амеди из Израиля.

Pilat Jul 3 2019 at 10:11

Исходя из видео на сайте, технология всё же очень в зачаточном состоянии и об использовании такого зрения на улице речь пока не идёт?

DanilaMedvedev Jul 3 2019 at 11:50

Идет. Есть и видео российские с улицы. Давние пользователи (самые первые) используют систему более 20 лет. Польза для улицы основная в возможности сориентироваться дальше, чем на метр. То есть я стою в центре города и вообще не врубаюсь, где что. Тростью я буду ощупывать город примерно вечно. Войс позволяет увидеть картинку, включающую удаленные предметы. В этом плане пользы на улице даже больше, чем в помещении. Особенно, в привычном помещении.

yurybx Jul 3 2019 at 10:35

Будет здорово, если следующие поколения данной технологии реализуют стерео-звук (чтобы эффективней различать расположение объектов), а также трансляцию в реальном времени (а не один раз в секунду, как сейчас).

DanilaMedvedev Jul 3 2019 at 11:48

Стерео и сейчас используется. В Войс в течение 1 секунды (настраивается) звук «проносится» слева направо. В реальном времени совсем нельзя, т. к. сам принцип в том, что горизонталь кадра ложится во время. Уши то 2D сигнал не принимают, только 1D.

yurybx Jul 3 2019 at 14:41

Прошу прощения, меня сбил с толку кадр в ролике, где слева наушника нету. На счёт 1D-шности ушей не могу согласиться, т. к. наши уши воспринимают следующие параметры звука:
1. Основную частоту (тон),
2. Частотную модуляцию (частоту и диапазон колебаний основной частоты, вибрато),
2. Гармоники, форманты,
3. Характер реверберации (отражения от поверхностей),
4. Импульсные составляющие звука (дребезжание, треск, хлопки, удары).
В итоге может оказаться, что трансляция изображения в звук в реальном времени возможна. Я как несостоявшийся музыкант на себе ощущал всё богатство звукового воприятия.
Можно, например, попробовать трансляцию по следующим принципам:
1. Яркость «пикселя» транслируем в громкость его звука (очевидно);
2. Основная частота звука обратно пропорциональна расстоянию «пикселя» от центра «зрения»;
3. Расположение «пикселя» по горизонтали транслируем в баланс громкости между левым и правым наушником;
4. Расположение по вертикали транслируем через форманты: в центре звук «а», вверху звук «и», внизу звук «у», в промежуточных точках — их соотношение;
5. Цвет можно передавать добавлением дребезга, как например у звука виолончели: пусть красный будет дребезжать шумами в районе 5 КГц, зеленый — 7 КГц, синий — 9 КГц;
6. Реверберацию и частотную модуляцию тоже можно как-то использовать.

DanilaMedvedev Jul 3 2019 at 14:45

С точки зрения количества информации, это все не помогает решить задачу передачи 2D картинки в реальном времени. Все клевые штуки, которые вы перечислили в первой части комментария, требуют времени, чтобы мы их услышали (кроме основной частоты).

yurybx Jul 3 2019 at 15:59

Лично я сразу чувствую баланс между левым и правым наушником, когда слушаю музыку; звуки артикуляции люди тоже определяют сразу, как и наличие/характер дребезга (отличить звук виолончели от трубы можно сразу). Есть же такая профессия, как дирижёр оркестра, представляете сколько звуковой информации нужно обрабатывать в реальном времени, руководя симфоническим оркестром?
Может я, конечно, ошибаюсь, но мечтать не запретишь :)

DanilaMedvedev Jul 3 2019 at 17:57

К сожалению ошибаетесь. Смысл системы voice не в том, чтобы передать небольшое количество важной информации, а в том, чтобы передать максимум того, что можно запихнуть в слуховой нерв. Получается примерно 160х160 серых пикселов в секунду (то есть, условно, 25 килобайт/сек). То, что вы предлагаете добавить — это примерно несколько байт.

Akon32 Jul 4 2019 at 10:48

передать максимум того, что можно запихнуть в слуховой нерв. Получается примерно 160х160 серых пикселов в секунду (то есть, условно, 25 килобайт/сек).

Как это соотносится с максимальной слышимой частотой в 20кГц? Насколько я знаю (не уверен), ухо слышит и передаёт не амплитуду сигнала с частотой дискретизации в ~40кГц, а сразу спектр по частотам. Интересно, какая реальная пропускная способность этого канала (с учётом эффектов стерео)?
Сколько тонов можно распознавать одновременно?

Drakosh Jul 3 2019 at 10:35

А насколько мешает это устройство слышать обычные звуки? Слышать препятствие перед тобой-одно, а не услышать предупреждение голосом от друга об опасности, например — другое.

DanilaMedvedev Jul 3 2019 at 11:47

Это зависит от наушников. Можно использовать накладные, которые через кость передают звук, тогда вообще нет глушения обычных звуков. В целом нужно сознательно принимать решение о том, в каких ситуациях больше полагаться на трость/собаку, а когда можно надевать очки.

Legomegger Jul 3 2019 at 12:57

Cyberpunk 2019. Замечательно!

Nehc Jul 30 2019 at 15:02

Пример