Pull to refresh

Comments 52

Расскажите про то как это работает. Как далеко оно позволяет воспринимать объекты? на сколько хватает зарядки? Можно ли где-то послушать аудиозапись того, что слышит пользователь?
Я не могу утверждать за автора, что это сделано именно так, но для преобразования изображения в звук, его обычно превращают из двухмерного в одномерное кривой Гильберта, затем цвет или яркость пикселя определяет частоту: youtu.be/3s7h2MHQtxc
К сожалению, не нашел записи, как звучит изображение, конвертированное подобным образом.
может сделаем опенсорс альтернативу для смартфона? в чем проблема картинку с камеры преобразовывать в звук в наушники.
UFO just landed and posted this here
Тогда хорошо, что устройство из статьи её тоже не получает.
Её можно получить «делая» шифт одного «глаза», покачивая головой в стороны.
Так делают одноглазые и еще так снимают стереопары на одну камеру.

Большая гифка!
Осторожно

Фокусное объектива 500 мм, стереобаза 50 см примерно.
Уже есть опен сорс версия от автора — Питера Мейера. Она базовая. В проприетарной есть много дополнительных примочек и алгоритм по мелочи много где улучшен. Плюс все андроид девайсы глючат по своему, поэтому для реального проекта нужен мейнтейнер, который будет с этими глюками разбираться.

Вообще можете легко в плеймаркете VOICE for Andoid найти и скачать.
Я прослушал пример с пешеходным переходом, и у меня возник вопрос. Я слышу, что «сканирование» происходит слева направо раз в секунду. А не пробовали передавать всю картинку разом? То есть, чтобы «линии» разделялись только панорамированием, а не панорама + время. Или это будет слишком сложно для понимания?
А можно больше технических деталей?
как оно работает?
почему эта достаточно громоздкая конструкция выполнена именно в таком фромфакторе, а например основной блок не вынесен например на пояс а датчики не выполнены в виде очков или подобным образом?
или может это просто прототип?..
ps: тема интересная, хочется больше технических подробностей
Не совсем понятно какой основной блок. Насколько я понимаю там состав камера + плата аля Rasberry Pi + батарейка + наушники. Что выносить будете и куда?
Причина №1 — социальная. Незрячие люди не хотят носить убогие уродские железяки.

Остальные причины. Пробовали разное, ключевой вопрос, где камера. Камера должна быть между глаз (нейрофизиологически надо так, пробовали). Соответственно нужно носить очки. Хорошие очки дают хорошую камеру. На дорогих девайсах есть всё встроенное, следовательно отдельный носимый блок это плохо. Да, в рабочих версиях использовался (и используется?) отдельный Raps Pi в носимом на поясе блоке, но идеально все держать в очках.
К сожалению, в указанной вами статье нет подробного разбора, только общая информация. Хотелось бы увидеть больше технических деталей реализации.
Думаю, да. Здорово научиться чувствовать пространство сзади, за спиной и с боков не оборачиваясь.
Или водителю чувствовать обстановку вокруг машины не глядя в зеркало. Короче, крайне полезная вещь должна получиться, если форм фактор исправить.
Похоже, что у вас тогда слух будет занят.
На фотках наушники с костной проводимостью, они звукам не мешают.
Как сделали разработчики я не знаю, но представляю себе это как генератор сигнала довольно высокой частоты, на верней границе слуховых возможностей человека. Поэтому на обычную речь и другие звуки влиять не должно.
Думаю там просто развертка как в телевизоре. Луч бегает сверху вниз, слева направо и меняет тональность и громкость в зависимости от расстояния.
Кстати, есть приделать инфракрасную камеру, то можно горячо/холодно отличать и в темноте видеть.
Я думаю как раз на видящих и надо тестировать такие технологии, благо они не ничего не меняют на аппаратном уровне. Но ИМХО результативность технологии преувеличена. Я не отрицаю возможности воспринимать пространство в виде звука, мозг в случае нужды способен на невероятные вещи. Но вот качество оценить сможет только зрячий, и то не в полной мере, т.к. мозгу зрячего подобные финты не нужны, а значит обучаемость будет хуже.
Я пробовал. Ещё 10 лет назад, когда мы РТД этот проект VOICEVISION запускали. Прикольно и работает. Но да, обучаться гемор, поэтому лично я после первых успешных попыток оставил их.
Какая круть!
Давно беспокоит идея использовать сенсорное замещение для создания альтернативного канала восприятия информации.

А можете синхронно показать видео с камеры и звук с вашего устройства? Интересно, как вы кодируете видимые камерой объекты.

Тут полно видюшек и примеров: www.seeingwithsound.com/android-glasses.htm

Вообще кодируется ОЧ. ПРОСТО. Картинка конвертируется в ЧБ и делится на вертикальные полоски. В каждой полоске чем выше пиксел тем более высокая частота ему соответствует. Чем ярче пиксел, тем громче звук этой частоты. Таким образом эта полоска превращается в звук. И дальше в течение секунды полоски поочередно подаются на наушники как бы слева направо.

Объекты не кодируются. Кодируется вся картинка целиком — гештальт. И мозг уже сам разбирается.
Лично мне не удалось найти там ни одного видео где был бы звук с устройства.
Может скинете ссылку на конкретное видео, если оно есть?
Вот тут интерактивное демо:
www.artificialvision.com/javoice.htm
нужна Java 6/7 в браузере.

На iPhone можно попробовать в Safari прямо в реальном времени app с камерой:
www.artificialvision.com/webvoice/webvoice.htm

А на карте сайта
www.artificialvision.com/sitemap.htm
можно открыть любой из пунктов в разделе MP3 sound samples и там есть картинки, звук и описание.
Спасибо, вот это видео помогло понять что происходит, но стало понятно, что нужны месяцы тренировок.
Хочется теперь послушать как звучит кривая Гилберта, тоже не могу найти примеры.

Есть приложение "The vOICe для Android" (несколько урезанное). Можете скачать и попробовать.
У меня оно оставило смешанные впечатления. После пары минут упражнений мне удавалось различать яркость по "матрице" примерно 3х3 пиксела и отдельные крупные контрастные линии. Интересен режим выделения краёв. Но реальная картинка, особенно в плохих условиях, часто содержит лишь шум — как в звуке, так и на экране. Перемещаться по дому я сходу не смог.
Возможно, озвучивание depth map даст лучший результат. Или звуковая модель должна включать и вертикальное расположение пиксела (не частоту, а именно направление на источник).
Также допускаю, что после нескольких месяцев (или даже дней) тренировки можно научиться распознавать и то, что есть.

Окружающий мир за них «видит» футуристическое устройство на глазах, отдалённо напоминающее очки виртуальной реальности.


Вообще-то это напоминает одну конкретную вещь:
image
Первые подобные приборы по принципу сенсорного замещения начал собирать Пол Бах-у-Рита, но он использовал электроды, подсоединенные к языку. Нейропластичность мозга приводила к тому, что у слепых визуальная информация со временем достигала зрительной коры и обрабатывалась ею.
Статья «на правах рекламы»?

Ни технических деталей, ни хотя бы примеров звуков и изображений, ничего. Авторы, вашему PR-отделу сложно хоть одну демку сделать и на YouTube выложить?
Слоника вы так не продадите…
Сорри за авторов (я не они). Но технические детали есть в изобилии на сайте изобретателя Питера Мейера www.seeingwithsound.com. Там же есть ссылки на научные статьи (в рецензируемых журналах и все такое) научных партнеров, таких как Амир Амеди из Израиля.
Исходя из видео на сайте, технология всё же очень в зачаточном состоянии и об использовании такого зрения на улице речь пока не идёт?
Идет. Есть и видео российские с улицы. Давние пользователи (самые первые) используют систему более 20 лет. Польза для улицы основная в возможности сориентироваться дальше, чем на метр. То есть я стою в центре города и вообще не врубаюсь, где что. Тростью я буду ощупывать город примерно вечно. Войс позволяет увидеть картинку, включающую удаленные предметы. В этом плане пользы на улице даже больше, чем в помещении. Особенно, в привычном помещении.
Будет здорово, если следующие поколения данной технологии реализуют стерео-звук (чтобы эффективней различать расположение объектов), а также трансляцию в реальном времени (а не один раз в секунду, как сейчас).
Стерео и сейчас используется. В Войс в течение 1 секунды (настраивается) звук «проносится» слева направо. В реальном времени совсем нельзя, т. к. сам принцип в том, что горизонталь кадра ложится во время. Уши то 2D сигнал не принимают, только 1D.
Прошу прощения, меня сбил с толку кадр в ролике, где слева наушника нету. На счёт 1D-шности ушей не могу согласиться, т. к. наши уши воспринимают следующие параметры звука:
1. Основную частоту (тон),
2. Частотную модуляцию (частоту и диапазон колебаний основной частоты, вибрато),
2. Гармоники, форманты,
3. Характер реверберации (отражения от поверхностей),
4. Импульсные составляющие звука (дребезжание, треск, хлопки, удары).
В итоге может оказаться, что трансляция изображения в звук в реальном времени возможна. Я как несостоявшийся музыкант на себе ощущал всё богатство звукового воприятия.
Можно, например, попробовать трансляцию по следующим принципам:
1. Яркость «пикселя» транслируем в громкость его звука (очевидно);
2. Основная частота звука обратно пропорциональна расстоянию «пикселя» от центра «зрения»;
3. Расположение «пикселя» по горизонтали транслируем в баланс громкости между левым и правым наушником;
4. Расположение по вертикали транслируем через форманты: в центре звук «а», вверху звук «и», внизу звук «у», в промежуточных точках — их соотношение;
5. Цвет можно передавать добавлением дребезга, как например у звука виолончели: пусть красный будет дребезжать шумами в районе 5 КГц, зеленый — 7 КГц, синий — 9 КГц;
6. Реверберацию и частотную модуляцию тоже можно как-то использовать.
С точки зрения количества информации, это все не помогает решить задачу передачи 2D картинки в реальном времени. Все клевые штуки, которые вы перечислили в первой части комментария, требуют времени, чтобы мы их услышали (кроме основной частоты).
Лично я сразу чувствую баланс между левым и правым наушником, когда слушаю музыку; звуки артикуляции люди тоже определяют сразу, как и наличие/характер дребезга (отличить звук виолончели от трубы можно сразу). Есть же такая профессия, как дирижёр оркестра, представляете сколько звуковой информации нужно обрабатывать в реальном времени, руководя симфоническим оркестром?
Может я, конечно, ошибаюсь, но мечтать не запретишь :)
К сожалению ошибаетесь. Смысл системы voice не в том, чтобы передать небольшое количество важной информации, а в том, чтобы передать максимум того, что можно запихнуть в слуховой нерв. Получается примерно 160х160 серых пикселов в секунду (то есть, условно, 25 килобайт/сек). То, что вы предлагаете добавить — это примерно несколько байт.
передать максимум того, что можно запихнуть в слуховой нерв. Получается примерно 160х160 серых пикселов в секунду (то есть, условно, 25 килобайт/сек).

Как это соотносится с максимальной слышимой частотой в 20кГц? Насколько я знаю (не уверен), ухо слышит и передаёт не амплитуду сигнала с частотой дискретизации в ~40кГц, а сразу спектр по частотам. Интересно, какая реальная пропускная способность этого канала (с учётом эффектов стерео)?
Сколько тонов можно распознавать одновременно?

А насколько мешает это устройство слышать обычные звуки? Слышать препятствие перед тобой-одно, а не услышать предупреждение голосом от друга об опасности, например — другое.
Это зависит от наушников. Можно использовать накладные, которые через кость передают звук, тогда вообще нет глушения обычных звуков. В целом нужно сознательно принимать решение о том, в каких ситуациях больше полагаться на трость/собаку, а когда можно надевать очки.
Sign up to leave a comment.