Comments 52
К сожалению, не нашел записи, как звучит изображение, конвертированное подобным образом.
Вообще можете легко в плеймаркете VOICE for Andoid найти и скачать.
Последняя буква в ссылке потерялась.
https://youtu.be/5TdPNBpEbBg
На 28:05 то, что слышит пользователь.
как оно работает?
почему эта достаточно громоздкая конструкция выполнена именно в таком фромфакторе, а например основной блок не вынесен например на пояс а датчики не выполнены в виде очков или подобным образом?
или может это просто прототип?..
ps: тема интересная, хочется больше технических подробностей
Остальные причины. Пробовали разное, ключевой вопрос, где камера. Камера должна быть между глаз (нейрофизиологически надо так, пробовали). Соответственно нужно носить очки. Хорошие очки дают хорошую камеру. На дорогих девайсах есть всё встроенное, следовательно отдельный носимый блок это плохо. Да, в рабочих версиях использовался (и используется?) отдельный Raps Pi в носимом на поясе блоке, но идеально все держать в очках.
А человек который видил всегда, сможет научится пользоваться этими очками/технологией?
Или водителю чувствовать обстановку вокруг машины не глядя в зеркало. Короче, крайне полезная вещь должна получиться, если форм фактор исправить.
Думаю там просто развертка как в телевизоре. Луч бегает сверху вниз, слева направо и меняет тональность и громкость в зависимости от расстояния.
Кстати, есть приделать инфракрасную камеру, то можно горячо/холодно отличать и в темноте видеть.
Давно беспокоит идея использовать сенсорное замещение для создания альтернативного канала восприятия информации.
А можете синхронно показать видео с камеры и звук с вашего устройства? Интересно, как вы кодируете видимые камерой объекты.
Вообще кодируется ОЧ. ПРОСТО. Картинка конвертируется в ЧБ и делится на вертикальные полоски. В каждой полоске чем выше пиксел тем более высокая частота ему соответствует. Чем ярче пиксел, тем громче звук этой частоты. Таким образом эта полоска превращается в звук. И дальше в течение секунды полоски поочередно подаются на наушники как бы слева направо.
Объекты не кодируются. Кодируется вся картинка целиком — гештальт. И мозг уже сам разбирается.
Может скинете ссылку на конкретное видео, если оно есть?
www.artificialvision.com/javoice.htm
нужна Java 6/7 в браузере.
На iPhone можно попробовать в Safari прямо в реальном времени app с камерой:
www.artificialvision.com/webvoice/webvoice.htm
А на карте сайта
www.artificialvision.com/sitemap.htm
можно открыть любой из пунктов в разделе MP3 sound samples и там есть картинки, звук и описание.
Хочется теперь послушать как звучит кривая Гилберта, тоже не могу найти примеры.
Есть приложение "The vOICe для Android" (несколько урезанное). Можете скачать и попробовать.
У меня оно оставило смешанные впечатления. После пары минут упражнений мне удавалось различать яркость по "матрице" примерно 3х3 пиксела и отдельные крупные контрастные линии. Интересен режим выделения краёв. Но реальная картинка, особенно в плохих условиях, часто содержит лишь шум — как в звуке, так и на экране. Перемещаться по дому я сходу не смог.
Возможно, озвучивание depth map даст лучший результат. Или звуковая модель должна включать и вертикальное расположение пиксела (не частоту, а именно направление на источник).
Также допускаю, что после нескольких месяцев (или даже дней) тренировки можно научиться распознавать и то, что есть.
Окружающий мир за них «видит» футуристическое устройство на глазах, отдалённо напоминающее очки виртуальной реальности.
Вообще-то это напоминает одну конкретную вещь:
Ни технических деталей, ни хотя бы примеров звуков и изображений, ничего. Авторы, вашему PR-отделу сложно хоть одну демку сделать и на YouTube выложить?
Слоника вы так не продадите…
1. Основную частоту (тон),
2. Частотную модуляцию (частоту и диапазон колебаний основной частоты, вибрато),
2. Гармоники, форманты,
3. Характер реверберации (отражения от поверхностей),
4. Импульсные составляющие звука (дребезжание, треск, хлопки, удары).
В итоге может оказаться, что трансляция изображения в звук в реальном времени возможна. Я как несостоявшийся музыкант на себе ощущал всё богатство звукового воприятия.
Можно, например, попробовать трансляцию по следующим принципам:
1. Яркость «пикселя» транслируем в громкость его звука (очевидно);
2. Основная частота звука обратно пропорциональна расстоянию «пикселя» от центра «зрения»;
3. Расположение «пикселя» по горизонтали транслируем в баланс громкости между левым и правым наушником;
4. Расположение по вертикали транслируем через форманты: в центре звук «а», вверху звук «и», внизу звук «у», в промежуточных точках — их соотношение;
5. Цвет можно передавать добавлением дребезга, как например у звука виолончели: пусть красный будет дребезжать шумами в районе 5 КГц, зеленый — 7 КГц, синий — 9 КГц;
6. Реверберацию и частотную модуляцию тоже можно как-то использовать.
Может я, конечно, ошибаюсь, но мечтать не запретишь :)
передать максимум того, что можно запихнуть в слуховой нерв. Получается примерно 160х160 серых пикселов в секунду (то есть, условно, 25 килобайт/сек).
Как это соотносится с максимальной слышимой частотой в 20кГц? Насколько я знаю (не уверен), ухо слышит и передаёт не амплитуду сигнала с частотой дискретизации в ~40кГц, а сразу спектр по частотам. Интересно, какая реальная пропускная способность этого канала (с учётом эффектов стерео)?
Сколько тонов можно распознавать одновременно?
Пионеры новых технологий: Вадим Арцев рассказал, как перестал быть незрячим