Свет мой камера, скажи: Descriptive Camera

    Как работает обычная фотокамера? Навёл, нажал на кнопку, получил результат. Современные гаджеты позволяют к получаемой фотографии добавлять много метаданных, включая координаты места фотографирования.
    Но пока ещё ни одна камера не умела добавлять к фотографиям текстовые описания того, что есть на фото. Теперь умеет.



    Прототип Descriptive Camera, соответствуя своему названию, пользуясь краудсорсинговой платформой Amazon Mechanical Turk, выдаёт описания фотографий в виде небольшой распечаточки через термопринтер Adafruit (навеяно моментальными фотографиями от Polaroid).



    Мозг камеры — микрокомпьютер BeagleBone от Texas Instruments, работающий под управлением Linux. USB-камера, модуль mrBBIO для отсылки и получения данных с контактов BeagleBone, и несколько скриптов для отправки заданий в сервис Mechanical Turk и получения ответов.

    Презентация от автора:


    Пока эта камера — прототип устройства, поэтому с интернетом общается через Ethernet и питается от внешних 5v.

    Результаты работы:


    После нажатия кнопки камера отправляет фото на сервис MT, и ждёт результатов обработки. При стоимости обработки $1.25 результаты обычно приходят через 3-6 минут.

    Примеры текстов:


    «Бесцветная фотография обветшалого здания. Оно не функционирует и требует ремонта».


    «Уродливый шкафчик с ящичками и надписями на них, к которому присоединена настольная лампа».

    image
    «Угол комнаты с деревянным полом, в котором стоят ящик для инструментов, велик, стопка книг, коробка. Открытая дверь с мешком, свисающим с ручки, пара закрытых смежных дверей с кабелями, свисающими с их ручек.»

    Автор сего творения, Мэт Ричардсон, рассказывает о том, как тяжело бывает хранить и каталогизировать большое количество фотографий, и как было бы здорово с каждой фоткой иметь сразу её описание с ключевыми словами.

    Конечно, текущая версия камеры больше похожа на технологическую инсталляцию из музея современного искусства, но перспективы у этой идеи есть. Наверное.

    Комментарии 28

      +4
      Ценник в 1.25$ за максимум пару предложений невыразительного текста — дичь, особенно в контексте «каталогизировать большое количество фотографий».
        +6
        $1.25 за фотографию?? Я конечно понимаю, что это делается вручную, но за такие деньги я лучше сам опишу фотографию )
          –1
          Китайцы прибегут и цена спадет
            –1
            Индусы присоединятся и вообще почти бесплатно будет.
              +18
              Придет гугл и бесплатно выдаст:

              «Бесцветная фотография обветшалого здания. Оно не функционирует и требует ремонта. Это не проблема, если ремонтом займутся мастера из компании N. Звоните прямо сейчас 8-800-xxx-xx-xx».

              «Уродливый шкафчик с ящичками и надписями на них, к которому присоединена настольная лампа. Избавьтесь от них — закажите новый инновационный стеллаж с автоматической подсветкой от компании M за $xxx.99».

              «Угол комнаты с деревянным полом, в котором стоят ящик для инструментов, велик, стопка книг, коробка. Открытая дверь с мешком, свисающим с ручки, пара закрытых смежных дверей с кабелями, свисающими с их ручек. Арендуйте наш чулан для хранения ненужных вещей — сделайте комнату просторней!»
              +1
              Так даже интереснее:
              Ветхих зданий бесцветная фото. Он не был отремонтирован и нуждается функция

              Так как уродливые корпуса и надписей и их ящик, настольная лампа установлена

              Куча большой ящик для инструментов, книг, углу комнаты и деревянная коробка этажей. Откройте дверь с парой за закрытыми дверями соседних с кабелем, висит сумка, из-под пера их свисающие с ручкой.

              © Google Translate
              0
              Ну, например, microstock dreamstime делает это за 60 центов. Правда, скорость там 3-5 дней :)))
              +1
              Обработку осуществляет искусственный интеллект или, судя по текстам, толпа студентов?
                0
                Как и указано, краудсорсинговая платформа Amazon Mechanical Turk. Т.е. люди за деньги.
                  0
                  Механический гражданин Турции :)
                    0
                    Да, знаменитый турецкий робокоп-голем.
                +1
                Демо камеры — 00:33, разказ автора что он сделал — 10:24 :)
                  +2
                  Такое ощущение, что уже было на хабре, но найти не могу. Новость, кстати от апреля 12 года.
                    0
                    Я вот чего не пойму: если я вижу фото, я понимаю, что там здания или ящики, зачем мне это видеть еще и на бумаге? Я понимаю, когда цифровому фото присваиваются теги для автоматической обработки, но зачем нужны еще и распечатки?
                      +1
                      А если вы не видите фото?
                        +1
                        то не увидите текст?
                          0
                          Это уже мелочи — вместо принтера текст можно прочитать синтезатором речи.
                        +1
                        Насколько я понял из видео и того, что я раньше читал о камере, она не выдает цифровые снимки. Т.е., на выходе вы получаете только текст с описанием кадра, но не сам кадр. В этом то и есть основная «фишка» девайса
                          0
                          Меня смутили вот эти слова:
                          как было бы здорово с каждой фоткой иметь сразу её описание с ключевыми словами
                            0
                            Я могу и ошибаться, но когда я впервые столкнулся с описанием этой камеры (пруфов не будет, не помню где), она позиционировалась, как камера, выдающая текстовое описание вместо изображения. Возможно, я ошибаюсь, но скорее всего, это просто рекламный ход: наверно, изображение из нее можно вытянуть, но это не прямое ее назначение
                        +2
                        Лучше бы они теги к фотографиям прописывали бы. Может кто знает подобный сервис? Пускай даже и платный.
                          0
                          Практически любой из микростоков это делает. Dreamstime, напримерб за 0.6$. Русское Lori тоже.
                            0
                            Хм… спасибо… но так как подробностей об этих услугах на их сайтах не нашел, а писать им письма пока не стал, то возник еще вопрос: если я им буду регулярно сгружать фотографии с известными (и не очень) людьми (по одному человеку или групповые фото), то смогут ли они проставлять теги типа ФИО для этих людей, либо теги по моим правилам (например, тег означающий настроение в кадре и т.п.)?
                              0
                              Не смогу, пожалуй, ответить на вопрос. Я так полагаю, что делают они это в основном в расчете на дальнейшие продажи, поэтому список тегов будет скорее соответствовать их ожиданиям по быстрой окупаемости.
                          +1
                          Я думаю, что идея эта не имеет перспектив. Достаточно загрузить в «гугл картинки» фотографию хоть мало-мало известного здания или места, как вы получите описание, например, «Кажется это стадион Олимпия в Берлине» и ссылку на статью в википедии. Мне кажется, скорее, Гугл пойдет дальше — и будет «кажется это корзина для мусора, каталог IKEA, артикул 00000».
                            +1
                            А мне кажется, что если им самим не надоест, то эта идея очень полезная в применении к слепым, желающим передвигаться по незнакомым местам. Выходит он из автобуса/метро, делает фотку, через 30 секунд получает описание с синтезатора речи. Возможно, оператор может даже инструкции предоставить (пять шагов вперёд, два направо, осторожно, ступенька).
                              0
                              Мне кажется для слепого собака-поводырь будет эффективнее. Задержка в 30 секунд — это очень много для принятия решения. А потом учтите, что за эти 30 секунд нужно не изменить собственного положения и не повернуться (иначе придется повторять запрос).
                            +2
                            Для описания к фотографии было бы логичнее сфотографировать и произнести что сфотографировал, чтобы камера распознала речь и сохранила описание фотографии в виде текста.

                            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                            Самое читаемое