vkcompany 10 авг 2023 в 11:58

«Бизнес-юнит — как семья». Незрячий сотрудник VK водит экскурсии по офису и развивает цифровую доступность

Простой

8 мин

4.1K

Блог компании VKРазработка мобильных приложений*Разработка под macOS*Разработка под Windows*Интервью

Интервью

+55

Комментарии 8

Javian 10 авг 2023 в 12:13

Интересно на сколько технологии ИИ близки к тому, чтобы выступить в качестве "скринридера" изображений носимой видеокамеры.

sergio_deschino 10 авг 2023 в 13:07

Есть такое приложение Be my eyes, которое связывает слабовидящих/незрячих со зрячими волонтёрами, чтобы последние помогли описать какие-то вещи через камеру смартфона. Так вот, OpenAI сотрудничает с ними для распознавания и описания картинок. Я спрашивал пару раз у людей с кем общался как оно выглядит с практической точки зрения. Если что-то простое, то ок, если что-то уже посложнее или динамическое, то не очень.

pae174 10 авг 2023 в 21:39

Я крутил в руках немного эту штуку с AI внутри или какую-то подобную (я не слепой, мне просто было прикольно). Она тупо перечисляет что видит. Перед вами стол, на нем стоит чашка. Вы находитесь на пересечении West Street и Avenue Y , перед вами стоят два человека. И вот она постоянно в наушник бубнит это. Я не уверен, что это сильно помогает. Хотя я из-за недостатка времени чего-то не понял.

sergio_deschino 10 авг 2023 в 22:16

А Вы попробуйте с голосовым интерфейсом по вебу посефрить ради интереса. Он тоже перечисляет всегда, что «видит»

pae174 11 авг 2023 в 02:00

Нет, сравнение некорректно так как для слепого юзера всё решает контекст а программа этого контекста не знает. С текстом контекст заранее известен - программа читает сайт и юзер знает, что программа читает сайт - здесь всё совпадает. На улице, в качестве примера:

программа говорит мне, что видит человека и самолёт. WTF? А это, оказывается, рекламная стойка какой-то авиакомпании.
программа говорит мне, что видит стол и чашку на нём. Забывает сказать, что чашка стоит на самом краю стола и между мной и чашкой еще десяток нераспознанных предметов. Если я за чашкой потянусь руками то развалю и разобью там вообще всё.
программа говорит, что и видит дверь и на ней написано "магазин еды". Она не видит, что дверь стеклянная, магазин закрыт и через дверь видно, что внутри идет ремонт и там какие-то узбеки что-то красят.

Ну и так далее. Программа не видит контекст. Живой помощник может услышать мой вопрос "где тут стиральный порошок в коробках по 1 кило", проследить за рукой и ответить что-то типа "выше/ниже, нет, еще выше, теперь правее". Программа просто говорит "стиральный порошок" и считает, что помогла.

Javian 11 авг 2023 в 06:11

Имхо часть проблемы в невозможности оценить расстояние по плоской картинке. Человек в таком случае тоже может ошибиться, но в этом случае ему помогает предыдущий опыт.
А обработка стереоизображений более затратна.Может быть и до этого дойдут через десяток лет.

sergio_deschino 11 авг 2023 в 07:19

Ну, основные кейсы, с которыми обращались ко мне по Би Май Айс — это какое показание глюкометра (чаще всего, кстати), что в банке (условно кукуруза или горошек), какое это лекарство, пришло бумажное письмо, что там написано? С ними вполне может справиться и распознавалка.

aqwAntonio 22 мар в 03:13

я скажу так, что вк ооочень далек от адаптации для слабовидящих. когда пару лет назад у нас были работы по адаптации версии для слабовидящих школьного сайта, то даже сверху были даны рекомендации отказаться от виджета вк из за несоответствия его верстки для слабовидящих. и никакой обратной связи невозможно оставить об этой проблеме, потому что нужно быть пользователем вк, чтобы сообщить о какой либо проблеме вк, что очень удобно конечно, отсеивать жалобы слабовидящих, которые в принципе не могут пользоваться сайтом, не адаптированным для них

Зарегистрируйтесь на Хабре, чтобы оставить комментарий