@marks Jun 14 2012 at 22:01

Японцы разработали виртуальных аватаров

1 min

2.5K

Image processing *

+27

Comments 53

@Alexsey Jun 14 2012 at 22:24

В видео используется playstation eye, а это значит что похоже требуется что-то большее чем ноутбучная камера или китайская камера за 500 рублей.

@Eddy_Em Jun 14 2012 at 22:29

Нужна очень хорошая видеокарта, чтобы формировать изображение в реальном времени, анализируя данные с камеры. CPU такое явно не потянет.

@ZUZ Jun 14 2012 at 22:35

чтобы нарисовать этого персонажа? ой да не шутите — по уровню графики это даже не бабочки от nVidia, которая шла на древнющих GeForce FX 5700/5800 — а в разы проще

@Eddy_Em Jun 15 2012 at 05:21

Это вы, батенька, не шутите: чтобы мимику отслеживать вам придется довольно муторную работу провести…

@taliban Jun 15 2012 at 08:48

Никогда не видели на флеше игры с вебкамерой? Они распозрабт вас и вы учавствуете в игре в реальном времени своим лицом/руками итд. Справятся прекрасно цпу и даже не первой свежести.

@Eddy_Em Jun 15 2012 at 09:19

А на html5test.com для них пишут:
> Access the webcam » No ✘

@taliban Jun 15 2012 at 09:25

Для кого для них? Вы точно прочитали что я писал выше?

@Eddy_Em Jun 15 2012 at 09:37

sorry, не туда написал.

В подобных «играх» просто определяются опорные точки (зрачки, губы) и отслеживаются в дальнейшем. А вот чтобы мимику повторять, замучаетесь обрабатывать.

@taliban Jun 15 2012 at 09:55

А вы на видео не видели опорных точек? Он не точно повторяет мимику, просто рот открыт, и на аватаре открывает (по верзхней губе определяет, улыбку по кончикам губ, брови по одной точке итд). Все довольно просто, чуть сложней чем во флешевых играх, но всеравно ничего запредельного в расчетах нет.

@Eddy_Em Jun 15 2012 at 10:16

А, значит, извиняюсь: я-то думал, там полноценный повтор мимики идет.
А для этого — либо жуткие вычисления, либо наносить на лицо координатную сетку ☺

@Wendor Jun 15 2012 at 03:33

А 3D Action игры не в реальном времени мир отрисовывают?

@gaelpa Jun 14 2012 at 23:12

Wiki говорит, что

Камера работает с частотой кадров в 60 герц при разрешении 640х480 пикселей, а с частотой 120 герц – 320х240 пикселей.

Не ахти какие запредельные показатели, имхо.

@Alexsey Jun 14 2012 at 23:21

Тем не менее ноутбучные камеры не могут похвастаться одновременно и такими показателями и нормальным фпс. (не в районе 15 и меньше) А эта система ой как сильно зависит от фпс камеры я чувствую.

@Oblitus Jun 14 2012 at 23:55

Не должна по идее.

@rPman Jun 15 2012 at 06:28

будет большой лаг (секундный), а так работать будет конечно же.

@AlexanderG Jun 15 2012 at 20:24

Почему же секундный? 66мс + время на обсчет. Плюс можно сглаживать и предсказывать, в сетевых играх технологии лагкомпенсации уже давно отработаны, задача аналогичная.

@VakarimaZ Jun 16 2012 at 07:12

если внимательно посмотреть, то там есть лаг, при чем довольно заметный (например с 00:42)

@Lockal Jun 14 2012 at 22:38

Ня!

@Suncheez Jun 14 2012 at 22:42

Живенько себе представил, как на кладбище какой-нить мморпг про эльфов скачут и корчат рожи беснующиеся вновьприбывшие.

@yul Jun 15 2012 at 15:17

Заодно представьте, как они в реальной жизни будут потом смайлики корчить (

@AlexanderG Jun 15 2012 at 20:26

Мне кажется, это здорово оживило бы игру. Еще можно придумать влияние мимики на игровой процесс, скажем, если игрок испуган, у персонажа трясутся руки, если зол, персонаж входит в раж и т.п.

@Fesor Jun 14 2012 at 22:45

Мда… желтоватый заголовок. Если честно не вижу ничего сложного в этой реализации. Обычный детектор лица и отслеживание положения. + мега супер пупер камера. Я то думал оно и речь распознает…

@Oblitus Jun 14 2012 at 22:56

Ничего особо нового, но я бы себе в скайп прикрутил… Не люблю видеоконференции, а это неплохой компромисс.

@Fedcomp Jun 14 2012 at 22:59

тоже самое.

@kushti Jun 14 2012 at 23:52

ага, представляю себе деловые скайп-совещания в модных стартапах будущего )

@SerDIDG Jun 15 2012 at 01:16

Например в камере www.logitech.com/ru-ru/webcam-communications/webcams/4528 есть такая фича. Она заменяет лицо персонажем, который реагирует на повороты лица, частично мимику рта и моргание глазами. Скорее такое есть и в более новых вебках.

@ffriend Jun 15 2012 at 00:11

И да, и нет. Ничего революционного в этой разработке действительно нет — вспомнить тот же kinect, который недавно научился работать с лицами. Однако реализация гораздо сложнее, чем обычный детектор лица. Дело в том, что стандартные детекторы/распознаватели лиц (такие как хааровский классификатор, включённый по-дефолту в OpenCV) абсолютно не умеют понимать выражения лиц. То есть научить их, конечно, можно, но точность определения выражения лица всё равно будет ниже плинтуса. Для facial expression tracking на сегодняшний день чаще все используются active appearance models (плюс в карму тому, кто знает, как это красиво перевести на русский). Создание активных аватаров — это далеко не самый интересный пример использования этих моделей, вот, например, что-то похожее на аватары, но с животными (представьте, насколько проще с такой технологией снимать мультфильмы!), а вот здесь показано, как мгновенно перевоплотиться в Стива Джобса, Мерелин Монро или даже Ленина, причём не на мониторе, а практически в реальной жизни. Хотя мой любимый пример — это Being John Malkovich — приложение для очень правдоподобного контроля лица другого человека. Представьте: ваши товарищи включают видеоконференцию по скайпу, а перед ними вместо вас сидит Владимир Владимирович. Тут рисованные девочки отдыхают.

@ffriend Jun 15 2012 at 00:13

Кстати, для работы большинства реализаций AAM вполне достаточно обычной веб-камеры ноутбука, не надо никаких супер-пупер заморочек. Ну а распознавание голоса — так это вообще смешно, вроде как уже давно победили такую задачу.

@sir06Will Jun 15 2012 at 03:36

Active appearance models — активное моделирование внешности?

@ffriend Jun 15 2012 at 03:49

AAM, условно говоря, состоит из двух частей — shape и appearance, где под shape подразумевается статистическая модель формы (ну, т.е. например, относительное положение точек, отвечающих за брови, глаза, нос, рот и т.д. на лице, или за то, чтобы квадрат был квадратным, а треугольник — треугольным), а под appearance — интенсивность цветов пикселей внутри формы. А это как-то не очень соответствует понятию «внешность» в русском языке — внешность есть только у людей, а указанная модель может описывать любой предмет. «Внешний вид» — ещё куда ни шло, но «модель активного внешнего вида» звучит убого.

@AlexanderG Jun 15 2012 at 20:30

Модель активного образа (как вариант, облика). Подойдет? Исходный термин, ИМХО, не очень удачен, поэтому и адекватный перевод подобрать трудно.

@ffriend Jun 15 2012 at 20:32

А вот это уже довольно точно, спасибо.

@ZlodeiBaal Jun 15 2012 at 09:33

Не согласен, что сильно сложнее. Хаар хорошо использовать для предварительного вычисления положения. А анализируя дальнейшую картинку в области выделения лица достаточно просто выцепить глаза и остальные интересующие части. Примерное положение на лице их известно, достаточно натянуть на модель. Например такие штуки на основе классического Хаара собираются за несколько дней (раз два).
Хотя, конечно, отладка до полностью рабочего и стабильного состояния займет не один месяц. Но если вопрос именно в том, чтобы показать результат на одном человеке — это будет быстро.

@ffriend Jun 15 2012 at 10:34

Сообственно, Хаар и используется для поиска ROI для дальнейшего сопоставления со статистической моделью. Модели для детектирования глаз, губ, и т.д. в стандартной поставке OpenCV также есть, поэтому большинство видео с тытрубы на эту тему — это просто демонстрация работы встроенных средств.

Два видео, на которые вы указали, не сильно отличаюстя по сложности, но показанные программы ни разу не анализируют выражение лица. По пунктам.

Видео 1. Стандартные прямоугольники вокруг найденных частей лица, интерес вызывают только глаза, реагирующие на моргание (в стандартной поставке OpenCV этого нет) и контур вокруг рта, в остальном даже тренировать классификатор не надо — всё уже есть. Судя по всему, и моргание и контур рта определяется тупо по контурам, а контуры в свою очередь — по контрасту между соседними регионами. На человеке со светлыми губами или тёмной кожей контур рта этим методом сразу бы «поплыл». В итоге получается та же модель формы (автор эксплисивно задаёт положение элементов лица относительно друг друга), но гораздо менее устойчивая.

Видео 2. Единственный интерес — определение направления взгляда. Вернее разделение на прямой и косой взгляд. В принципе, хааровский классификатор вполне подходит: haar-like features, используемые в нём, сводятся к сравнению регионов по количеству тёмных пикселей. В положении глаз «прямо» более тёмный регион будет находиться по середине, в других положениях — слева или справа. Отловить несложно. Для отслеживания положения бровей, улыбки, приподнятых бровей и т.д. хааровский классификатор абсолютно не заточен, хотя бы потому что возвращает прямоугольный регион (и степень схожести с паттерном, разумеется), а не какую-то заданную форму типа дуг бровей или овалов глаз.

@ZlodeiBaal Jun 15 2012 at 11:17

Я прекрасно понимаю особенности обработки изображения. И приведённые аргументы того, почему оно всё криво — лишь часть. Ровно поэтому я и говорю, что отладка кода заёмёт не один месяц. В роликах выше показывается лишь принципиальный эффект. И тут он не сильно хуже того, что получилось у Японцев из этого топика.
Очевидно, что делая серьёзную работу логику нужно расширить относительно простого Хаара. Как минимум нужно добавить трэкинг ключевых точек через соседние кадры, работать не с цветами, а с производными яркостей, итд. итп.
А целиком анализ мимики делать на мой взгляд не надо (более того, я не думаю, что его делали в приведённой работе). Надо всего лишь вычислять изменения относительно базового положения. А на анализе этого легко понять, улыбнулся человек или нет, открыл рот или поднял брови (кстати, бровей в OpenCV по-моему тоже не было, хотя я в основном с EmguCV работал, там чуть по другому).

@ffriend Jun 15 2012 at 14:19

> Очевидно, что делая серьёзную работу логику нужно расширить относительно простого Хаара. Как минимум нужно добавить трэкинг ключевых точек через соседние кадры, работать не с цветами, а с производными яркостей, итд. итп.

Ну и в итоге вы всё равно придёте к модели формы, а Хаар так и будет использоваться только для изначального нахождения лица и его элементов. Толку то :)

@Fedcomp Jun 14 2012 at 22:59

А Xbox помоему что то вроде такого уже разрабатывал

@Alexsey Jun 14 2012 at 23:22

kinect же. Только там не только простая камера используется, но и еще пара датчиков.

@Fedcomp Jun 14 2012 at 23:56

я не про kinect, а xbox rooms, что то вроде этого слышал, ну само собой там кинект используется.

@GriZone Jun 14 2012 at 23:23

просто классно! можно видео-касты писать тем у кого внешность скажем так — не очень презентабельна )
или да, как выше писали уже — в скайп )

@MrWeb Jun 14 2012 at 23:51

Кстати, можно кучу времени таким образом сэкономить на создании мультов. Вместо многочасовой прорисовки все отыгрывать актерам))

@Hig Jun 14 2012 at 23:58

Эм… А 3-d анимацию так и делают. Нет?

@MrWeb Jun 15 2012 at 00:01

Без понятия. Сейчас загуглю. Но лично я себе представлял, что каждому персонажу отрисовывают каждую эмоцию, и что занимает это очень много-много времени. Если окажется что это не так это разрушит мой мир, в котором пони какают бабочками))

@Alexsey Jun 15 2012 at 12:57

Все зависит от разработчка. Большая часть использует всякие facefx и прочий софт, который генерирует эмоции на основе анализа звукового файла, некоторые используют motion capture, и уж совсем большая редкость (я знаю только разработчиков Last of Us на ps3) анимируют лицо вручную по reference видео.

@SerDIDG Jun 15 2012 at 01:13

Подобным ютьюб болел с 3 года назад, много было роликов, где люди делали захват движение и в реальном времени анимировался 3д персонаж. У моей камеры logitech 2 летней давности есть даже подобная функция, правда чуть проще. Можно было выставить персонажа, откалибровать своё лицо, и в скайпе спокойно вместо себя показывать этого персонажа.

Японцы как всегда всё подхватывают, когда весь мир этим переболел, а журналисты потом пестрят желтизной, что вот уникальная разработка и тд.

UFO landed and left these words here

@Evengard Jun 15 2012 at 04:40

Aга, с Communicate Deluxe тоже такая шла

@Neofant Jun 15 2012 at 05:01

Не совсем понятно, кто здесь аватар :)

UFO landed and left these words here

@ryo_oh_ki Jun 15 2012 at 03:13

Эх, добавить бы эту технологию в виртуальные миры SecondLife…

@Vadaboom Jun 15 2012 at 07:28

Возьму, пожалуй, аватару Чака Норриса и позвоню-ка по скайпу начальнику…

@deBarb Jun 15 2012 at 08:49

главное — не нарваться на аватарку Брюса Ли…

@spiritedflow Jun 15 2012 at 17:52

Похож на старый добрый facetracknoir, известный любителям авиа-симуляторов, только работает по другому алгоритму и отслеживает положение губ.

Судя по личному опыту, facetracknoir прилично отнимает CPU даже на 30fps, а также очень капризен к освещению. Неравномерное освещение (окно сбоку), и летать уже спокойно нельзя.