mephistopheies 9 авг 2016 в 15:59

Стилизация изображений с помощью нейронных сетей: никакой мистики, просто матан

14 мин

92K

Блог компании VKАлгоритмы*Математика*Машинное обучение*Обработка изображений*

+137

Комментарии 38

veter 9 авг 2016 в 16:57

Я думал, что никогда не увижу такой крутой пост в блоге Мейл.ру.

mephistopheies 9 авг 2016 в 22:37

ну вы мне сейчас как пощечину отвесили, а как же этот https://habrahabr.ru/company/mailru/blog/252965/? -)

LynXzp 9 авг 2016 в 23:40

Разработчики mail.ru невероятно круты в своих хобби. Люди живут прекрасной жизнью! Но на основной бизнес это не сильно распространяется, надеюсь это будет потихоньку исправлятся.

lookid 9 авг 2016 в 23:52

Бизнес должен решать конкретную задачу, которую можно продать. Пускай это будет даже бот-нет или еще что-нибудь. Это же просто интересная публикация какой-нибудь магистратуры. Её не продашь, это не бизнес.

Al_Azif 23 июл 2017 в 00:24

Да-да, сделать интеллектуальный тулбар, который невозможно будет удалить.

mephistopheies 9 авг 2016 в 23:56

вообще была одна тема, применимая к бизнесу, как можно использовать идеи стайл трансфера для поиска похожих изображений на примере шмоток, хотел это в этот пост включить, но он и так уже здоровый, так что может запилю отдельный пост

там фишка в том, что бы сначала использовать выход pool5 слоя для сегментации, и по этой маске считать матрицы Грама, результат реально крутой

Fontanka135 19 авг 2016 в 18:51

например?

noonv 9 авг 2016 в 17:53

Крутая статья! Спасибо!

helg1978 9 авг 2016 в 21:02

почитал — для меня все равно магия

mephistopheies 9 авг 2016 в 22:25

если спросите что то конкретное, то могу попробовать объяснить попроще

helg1978 10 авг 2016 в 01:48

нет, что вы, дело не в вас, статья отличная!

mephistopheies 10 авг 2016 в 01:55

ну так то я и не думал что во мне -) я почти все свои посты делаю в рамках подготовки к своему курсу, так что мне чо нить по объяснять это хорошая практика

samodum 10 авг 2016 в 15:46

Что значит «Вычислить значение производной по изображению»?

mephistopheies 10 авг 2016 в 16:54

как правило, при оптимизации мы фиксируем некоторое изображение I, вычисляем значение некоторой функции стоимости E при параметрах theta (прогнали картинку через нейросеть, затем нашли ошибку при классификации), и наконец для градиентного шага вычисляем

мы получим такое значение параметров, что если изменить текущие значение параметров на это полученное, то значение функции ошибки будет меньше

но тоже самое будет если считать, что параметры theta фиксированы, а изображение нет

но нейросеть — это суперпозиция функций, и если вместо E взять нейрон отвечающий за некоторый класс i, а это тоже функция f_i, тогда будет верно следующее

т.е. нам нужно найти такую картинку, что если ее прибавить к текущей, значение нейрона отвечающего за класс (или фичу) стало больше (т.е. класс/фича стали более ярко выраженны)

helg1978 10 авг 2016 в 17:52

Обратная свертка не очень понятна, но я принял ее за догму )
Я правильно понимаю, что коэфициенты нейросети давно посчитаны, и они в открытом доступе?
Т.е. вычисления можно засунуть в какой-нибудь шейдер, и делать это real-time 60 раз в секунду?

mephistopheies 10 авг 2016 в 19:30

Обратная свертка не очень понятна, но я принял ее за догму )

вообще операцию свертки можно представить как матричное произведение развернутой по особому образу картинки I_e на ядро свертки K в результате чего получается некоторый результат F; тогда просто можно выразить исходную картинку

Я правильно понимаю, что коэфициенты нейросети давно посчитаны, и они в открытом доступе?

да верно, у той сети, из которой мы вычисляем фичи стиля и контента, веса фиксированны (например сеть обученная на имаджнете)

Т.е. вычисления можно засунуть в какой-нибудь шейдер, и делать это real-time 60 раз в секунду?

так фреймворки и делают

BelBES 9 авг 2016 в 21:17

Спасибо за пост, а то у самого разобраться руки бы еще долго не дошли.

з.ы. по поводу видеоролика в конце видео: тут надо полагать использовался некий оптический поток для темпоральной регуляризации? Иначе не понятно, как между кадрами стиль так удачно и однообразно применился.

mephistopheies 9 авг 2016 в 22:25

в последнем ролике как раз нет ничего, это просто удачная манипуляция стилевыми изображениями; скажем если сделать стилевое изображение с большим количеством деталей, то покадровая обработка будет генерировать много шума

Randl 10 авг 2016 в 04:33

А можно ли обучить сетку на наборе изображений? Например, ваши домики в стиле ван Гога однозначно выдают всем известную картину. Можно ли будет сгенерировать на основе пары десятков картин новую картину в стиле того же ван Гога или Пикассо (относительно узнаваемые стили) но при этом не похожую однозначно на какую то конкретно картину из набора скормленных сетке?

Возможно я сейчас спросил глупость и это уже у каждого в смартфоне, просто практической стороной вопроса не увлекаюсь как-то.

mephistopheies 10 авг 2016 в 19:16

да мы так пробовали, действительно можно, ну и результат получается граничный между двумя стилями; на счет пары десятков не думаю что получится в принципе такое обучить, лосс функция занимает много места; скажем тф вообще оказался не готов к таким лоссам и просит 8гб памяти ГПУ на одну картинку

ovkenobi 10 авг 2016 в 09:48

КДПВ конечно жесть

xenohunter 10 авг 2016 в 13:17

Немного занудства: ВДПВ.

ArisChik 10 авг 2016 в 10:35

Статья шикарная, столько матана, практически идеальный текст.

Но (если честно) выглядит как попытка кинуть камень в спину Prisma и Юрия Гурского. Мол, «посмотрите, в этой вашей Prisma никакой магии нет — любой может запилить такое же приложение». Хотя это лишь субъективное впечатление основанное на вступлении и интонациях текста, а матчасть все равно отличная.

mephistopheies 10 авг 2016 в 12:21

вы конечно можете мне не верить, но можно поверить например руководителю призмы, судя по его словам, для призмы нужно уметь гитклонить, нужно иметь под рукой хороших бэкэндеров для высоконагруженных сервисов и необходимо пару мешков золота на инфраструктуру; это к вопросу о трудностях

а так то моя задача — это подготовка к своему курсу по нейросетям в техносфере МГУ, там кстати будет домашка для студентоты как раз написать стилизацию; в ШАДе студенты еще с прошлого года делают такую домашку

ArisChik 11 авг 2016 в 11:01

«нужно уметь гитклонить»

Вот из-за таких подколов и написал, что выглядит как попытка постебаться с Призмы. Скользит раздражение, так сказать. Но, в любом случаи, спасибо за прекрасный текст!

darkolorin 15 авг 2016 в 03:27

Ну все-таки просто "гитклонить" это даже обидно звучит. Я нигде не утверждал, что мы изобрели что-то уникальное, дело в оптимизациях и тюнинге. Мы все-таки больше делаем продукт, чем исследование. Но исследованием немного занимаемся.
Статья отличная.

mephistopheies 15 авг 2016 в 03:33

а будет пост про тюнинг и немного исследований? сейчас то что уже скрывать, аудитория уже есть

Bas1l 10 авг 2016 в 13:00

Если такая попытка у автора была, то она более чем оправдана. Потому что призма делает ровно то, что делает статья "A Neural Algorithm of Artistic Style", ни больше, ни меньше. А к этой статье авторы выложили даже исходный код (и, мне кажется, еще несколько энтузиастов повторили этот код независимо следуя за статьей). Вот прошлогоднее обсуждение на реддите, где есть все нужные ссылки. Более того, вслед за этим появилось и несколько сайтов (ссылки лень искать), которые позволяли стилизовать любое свое изображение под другое (тоже задаваемое) изображение. Призма подобрали хорошие изображения со стилем для фильтров, не без этого.

BelBES 10 авг 2016 в 13:29

Prism — это стартап, который делал продукт, а не алгоритм. Весь ресерч еще до них сделали и поделились кодами.

bask 10 авг 2016 в 15:32

никакой магии нет — любой может запилить такое же приложение

mungobungo 10 авг 2016 в 18:24

А вот по размеру картинок какие-то ограничения есть? Ну например я точно знаю что «A Neural Algorithm of Artistic Style» на амазоновских инстансах больше 700 пикселей +- не тянет. Надо или переходить на Титан Х, или использовать что-то другое.
Собственно вопрос в том, куда можно посмотреть в сторону этого другого? Если я например хочу применить стиль к картинке 10Кх10К?

mephistopheies 10 авг 2016 в 19:14

алгоритм который приведен в «A Neural Algorithm of Artistic Style» он для каждой стилизации требует считать лосс функцию (она и занимает почти весь объем памяти), но можно вместо этого обучить генератор (см две последние ссылки на статьи), процесс обучения займет больше времени, тогда размер картинки будет ограничен такой, которая влезет в память при обучении в режиме batch=1 (ну и моделью для нее), это будет явно большая картинка

в процессе генерации, вам не нужно будет вычислять лосс функцию

mungobungo 11 авг 2016 в 10:56

В общем я проверил Chainer реализацию вчера. Да, она сильно быстрее и да, она может обрабатывать бОльшие картинки.
Но для размера 1400х1020 она отжирает 9 гиг памяти.

Поэтому вопрос 10к на 10к остается открытым.

Кстати я все еще не понимаю почему для сети есть зависимость от роста изображения. Ведь размер самой сети фиксирован.

Должна же быть возможность порезать картинку на части и скармливать по отдельности. Или сделать что-то типа страйдов, чтобы сгладить переходы.

mephistopheies 11 авг 2016 в 11:59

если вы про сеть-генератор, то там зависимость от размера не так выражена, тк в тут вы сами можете контролировать размеры слоев, и в крайнем случае вообще ничего не менять, только на первом слое сделать большой страйд, но тогда и качество генерации будет соответствующее

если же говорим о loss сети, то там от картинки зависит размер выходного тензора, он то и занимает много места в памяти

если скармливать по частям, то нет гарантии что соседние патчи будут одинаково сгенерированы так, что не будет видно границы, даже если делать с наложением, но я сам это не пробовал, так что можете попробовать и скинуть картинку -)

mungobungo 11 авг 2016 в 13:50

Ну а в сети генераторе там дорогое переобучение (4 часа на титанх, то есть в амазоне часов 20), поэтому просто поиграться тоже не выйдет.

а оверлап я точно попробую. может что-то и выйдет.

НЛО прилетело и опубликовало эту надпись здесь

bask 11 авг 2016 в 11:21

первые же ссылки в гугле:
http://timdettmers.com/2015/03/09/deep-learning-hardware-guide/
https://www.quora.com/Is-there-any-specialized-hardware-for-deep-learning-algorithms

mephistopheies 11 авг 2016 в 12:04

если вы для себя, то можно и на обычном компе даже без ГПУ, алгоритм Гатиса из лазаны в ЦПУ отработает за минут 5-10, если у вас есть ГПУ то будет быстрее, а если ГПУ с 4+ гб оперативы то можно уже и генераторы потренировать

Зарегистрируйтесь на Хабре, чтобы оставить комментарий