cursed Oct 17 2011 at 10:14

Рециркуляционные нейронные сети

4 min

25K

Algorithms *

+56

Comments 33

blanabrother Oct 17 2011 at 11:06

Мне одному показалось, что это идентичные картинки? 0_о
Даже URL у них совпадает.

Aliseborg Oct 17 2011 at 11:09

Вообще, это одна картинка. Просто слева до — справа после

blanabrother Oct 17 2011 at 11:14

А Вы сделайте с помощью нейросети следующее:

Исходная картинка -> Сжатая -> Восстановленная -> Сжатая ->
Сжатая -> Восстановленная ->
Сжатая -> Восстановленная ->
Сжатая -> Восстановленная ->
…

Было бы интересно посмотреть результат

nervousnerd Oct 18 2011 at 08:45

Да, будет видна специфика добавляемых артефактов, у каждого алгоритма сжатия она своя.

lampa Oct 17 2011 at 11:22

Такое ощущение, что справа насыщенней, чем слева.

Siper Oct 17 2011 at 12:35

Тоже на iPhone сайт смотрите? :)

lampa Oct 17 2011 at 12:36

Нет :) LG L1952T

ftp27 Oct 18 2011 at 06:31

На highsreen cosmo они одинаковые ))

cursed Oct 17 2011 at 11:14

Они склеены в одну картинку. Разумеется URL совпадает.

blanabrother Oct 17 2011 at 11:16

Ычь. Ясно

plan Oct 17 2011 at 11:44

Можно взглянуть на картинки в большем разрешении? Мне тяжело на глаз определить различия…

Levsha100 Oct 17 2011 at 13:30

Не увидите. Там разница до трех единиц яркости по каждому каналу(из 256).

plan Oct 17 2011 at 17:21

Ну тогда не вижу смысла приводить какие-либо картинки. Наверное, нужно изменить задачу обучения для наглядного представления. Нейросеть, как я понял, представляет собой некий «фильтр», работающий в обе стороны… было бы неплохо сделать его более наглядным.

cursed Oct 17 2011 at 18:16

Нейронные сети бывают разные. В топике я описал рециркуляционные, задача которых сжатие и восстановление информации. При этом, разумеется, важным является потеря данных при восстановлении. То, что изображения не различимы — признак хорошей степени обученности сети.

plan Oct 17 2011 at 18:39

Ну это да… но на сжатое изображение можно взглянуть?

cursed Oct 17 2011 at 18:48

Разумеется нет. В сжатом виде это просто информация, которая никак не соотносится с изображением.

plan Oct 17 2011 at 19:16

Ну возможно как-то визуально оценить потери? А потери есть.

cursed Oct 17 2011 at 19:18

Потери можно оценить по восстановленному образу. Он приведен.

plan Oct 17 2011 at 19:24

Ну вот и вернулись к моему первому комментарию — по приведенной картинке это сложно сделать:
1. Разрешение низкое.
2. Картинки соединены — по размеру даже не сравнить.

Реально сделать более наглядно? Выделить области, где потеряна информация, продемонстрировать на изображениях с большим разрешением и т.д.

ivsedm Oct 18 2011 at 12:38

В данном случае нейросеть работает как архив, перегруппировывая данные. Ухудшение вы получите если плохо ее обучить. А цель автора я так понимаю, как раз и заключалась в том, чтобы доказать наличие возможность сжатия/восстановления информации без больших потерь данных.
Смысл ваших просьб показать плохой вариант, лично мне не понятен. Если вас интересует, можно ли это сделать плохо? То ответ да.

AHTOH Oct 17 2011 at 16:00

Справа этот мужчина переодетый женщиной выглядит примерно минуты на две старше.

Dehumanizer Oct 17 2011 at 16:41

Здесь важно просто доверять, а не проверять)

norlin Oct 17 2011 at 19:07

На глаз видно, что правая картинка как бы чуть чётче (заметно по завиткам сверху).

p.s. я правильно понял, что комментарии свелись к обсуждению картинок, т.к. формулы и матрицы в статье никто не понял? :)

intelligenceAgent Oct 17 2011 at 19:07

В качестве функции активации нейронных элементов F может использоваться как линейная, так и нелинейная функции

Не понятно какую функцию активации вы использовали?

cursed Oct 17 2011 at 19:17

Линейную.

intelligenceAgent Oct 17 2011 at 19:25

Тогда статья скорее про PCA чем про нейросети.

plan Oct 17 2011 at 19:30

Именно.

AndreyIvanoff Oct 17 2011 at 19:47

Посжимайте белый шум пожалуйста (ну можно еще и коррелированные случайные поля посжимать при разной корреляции), сразу станет все ясно.

FishDude Oct 17 2011 at 22:09

Господа! Приведенный пример в высшей степени не нагляден.

1) Давайте сразу учтем, что уж коль png срабатывает без потерь по этой картинке с коэффициентом сжатия 74%, то нет никакого смысла применять любой алгоритм сжатия с потерями, который отработает хуже (в статье заявлено сжатие 77%).

2) Поэтому, предлагаю выложить в комментариях образцы, подвергшиеся сжатию со степенью <20%. Это позволит наглядно оценить характер вносимых алгоритмом искажений, и сделать выводы о пригодности данного алгоритма «в реальной жизни».

NickLion Oct 18 2011 at 06:07

Пока подробно не вникал в суть, но сразу замечания по оформлению:
1. Нечитаемые формулы из ворда. (Хотя бы крупнее их сделать, местами линии просто пропали, а лучше нормальные формулы в TeX сделать)
2. Кривые отсканированные картинки. (Неужели сложно перерисовать — это 15 минут).

nervousnerd Oct 18 2011 at 08:58

Хоть и обвиняют русскоязычные блоги в неблагодарности по отношению к автору, но в данном случае всё-таки я бы сделал замечание автору за сильный перекос статьи в сторону ненужных теоретических подробностей.
Вместо этого следовало:
1. Взять несколько примеров сжимаемых картинок (природа, портрет, рисунок, белый/розовый шум) и ужать их как можно сильнее, чтобы понять как и насколько вылезающие артефакты соотносятся с исходным изображением.
2. Объяснить почему для реализации был выбран именно Clojure — не имею ничего против, но почему не Python, C#, Haskell или, простигосподи, Malbolge? С какими сложностями при реализации пришлось столкнуться? Какова производительность в зависимости от размера исходника? Кстати, большой плюс за дублирование реализации на Java — это более user friendly, пока что.
3. Прокомментировать свой вклад в тему — то ли он впервые применил рециркуляционные НС для сжатия изображений, то ли просто взял готовый алгоритм и реализовал его на любимом языке.

Извиняюсь за наезд, просто сам с детства сталкиваюсь с тем что кроме того что нужно добиться результата, нужно уметь правильно его преподносить.

nervousnerd Oct 18 2011 at 08:59

И ещё — не мелковаты ли блоки 3х3 пикселя? :) Может стоило наоборот экстремальные варианты взять типа 128х128 и более?

vopros Oct 27 2011 at 07:19

Вот еще на тему sparse autoencoders замечательный туториал от Andrew Ng из Стенфорда:
ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial