Pull to refresh
4
0

Пользователь

Send message
Но зачем упоминать CNN в заголовке статьи в которой нет CNN?
>Свёрточное ядро представляет из себя обычно -1 и 1, обозначающие черные и белые цвета соответственно, либо на оборот.
Ну строго говоря не обязательно (для случая с CNN), веса же в процессе обучения получаются, по большому счету они могут быть любыми
Вероятно самое иллюстрированное объяснение линейной комбинации что я видел в своей жизни
Я к сожалению не особо разбираюсь в Theano от слова совсем.
Однако чуть погуглив наткнулся на это
http://deeplearning.net/software/theano/library/sandbox/cuda/dnn.html
>The recently added Theano flag dnn.enabled allows to change the default behavior to force it or disable it. Older Theano version do not support this flag. To get an error when cuDNN can not be used with them, use this flag: optimizer_including=cudnn
Могу предположить что он нужен чтобы сказать theano использовать cuDNN (GPU либа с низкоуровневыми, сильнооптимизированными примитивами для глубокого обучения от NVIDIA) http://dhaneshr.net/2015/09/10/setting-up-cudnn-and-theano-on-ubuntu-14-04-and-15-10/
Прикольно, не знал. Честно говоря, я так и не освоил преобразования Фурье и всякие DFT/FFT
Собственно еще одна причина думать что с оригинальным функционалом что-то не так
Хороший вопрос =)
Если можно смаз описать сверткой, то можно попробовать ее подсунуть в этот алгоритм да. Иначе — не знаю, надо смотреть статьи.
Это же риторический вопрос =)
ISTA это вроде как про оптимизацию, а не про смазывание/размытие
А так много что используют, к примеру,размытие по гауссу
Посмотрел во вторую статью из списка источников, там вроде есть Total variation term (2*lambda*||x||_TV который говорит что градиент по картинке должен быть примерно одинаков, но допускаются разрывы), если его подставить в первую формулу, то все несколько проясняется. Но хотелось бы увидеть все это в данной статье
Есть еще несколько вопросов. Не сочтите за грубость, просто мне интересны численные оптимизации.
В оригинальной постановке задачи (|| y — Ax ||_2) если || x ||_2 = sum_i ((x_i)^2), то вся задача это просто МНК который выливается в решение очень сильно разреженной СЛАУ. Я не большой специалист, но мне кажется что что-нибудь из семейства сопряженных градиентов на GPU должно было показать себя очень хорошо по части производительности.
Хотелось бы увидеть обоснование второго «улучшенного» функционала. Если со слагаемым (||alpha * ( x — x_k) ||^2) все более менее ясно (просим чтобы текущее решение было поближе к предыдущему), то с термом -A^t*A все совсем не понятно (откуда он взялся, зачем нужен и т.д.)
И да,
>Задача значительно проще
Вот это вот совсем не очевидно. Было бы здорово рассказать чем проще

Возможно пропустил, но soft thresholding подразумевает что у нас есть L1 слагаемое в функционале, а в формулах вроде только L2
> Добавляя на каждом шаге разницу между результатом двух предыдущих итераций, мы увеличиваем сходимость алгоритма до квадратичной
Было бы здорово объяснить почему
А можно работу с state-of-the-art результатми? А то последний раз я пробовал dlib, и местный детектор не особо был точен на глазах
Если я правильно понял, то эта статья все же вольный пересказ существующей работы. Извиняюсь если не прав.
Я просто не уверен что в этом случае можно применять термин «локальный минимум»
Ну и сильно не хватает подробного описания «Абатура», каким образом происходит обучение, и т.д.
По поводу второй задачи
> q=(k1-10)^2+(k2+15)^2+(k3+10*k4-0.06)^2+
>она равна сумме квадратов от неких линейных функций
>У функции много локальных оптимумов, но она гладкая.
Это же просто что-то в духе МНК. И тут либо есть глобальный минимум, либо бесконечное число равнозначных минимумов (зависит от того, SPD ли матрица вторых производных, или же semi positive definite).

Я неправ?
Paper — статья, конкретно в этом случае — научная публикация
Такой же как и любой интерпретируемый язык — если удается сводить обработку к редким (относительно) вызовам сишных функций, то все хорошо, в противном случае — не очень
Если под МНК вы имеете ввиду линейный МНК (линейная ф-ия под квадратом), то ИНС, как правило, могут работать с нелинейными зависимости.
>Но есть ведь и другие способы приближения нелинейных функций. Хоть в ряд Тейлора её разложить, или в Фурье.
Как правило у вас нет почти никакой информации о ф-ии которую вы хотите аппроксимировать, только ее значения в некоторых точках. В этих условиях взять туже производную для ряда Тейлора несколько проблематично.

Information

Rating
Does not participate
Registered
Activity