Как стать автором
Обновить
252
0
Семен Козлов @sim0nsays

Пользователь

Отправить сообщение
Стоять! Это была статья про их улучшенный метод градиентного спуска, это вообще не про иницализацию. Инициализацию они обсуждают тут — http://arxiv.org/pdf/1312.6120.pdf, и там натурально независимо от глубины (искать по словам orthogonal initialization).

Поправлю пост
Все так, RMSProp, adagrad и прочее — как раз для этого, но не сказать, что они эту задачу всегда решают успешно. Когда шума много, маленький сигнал из правильного направления легко забить :(

Про второе — хм, он по-моему в докладе прямо говорил, что мол indepedent, график показывал — image
Или вы прочитали статью и это все обман?

Привет, я работаю в Dropbox (правда, в несвязанной с топиком области). Может быть, можно ключевые моменты перевести на английский, чтобы я мог передать фидбек кому надо?
Я прочитал определение гетерархии в википедии и оно ничем мне не помогло понять ваш комментарий :)

Это и есть иерархическое обучение разделениям фич. Они пробовали выделять и иерархические категории тоже, со сходным результатом
Клево! Больше нейросетей! А расскажите какие-нибудь детали про процесс войны за обучение? Что попробовали и не сработало? Как выбирали толщину? Какой размер датесета?
В общем, больше мяса!
Извиняюсь за некропостинг, пост показали только недавно.

Вопрос про деталь алгоритма:
> В каждом пикселе на новом уровне пирамидального разложения вычисляем разницу между значением пикселя из пирамиды максимумов и значением из пирамиды минимумов. Если эта разница не превосходит шумовой порог, считаем, что полезного сигнала в этом участке изображения нет, причем как на этом, так и на последующих уровнях пирамидального разложения

Если читать текст буквально, то кажется возможен странный эффект.

Предположим, в среднем документ довольно ярок, т.е. средний уровень предположим где-то около 0.7, а максимум и минимум — пусть 0.5 до 1.0. В этом случае, алгоритм перестанет делать локальные изменения порогов вообще — уровень порога, приходящий с верхнего уровня будет 0.7, разница между максимальным и минимальным не больше — 0.5, следовательно делать ничего не нужно на всех уровнях.

Казалось бы, хочется не такого поведения, а как раз вычесть среднее (0.7) и улучшать контраст в разных частях документа.

Поясните плз?
Второй день забываю прислать смешной пример в тему:
http://imgur.com/a/K4RWn (Chihuahua or muffin особенно жжот)

Спрашивается, насколько это путает нейросеть?
Оказывается, что не очень:
https://imgur.com/a/zLWre
Про принципиальную возможность будущими методами комментировать сложно :)
Можно только сказать, что текущие методы нахождения таких примеров применимы плохо — они требует точного знания всех параметров модели, симулировать и сканировать мозг с такой точностью можно будет очень нескоро.
Не, что такое adversarial examples (то, о чем статья по вашему линку) — достаточно понятно.
Я не слышал именно том, чтобы таким методом получилась что-то, на чем ошибается человек. Обычно adversarial examples приводят в пример как раз обратного — мол, что это за обучение такое, если его обмануть гораздо проще человека.
Я о таком не слышал, и это было бы очень странно — adversarial examples для CNN приспосабливается к деталям конкретных обученных весов, без полной с точностью до конкретных параметров модели кортекса такое не подобрать.

Ну и вообще, не следует проводить аналогии между искусственными и биологическими нейросетями слишком далеко
Superhuman performance нейросетей в некоторых задачах не очень относится к обсуждаемой теме.
Но у меня ощущение, что просто у нас датасета хорошего пока нет, чтобы объекты были повернуты всеми возможными способами. Масштабирование RCNN уже прилично решают, мне кажется.
Superhuman performance нейросетей в некоторых задачах не очень относится к обсуждаемой теме. Но у меня ощущение, что просто у нас датасета хорошего пока нет, чтобы объекты были повёрнуты всеми возможными способами. Масштабирование RCNN уже прилично решают, мне кажется.
Да, безусловно это крайне упрощённая модель и цели повторить метод обучения в мозге не стоит — мы про это слишком мало пониманием. Скорее, аналогия проводится на уровне «если у нас система научилась неким способом, то она начинает быть больше похожа на живые нейроны которые научились неким неизвестным способом». Т.е сравнивается результат обучения, а не процесс.
Ооо, вот это серьезный разговор! Спасибо вам, пишите еще!

Осталось до word spotting и character recognition добраться.
Я правильно понял, что серые фотографии с очертаниями NFSW элементов получены как разность между оригиналом и картинкой «доведенной» сетью описанным методом?
Очень хочется услышать про какие-то детали собственно подхода к мобильному OCR. Понятно, что OCR с фотографий телефонов — намного более сложная задача, чем отсканированного документа, и вам наверняка пришлось пройти долгую интересную дорогу, чтобы довести классические методы до хорошего результата.

Расскажите нам о ней, это же безумно интересно!
Как я понимаю, у вас одно из лучших в индустрии решений, сравнивать можно разве что с Google Translate, но они в некотором смысле другую задачу решают.
Гугл о деталях работы Google Translate, кстати, рассказывает.
Рассказывайте об интересных докладах подробнее, пожалуйста! Вот так — это совсем не информативно.
Все так, на такой матрице алгоритм ошибется. Однако если сгенерировать много матриц разных рангов, угадывает все равно сильно лучше рандома.

Информация

В рейтинге
Не участвует
Откуда
San Francisco, California, США
Работает в
Дата рождения
Зарегистрирован
Активность