Pull to refresh
253
0
Семен Козлов @sim0nsays

Пользователь

Send message
Стоять! Это была статья про их улучшенный метод градиентного спуска, это вообще не про иницализацию. Инициализацию они обсуждают тут — http://arxiv.org/pdf/1312.6120.pdf, и там натурально независимо от глубины (искать по словам orthogonal initialization).

Поправлю пост
Все так, RMSProp, adagrad и прочее — как раз для этого, но не сказать, что они эту задачу всегда решают успешно. Когда шума много, маленький сигнал из правильного направления легко забить :(

Про второе — хм, он по-моему в докладе прямо говорил, что мол indepedent, график показывал — image
Или вы прочитали статью и это все обман?

Привет, я работаю в Dropbox (правда, в несвязанной с топиком области). Может быть, можно ключевые моменты перевести на английский, чтобы я мог передать фидбек кому надо?
Я прочитал определение гетерархии в википедии и оно ничем мне не помогло понять ваш комментарий :)

Это и есть иерархическое обучение разделениям фич. Они пробовали выделять и иерархические категории тоже, со сходным результатом
Клево! Больше нейросетей! А расскажите какие-нибудь детали про процесс войны за обучение? Что попробовали и не сработало? Как выбирали толщину? Какой размер датесета?
В общем, больше мяса!
Извиняюсь за некропостинг, пост показали только недавно.

Вопрос про деталь алгоритма:
> В каждом пикселе на новом уровне пирамидального разложения вычисляем разницу между значением пикселя из пирамиды максимумов и значением из пирамиды минимумов. Если эта разница не превосходит шумовой порог, считаем, что полезного сигнала в этом участке изображения нет, причем как на этом, так и на последующих уровнях пирамидального разложения

Если читать текст буквально, то кажется возможен странный эффект.

Предположим, в среднем документ довольно ярок, т.е. средний уровень предположим где-то около 0.7, а максимум и минимум — пусть 0.5 до 1.0. В этом случае, алгоритм перестанет делать локальные изменения порогов вообще — уровень порога, приходящий с верхнего уровня будет 0.7, разница между максимальным и минимальным не больше — 0.5, следовательно делать ничего не нужно на всех уровнях.

Казалось бы, хочется не такого поведения, а как раз вычесть среднее (0.7) и улучшать контраст в разных частях документа.

Поясните плз?
Второй день забываю прислать смешной пример в тему:
http://imgur.com/a/K4RWn (Chihuahua or muffin особенно жжот)

Спрашивается, насколько это путает нейросеть?
Оказывается, что не очень:
https://imgur.com/a/zLWre
Про принципиальную возможность будущими методами комментировать сложно :)
Можно только сказать, что текущие методы нахождения таких примеров применимы плохо — они требует точного знания всех параметров модели, симулировать и сканировать мозг с такой точностью можно будет очень нескоро.
Не, что такое adversarial examples (то, о чем статья по вашему линку) — достаточно понятно.
Я не слышал именно том, чтобы таким методом получилась что-то, на чем ошибается человек. Обычно adversarial examples приводят в пример как раз обратного — мол, что это за обучение такое, если его обмануть гораздо проще человека.
Я о таком не слышал, и это было бы очень странно — adversarial examples для CNN приспосабливается к деталям конкретных обученных весов, без полной с точностью до конкретных параметров модели кортекса такое не подобрать.

Ну и вообще, не следует проводить аналогии между искусственными и биологическими нейросетями слишком далеко
Superhuman performance нейросетей в некоторых задачах не очень относится к обсуждаемой теме.
Но у меня ощущение, что просто у нас датасета хорошего пока нет, чтобы объекты были повернуты всеми возможными способами. Масштабирование RCNN уже прилично решают, мне кажется.
Superhuman performance нейросетей в некоторых задачах не очень относится к обсуждаемой теме. Но у меня ощущение, что просто у нас датасета хорошего пока нет, чтобы объекты были повёрнуты всеми возможными способами. Масштабирование RCNN уже прилично решают, мне кажется.
Да, безусловно это крайне упрощённая модель и цели повторить метод обучения в мозге не стоит — мы про это слишком мало пониманием. Скорее, аналогия проводится на уровне «если у нас система научилась неким способом, то она начинает быть больше похожа на живые нейроны которые научились неким неизвестным способом». Т.е сравнивается результат обучения, а не процесс.
Ооо, вот это серьезный разговор! Спасибо вам, пишите еще!

Осталось до word spotting и character recognition добраться.
Я правильно понял, что серые фотографии с очертаниями NFSW элементов получены как разность между оригиналом и картинкой «доведенной» сетью описанным методом?
Очень хочется услышать про какие-то детали собственно подхода к мобильному OCR. Понятно, что OCR с фотографий телефонов — намного более сложная задача, чем отсканированного документа, и вам наверняка пришлось пройти долгую интересную дорогу, чтобы довести классические методы до хорошего результата.

Расскажите нам о ней, это же безумно интересно!
Как я понимаю, у вас одно из лучших в индустрии решений, сравнивать можно разве что с Google Translate, но они в некотором смысле другую задачу решают.
Гугл о деталях работы Google Translate, кстати, рассказывает.
Рассказывайте об интересных докладах подробнее, пожалуйста! Вот так — это совсем не информативно.
Все так, на такой матрице алгоритм ошибется. Однако если сгенерировать много матриц разных рангов, угадывает все равно сильно лучше рандома.

Information

Rating
Does not participate
Location
San Francisco, California, США
Works in
Date of birth
Registered
Activity