Pull to refresh

Comments 24

Спасибо за интервью! Абзац про искусственные интеллект и сознание в контексте диалога с Бенджио заставил в очередной раз задуматься на эту тему.
Дмитрий Петрович, вопрос тем не менее по заключительной части интервью. Какие научные статьи по глубинному обучению и байесовским методам (или их авторы) произвели на Вас наибольшее впечатление в последнее время. Хотелось бы Ваших рекомендаций.
Мои предпочтения сильно смещенные относительно общих трендов. Мне не очень нравятся статьи в духе «мы вот тут добавили skip-connections причем через два слоя и у нас все заработало», хотя именно такие статьи обозначают новые направления развития глубинного обучения. Я люблю статьи, которые объясняют, почему та или иная эвристика работает или которые предлагают новый математический аппарат, который на большие объемы данных переносится. Примерами таких статей могут быть:
1. Stochastic Variational Inference. www.columbia.edu/~jwp2128/Papers/HoffmanBleiWangPaisley2013.pdf
2. Doubly Stochastic Variational Bayes for non-Conjugate Inference
proceedings.mlr.press/v32/titsias14.pdf
3. Variational Dropout and the Local Reparameterization Trick arxiv.org/pdf/1506.02557.pdf
Это не самые хорошо написанные статьи. Но они дают новый инструментарий и/или расширяют наше понимание происходящего в нейронных сетях. Ну и еще они байесовские ;-)
Спасибо большое за подробный ответ!
Большое спасибо ребятам из ODS и за курс, и за такие интервью. И за обзоры научных статей(которых, увы, теперь нет).
К Дмитрию Петровичу вопрос скорее по административной части. Как ему и коллегам удалось договорится с Samsung'ом о создании совместной лаборатории, которая занимается фундаментальными исследованиями, а не прикладными? Это довольно редко встречается, и только у самых крупных «денежных мешков» — Гугла и Майкрософта. Несколько неожиданно видеть появление такой инициативы где-то еще.
Ой, тут очень простой рецепт. Я шел на встречу с представителями Самсунга с твердым намерением отказаться от любых предложений по причинам, которые по этическим соображениям озвучивать не буду. Переговоры вел соответственно. К чести наших южнокорейских коллег, они это быстро поняли и перестроили свою линию. В итоге мы договорились.

Я бы хотел в этой связи обратить внимание на несколько моментов: (1) Самсунг по своим размерам это компания калибра гугла и майкрософта, поэтому тут противопоставления не должно быть; (2) небольшая лаборатория, занимающаяся фундаментальными исследованиями, которые могут привести к появлению новых направлений в области машинного обучения, стоит недорого и вполне по карману крупной национальной компании — транснациональной корпорацией для этого быть не нужно; (3) Самсунг открывает весной ПЕРВЫЙ исследовательский центр крупной корпорации в Москве, который бы занимался разработкой новых технологий ИИ (не путать с совместной лабораторией Самсунг-ВШЭ вашего покорного слуги). До сих пор такие центры открывались в Лондоне, Монреале, Торонто и пр. Кажется, что это большой успех для страны, вообще, и, в особенности, для наших молодых исследователей, которые получат возможность разрабатывать новые технологии в наиболее перспективной области науки в России и не стыдиться при этом своей зарплаты в разговорах с друзьями-разработчиками из индустрии. Заниматься наукой снова станет круто, престижно и прикольно! Жалко, что только в отдельно взятой области…
Благодарю за столь подробный ответ. Что ж, успехов вам и вашим коллегам(а так же студентам и аспирантам).
UFO just landed and posted this here
Поверьте, мой случай еще не клинический. Я хотя бы создаю воспитываю молодых исследователей (судя по тому, что моих аспирантов потом массово хантит DeepMind, небезуспешно), разрабатываю новые учебные курсы, не имеющие в России аналогов, и публикуюсь на ведущих конференциях (где докладов от России меньше чем пальцев на руке), повышая престиж нашей страны. Да и гранты у меня не десятками миллионов рублей исчисляются как в некоторых отечественных университетах, где коллективы пишут тысячестраничные(!) отчеты и прикладывают чужие коды с гитхаба в качестве результатов своей работы (у меня студенты лучше шифруются, когда списывают практические задания по байесовским методам :)) ). Вот это я понимаю грантопилы, производящие ничего. А мне еще учиться и учиться до них…

Дмитрий Петрович, это тролль, его лучше не кормить.

Ладно, одну косточку подкинул, пусть пожует. Он же голодный, бедняжка ;-)

Большое спасибо за интервью, было очень интересно. За лекции по истории хочется сказать Дмитрию отдельное спасибо! К Дмитрию Петровичу у меня есть следующий вопрос. Есть ли какие-либо примеры успешного применения глубинного обучения к решению обратных задач? Имеется в виду линейная задача, которая в классическом подходе сводится к поиску псевдообратной матрицы. И есть ли какая-либо хорошая статья на эту тему.

Я не Дмитрий Петрович, но спрошу: зачем псевдообратную матрицу искать с помощью глубинного обучения?

Я имел в виду не именно поиск псевдообратной матрицы, а поиск решения обратной задачи. Просто, так сказать, сузил класс задач до линейных, т.е. тех что представимы в матричном виде. Во многих приложениях обратных задач чтобы добиться наилучшего результата используют алгоритмы эксплуатирующие особенности конкретной постановки. Мой вопрос скорее о том, пытался ли кто-то применить глубинное обучение к линейной обратной задаче, с целью чтобы алгоритм сам извлек особенности задачи и построил в неком смысле оптимальный обратный оператор, не опираясь на эмпирические алгоритмы исследователя.
Наверное не совсем то о чем вы спрашиваете, но все же — Supervised Descent Method. Внутри не Deep Learning, но это совсем не принципиально.
Довольно интересный пример — задача формулируется в виде задачи оптимизации, а потом решается путем обучения регрессоров которые генерируют очередной шаг оптимизации вместо классического Newton step (который в редких случаях требует нахождения обратной матрицы, но обычно сводится к поиску Гессиана и решению СЛАУ)

Что-то как-то статья умалчивает временную сложность предлагаемого подхода. И на страничке, где можно код скачать, по ссылке из статьи, – "IntraFace is no longer available to download nor supported." :)

Временная сложность чего именно имеется ввиду? Если кол-во шагов «оптимизации», то его можно выбирать по валидации.
Метод вполне рабочий, время от времени встречаю ссылки на него в работах и бенчмарках посвященных facial landmarks detection.
Более того, технически это аналог алгоритма из статьи «one millisecond face alignment with an ensemble of regression trees» (который в Dlib) просто сформулированный как задача оптимизации и с другим регрессором/входными фичами. Ну по крайней мере мне так казалось.
Тут вроде есть реализация github.com/patrikhuber/superviseddescent. Сам не проверял.

Ну… я пробежал статью глазами за 4 минуты, увидел, что вместо классических методов 2-го порядка предлагается что-то еще. Увидел сравнения по качеству решения задачи face detection. А про время работы ничего… Конечно, это вовсе не значит, что метод не полезен, но наверняка про время работы умолчали не просто так.

Т.е. время inference? Упирается в тип регрессора (в статье он линейный) и алгоритм извлечения фич. Второй скорее всего будет ботлнеком. По идее метод очень быстрый, но не очень точный.

Я даже не про face detection, а просто про решение задачи оптимизации, "4.1. SDM on analytic scalar functions". Странно, что они говорят, например, "SDM converges with the same number of iteration as Newton method
but each iteration is faster", но не подтверждают последнее цифрами. Ну да ладно…

Я не вдавался в подробности, но скорее всего все просто — matrix-vector product быстрее чем подсчет гессиана+решение слау. Другое дело, что регрессоры требуют обучения, которое наверняка занимает больше времени чем newton step. Т.е. никакой фантастики, в большинстве случаев это не замена методу Ньютона.
Да, наши эксперименты показывают, что это работоспособная схема не только для СЛАУ, но и для обучения сеток. Нейросети начинают обучать нейросети… :)) И таки да, есть ощущение, что нейронки можно (а может даже нужно) использовать для решения обратных задач, как для оптимизации, так и для обращения матриц и пр. Ссылок сходу дать не могу, т.к. не моя область, но работы на НИПСе и ИСМЛ я такие видел. Исследования в этой области активно ведутся.
Нейросети начинают обучать нейросети… :))

Архитектуры которых тоже ищут нейросети? =)

А нет ли проблем у такого подхода для задач большой размерности? (100к-1кк переменных)
Я тоже не Дмитрий Петрович но могу порекомендовать:

  1. взглянуть на вот эти эксперименты c библиотекой ODL. Там на примере задачи реконструкции томографических изображений показавается как сделать не «чисто data driven» и не «чисто knowledge driven» а некий гибридный решатель, который, внезапно, оказывается и быстрее и лучше.
  2. в лоб у гугла спросить «A Review of Convolutional Neural Networks for Inverse Problems in Imaging» — довольно популярная нынче тема.


Sign up to leave a comment.