Статья отличная, спасибо!
Однако Deep Learning слишком долго на пике хайпа на кривой Гартнера (вот, например, 2018 год), и ожидаемо должен был свалиться. Тем более разговоры о том, что Free lunch is over для классических сверточных сетей ведуться достаточно массированно. Вот статья, в которой есть основные тезисы таких разговоров, ее уже упоминали здесь в комментариях.
Если же посмотреть на Гартнера 2019 года, то можно увидить интересный эффект — DL не свалился с пика, а просто исчез… развалившись на составные части — AutoML, GAN сети, Transfer Learning. Но ни в "пропасть разочарования", ни на "плато продуктивности" ни одна из этих частей (пока) не попала.
Что это означает доподлинно судить не берусь, но мне кажется, что DL как цельное понятие с пика хайпа уходит.
Да мы как раз именно ml метрики не рассматривали пока. Хотя они сейчас повсюду, рецензировал недавно статью которая предлагала сетку для слепой оценки GSD в ДЗЗ. Там как раз после эмбединга стоит дерево регрессии, и с интерпретируемостью все ок.
Этот конкретно проект по реконструкции изображений для плоской оптики, на стыке оптики и обработки изображений, computational imaging. Наша команда как раз со стороны обработки изображений — деконволюция, цветовая коррекция, вот сквозная нейросетевая технология реконструкции вроде прорисовалась.
Метрика качества тут как раз интересный вопрос. Используем PSNR/SSIM, для сопоставимости результатов реконструкции с другими работами, в том числе с single image super resolution. Но понятно, что голые "X дБ PSNR" малоинформативны для конкретного приклада, плюс требуется сопоставление с эталоном, здесь тоже не до конца все прозрачно. Есть мысль сделать специализированные метрики для типовых задач технического зрения, на основе которых можно понять, достаточное качество реконструкции для этого кейса или нет.
А так есть разные проекты, в medical imaging вопрос качества тоже до конца не решенный. Мне кажется, blind image quality estimation вечный вопрос, как обратная свертка))))
Ну во-первых deep learning — частный случай нейросетей, причем их обучения (внезапно).
deep learning это примерно как "нейропроцессор", по большей части маркетинговый термин. Я его употребил как обобщение всех нейросетевых подходов, которые умеют переваривать большие выборки. Вы расширили мой тезис, с чем я совершенно согласен — все нейронные сети, не только глубокие, это универсальный аппроксиматор, согласно Цыбенко))) Т.е. все это — просто очень хороший метод оптимизации.
То, что мозг обучается на основе однокритериальной оптимизации — маловероятно, слишком неэффективно. Если есть пруфы, что это действительно так — приводите.
Давным-давно доказано что активационная функция может быть любая нелинейная.
Ну строго говоря, не любая. Если я я правильно помню, теорема Цыбенко доказана для сигмоиды))), есть требование не полиномиальности, 95 года по-моему. И все теоремы не конструктивны, не дают ответа как эффективно подобрать параметры модели, а SGD дает. Теоремы обосновывают модель, а SGD и его производные — относительно эффективный метод оптимизации.
Требования оптимизировать этот граф только градиентным спуском, а не генетическими алгоритмами я как-то не припомню.
Можно хоть перебором, вопрос в скорости сходимости.
Вот только проблему обобщения пытаются решить именно в рамках все тех же ИНС.
Проблема few-shot learning не решается в лоб при помощи классических CNN, пока что ее решают разными хаками, специфичными для разных задач.
Эта проблема сложная, но подходы к ее решению вроде как есть. Тот же самый reinforcement.
Они там именно изучают физиологию кусочка коры, а не мозг воспроизводят.
Все так, исходный тезис был в том, что моделей когнитивных функций мозга на сегодня нет)))
Это вообще не про биологию с математикой, а про философию.
Это к сожалению не про философию, а про методологию, на основе которой можно создать сильный ИИ. Если мы не знаем, как физическая система порождает субъективный опыт, мы не сможем построить такую систему))) И в отличие от проблемы few-shot learning тут даже примерно подходы не прослеживаются. Ну кроме полного перебора)))
Количество связей в VGG19 ~10^8, это мушка дрозофила. У человека ~10^11.
Для опознавания лиц с нескольких примеров требуется трюк с введением метрики в пространстве ембединга, после этого начинает работать few-shot-lerning. Трюк этот придуман человеком. Так же как трюк с АльфаГо, т.е. мы умеем докрутить нейронку до уровня слабого ИИ в разных приложениях. Но от этого мы не на шаг не приближаемся к сильному ИИ или сознанию.
Очень хорошо иллюстрируется это тем, что вся наша наука это исследования от первого лица, а сознание — от первого лица, и как к этой "трудной проблеме сознания" подступиться, пока не понятно. Количественное увеличение количества связей в нейронке, даже на три порядка, вряд ли даст переход от третьего лица к первому...
Спасибо за высокую оценку, очень хочется надеяться.
С хорошим курсом, как и с хорошими публикациями есть проблема российской специфики. Хочется сделать хороший курс, и собственно абсолютно понятно, как можно сделать близко к идеалу, ну а может и в чем-то лучше чем, в частности, пресловутый http://cs231n.stanford.edu/
Но ресурсов не хватает от слова совсем… Смотришь на их Instructors+Teaching Assistants — 26 человек, и грустно становится.
В итоге лекции по двум курсам deep learning для мастеров, и перспективные информационные технологии для аспирантов еще более-менее, а на хорошие лабораторки и материалы к курсу времени катастрофически не хватает.
Хотя да, есть желание сделать курс Нейроинформатики в котором был бы и deep learning и neuroscience.
Там еще очень хороша пара слайдов "Our image of the research community". Да все хороши)))
А то, что Publish or Perish набирает обороты в России очень хорошо, в Китае очень прижилось. Но в том виде, в котором это сейчас есть в топовых универах — это конечно крайне жестко...
Дмитрий, мне все-таки кажется, что пустой репозитарий для CVPR скорее исключение. За такие вещи рецензенты обязательно пожурят, это очень же просто проверяется по ссылке. Нас с подобным отправляли на resubmit в журнальной статье. Код и данные был приложены к статье архивом, с обещанием сделать репозитарий публичным после выхода статьи.
В вашем случае, возможно код закрыли после приема работы, так иногда бывает. Ну либо на core CVPR в этом году совсем вал и некому рецензировать…
А вот с воспроизводимостью работоспособности кода — это да, далеко не всегда.
У вас хорошая статья, спасибо! Не со всеми тезисами согласен, но про то, что CS становится экспериментальной наукой, очень верно подмечено. И selective reporting конечно же)))
Про ситуацию в целом в CV и ML после AlexNet-а можно много дискутировать, но сейчас это наиболее быстро развивающаяся сфера. Очень интересно наблюдать например за cite score CVPR, в 2012 году было 3.23, а в 2018 — 37.26, больше чем у Nature. Поэтому проблемы с воспроизводимостью видимо тоже масштабируются кратно. В целом, интересно наверное проанализировать текущую ситуацию с точки зрения смены научной парадигмы Томаса Куна))
Мой комментарий выжимка лекции, я студентам рассказываю, про отличия между нейронками и мозгом, и скоро ли мы придем к сильному ИИ и сингулярности)))
Конференция CVPR и так круче большинства журналов в области computer vision, за исключением пожалуй IEEE PAMI. И попасть в core CVPR сложнее чем во многие Q1 журналы. Хотя в журналах проработка более детальная.
Весь deep learning это просто хорошая универсальная оптимизационная модель, оптимизируемая при помощи стохастического градиентного спуска. Не более и не менее. Мозг работает совсем по другому.
Если кратко 5 отличий (хотя очень многое уже перечислили):
Количественное, в самых глубоких CNN, типа VGG19, порядка 10^8 весов, это примерно мозг мушки дрозофилы. В мозгу человека порядка 10^11 связей.
Связи в мозгу аналоговые это один момент, второй момент, активационная функция максимально близко, на сегодня, моделируется импульсными нейросетями (afaik). Для них алгоритм обратного распространения ошибки не работает, ну и SGD тоже.
Принципиальное отличие в способности к обобщению информации, мозг умеет в single-shot learning, нейросетки — не очень, и это одна из фундаментальных проблем на сегодня.
Современные "хардварные" проекты которые пробуют воспроизвести мозг, это в
первую очередь blue brain и spiNNaker всегда делают оговорку, что модель больше про физиологию, а не когнитивные функции.
Ну и нельзя забывать про принципиальные проблемы воспроизведения сознания, про которые очень хорошо сказано, что вся современная наука это про третье лицо, а сознание — это первое лицо. Парадокс китайской комнаты, летучей мыши и т.д.
Хотя тем не менее есть хорошие публикации которые проводят некоторые параллели между мозгом и нейростеями. Ближе всего наверное функционирование визуального кортекса, вот например очень крутая статья, одного из основоположников нейрофидбека, — https://link.springer.com/article/10.1007/s00429-019-01828-6
Пруфридер практически не помогает. Вопрос именно подачи материала, logical flow. То, что называется creative writing.
Высокорейтинговые журналы и конфы уровня cvpr, iccv это во многом маркетиговая подача материала. Не уверен, что можно найти редактора не из сферы, который так умеет. Мы обычно берём в соавторы нейтива или почти нейтива из сферы.
Очень хорошо весь процесс написания статьи описан здесь — https://billf.mit.edu/sites/default/files/documents/cvprPapers.pdf
"Логический вывод" не вполне корректный термин, оставьте просто "инференс". А за новость спасибо!
Спасибо за наводку на SanDisk Industrial!
Статья отличная, спасибо!
Однако Deep Learning слишком долго на пике хайпа на кривой Гартнера (вот, например, 2018 год), и ожидаемо должен был свалиться. Тем более разговоры о том, что Free lunch is over для классических сверточных сетей ведуться достаточно массированно. Вот статья, в которой есть основные тезисы таких разговоров, ее уже упоминали здесь в комментариях.
Если же посмотреть на Гартнера 2019 года, то можно увидить интересный эффект — DL не свалился с пика, а просто исчез… развалившись на составные части — AutoML, GAN сети, Transfer Learning. Но ни в "пропасть разочарования", ни на "плато продуктивности" ни одна из этих частей (пока) не попала.
Что это означает доподлинно судить не берусь, но мне кажется, что DL как цельное понятие с пика хайпа уходит.
Да мы как раз именно ml метрики не рассматривали пока. Хотя они сейчас повсюду, рецензировал недавно статью которая предлагала сетку для слепой оценки GSD в ДЗЗ. Там как раз после эмбединга стоит дерево регрессии, и с интерпретируемостью все ок.
Этот конкретно проект по реконструкции изображений для плоской оптики, на стыке оптики и обработки изображений, computational imaging. Наша команда как раз со стороны обработки изображений — деконволюция, цветовая коррекция, вот сквозная нейросетевая технология реконструкции вроде прорисовалась.
Метрика качества тут как раз интересный вопрос. Используем PSNR/SSIM, для сопоставимости результатов реконструкции с другими работами, в том числе с single image super resolution. Но понятно, что голые "X дБ PSNR" малоинформативны для конкретного приклада, плюс требуется сопоставление с эталоном, здесь тоже не до конца все прозрачно. Есть мысль сделать специализированные метрики для типовых задач технического зрения, на основе которых можно понять, достаточное качество реконструкции для этого кейса или нет.
А так есть разные проекты, в medical imaging вопрос качества тоже до конца не решенный. Мне кажется, blind image quality estimation вечный вопрос, как обратная свертка))))
deep learning это примерно как "нейропроцессор", по большей части маркетинговый термин. Я его употребил как обобщение всех нейросетевых подходов, которые умеют переваривать большие выборки. Вы расширили мой тезис, с чем я совершенно согласен — все нейронные сети, не только глубокие, это универсальный аппроксиматор, согласно Цыбенко))) Т.е. все это — просто очень хороший метод оптимизации.
То, что мозг обучается на основе однокритериальной оптимизации — маловероятно, слишком неэффективно. Если есть пруфы, что это действительно так — приводите.
Ну строго говоря, не любая. Если я я правильно помню, теорема Цыбенко доказана для сигмоиды))), есть требование не полиномиальности, 95 года по-моему. И все теоремы не конструктивны, не дают ответа как эффективно подобрать параметры модели, а SGD дает. Теоремы обосновывают модель, а SGD и его производные — относительно эффективный метод оптимизации.
Можно хоть перебором, вопрос в скорости сходимости.
Проблема few-shot learning не решается в лоб при помощи классических CNN, пока что ее решают разными хаками, специфичными для разных задач.
Эта проблема сложная, но подходы к ее решению вроде как есть. Тот же самый reinforcement.
Все так, исходный тезис был в том, что моделей когнитивных функций мозга на сегодня нет)))
Это к сожалению не про философию, а про методологию, на основе которой можно создать сильный ИИ. Если мы не знаем, как физическая система порождает субъективный опыт, мы не сможем построить такую систему))) И в отличие от проблемы few-shot learning тут даже примерно подходы не прослеживаются. Ну кроме полного перебора)))
Количество связей в VGG19 ~10^8, это мушка дрозофила. У человека ~10^11.
Для опознавания лиц с нескольких примеров требуется трюк с введением метрики в пространстве ембединга, после этого начинает работать few-shot-lerning. Трюк этот придуман человеком. Так же как трюк с АльфаГо, т.е. мы умеем докрутить нейронку до уровня слабого ИИ в разных приложениях. Но от этого мы не на шаг не приближаемся к сильному ИИ или сознанию.
Очень хорошо иллюстрируется это тем, что вся наша наука это исследования от первого лица, а сознание — от первого лица, и как к этой "трудной проблеме сознания" подступиться, пока не понятно. Количественное увеличение количества связей в нейронке, даже на три порядка, вряд ли даст переход от третьего лица к первому...
Да, гитхаб показательный, это китайцы явно сжулили, и прокатило, но тем не менее 27 ссылок есть в школяре. И статья кстати интересная, тема наша, и качество и ган сетки.
У нас в целом довольно близкая тема —http://openaccess.thecvf.com/content_ICCVW_2019/papers/LCI/Nikonorov_Deep_Learning-Based_Imaging_using_Single-Lens_and_Multi-Aperture_Diffractive_Optical_Systems_ICCVW_2019_paper.pdf
Спасибо за высокую оценку, очень хочется надеяться.
С хорошим курсом, как и с хорошими публикациями есть проблема российской специфики. Хочется сделать хороший курс, и собственно абсолютно понятно, как можно сделать близко к идеалу, ну а может и в чем-то лучше чем, в частности, пресловутый http://cs231n.stanford.edu/
Но ресурсов не хватает от слова совсем… Смотришь на их Instructors+Teaching Assistants — 26 человек, и грустно становится.
В итоге лекции по двум курсам deep learning для мастеров, и перспективные информационные технологии для аспирантов еще более-менее, а на хорошие лабораторки и материалы к курсу времени катастрофически не хватает.
Хотя да, есть желание сделать курс Нейроинформатики в котором был бы и deep learning и neuroscience.
Там еще очень хороша пара слайдов "Our image of the research community". Да все хороши)))
А то, что Publish or Perish набирает обороты в России очень хорошо, в Китае очень прижилось. Но в том виде, в котором это сейчас есть в топовых универах — это конечно крайне жестко...
Дмитрий, мне все-таки кажется, что пустой репозитарий для CVPR скорее исключение. За такие вещи рецензенты обязательно пожурят, это очень же просто проверяется по ссылке. Нас с подобным отправляли на resubmit в журнальной статье. Код и данные был приложены к статье архивом, с обещанием сделать репозитарий публичным после выхода статьи.
В вашем случае, возможно код закрыли после приема работы, так иногда бывает. Ну либо на core CVPR в этом году совсем вал и некому рецензировать…
А вот с воспроизводимостью работоспособности кода — это да, далеко не всегда.
У вас хорошая статья, спасибо! Не со всеми тезисами согласен, но про то, что CS становится экспериментальной наукой, очень верно подмечено. И selective reporting конечно же)))
Про ситуацию в целом в CV и ML после AlexNet-а можно много дискутировать, но сейчас это наиболее быстро развивающаяся сфера. Очень интересно наблюдать например за cite score CVPR, в 2012 году было 3.23, а в 2018 — 37.26, больше чем у Nature. Поэтому проблемы с воспроизводимостью видимо тоже масштабируются кратно. В целом, интересно наверное проанализировать текущую ситуацию с точки зрения смены научной парадигмы Томаса Куна))
Мой комментарий выжимка лекции, я студентам рассказываю, про отличия между нейронками и мозгом, и скоро ли мы придем к сильному ИИ и сингулярности)))
Спасибо за статью! я примерно с точки зрения neurocience откомментил про различия между мозгом и нейронками.
Конференция CVPR и так круче большинства журналов в области computer vision, за исключением пожалуй IEEE PAMI. И попасть в core CVPR сложнее чем во многие Q1 журналы. Хотя в журналах проработка более детальная.
Весь deep learning это просто хорошая универсальная оптимизационная модель, оптимизируемая при помощи стохастического градиентного спуска. Не более и не менее. Мозг работает совсем по другому.
Если кратко 5 отличий (хотя очень многое уже перечислили):
первую очередь blue brain и spiNNaker всегда делают оговорку, что модель больше про физиологию, а не когнитивные функции.
Хотя тем не менее есть хорошие публикации которые проводят некоторые параллели между мозгом и нейростеями. Ближе всего наверное функционирование визуального кортекса, вот например очень крутая статья, одного из основоположников нейрофидбека, — https://link.springer.com/article/10.1007/s00429-019-01828-6
Пруфридер практически не помогает. Вопрос именно подачи материала, logical flow. То, что называется creative writing.
Высокорейтинговые журналы и конфы уровня cvpr, iccv это во многом маркетиговая подача материала. Не уверен, что можно найти редактора не из сферы, который так умеет. Мы обычно берём в соавторы нейтива или почти нейтива из сферы.
Очень хорошо весь процесс написания статьи описан здесь — https://billf.mit.edu/sites/default/files/documents/cvprPapers.pdf
Очень сильное заявление, а пруфы есть? и что даже с tensorflow поверх tensorRT сравнивались?
https://www.kaggle.com/blackmoon/russian-language-toxic-comments
Кагл по обнаружению токсичности в интернете.
Спасибо за статью! Вопрос, а не встречалась вам опенсорсная платформа с близким функционалом, но на питоне?
Сиддхартха жил за 500 лет до н.э., 2500 лет назад. 2500 до н.э. перебор.