• История человека, чувствительного к электромагнитному излучению, или как мы щупаем край обрыва… UPD: +FAQ


      С этой впечатлившей меня драматичной историей я познакомился довольно банально. Находясь по делам в Калифорнии, я написал человеку, что хотел бы с ним встретиться по работе. Он ответил, мы договорились о дне, месте и времени. Какая-то кафешка в паре километров от гостиницы, вполне удобно. Единственное, когда договаривались, человек предупредил, что сотового у него не будет:


      Да без проблем. В наше время есть даже какая-то ностальгия встречаться по старинке, заранее обговорив, кто во что одет и все такое.

      Мы встретились и мило пообщались пару часов. Он подробно ответил на все мои вопросы. Ему были интересны наши исследования, и он по ним много вопросов задал. А уже под конец, когда мы готовились расходиться, я, как человек любопытный, спросил:
      — А почему вы не носите сотовый? 
      Он с задумчивой американской улыбкой посмотрел на меня и спросил в ответ:
      — Тебе короткую версию или длинную? 
      Я осторожно предложил начать с короткой, а там как пойдет. Честно говоря, моя основная рабочая версия была — слежка Большого Брата. Я был неправ…

      Пошло хорошо. Мы просидели практически до закрытия кафе. Впечатление от разговора было сильным.
       
      В общем — это история про человека, который в расцвете сил в 40 с гаком лет стал инвалидом. Но нашел в себе силы выжить и (пусть не полностью) восстановиться. 


      Кому интересно, как оно (очень редко) бывает, добро пожаловать под кат.
      Читать дальше →
    • 7 лет хайпа нейросетей в графиках и вдохновляющие перспективы Deep Learning 2020-х



        Новый год все ближе, скоро закончатся 2010-е годы, подарившие миру нашумевший ренессанс нейросетей. Мне не давала покоя и лишала сна простая мысль: «Как можно ретроспективно прикинуть скорость развития нейросетей?» Ибо «Тот, кто знает прошлое — тот знает и будущее». Как быстро «взлетали» разные алгоритмы? Как вообще можно оценить скорость прогресса в этой области и прикинуть скорость прогресса в следующем десятилетии? 



        Понятно, что можно примерно посчитать количество статей по разным областям. Метод не идеальный, нужно учитывать подобласти, но в целом можно пробовать. Дарю идею, по Google Scholar (BatchNorm) это вполне реально! Можно считать новые датасеты, можно новые курсы. Ваш же покорный слуга, перебрав несколько вариантов, остановился на Google Trends (BatchNorm)

        Мы с коллегами взяли запросы основных технологий ML/DL, например, Batch Normalization, как на картинке выше, точкой добавили дату публикации статьи и получили вполне себе график взлета популярности темы. Но не у всех тем путь усыпан розами взлет такой явный и красивый, как у батчнорма. Некоторые термины, например регуляризацию или skip connections, вообще не получилось построить из-за зашумленности данных. Но в целом тренды собрать удалось.

        Кому интересно, что получилось — добро пожаловать под кат!
        Читать дальше →
      • Deep Fake Science, кризис воспроизводимости и откуда берутся пустые репозитории



          Я мирно сидел на семинаре, слушал доклад студента о статье с прошлого CVPR и параллельно гуглил тему.

          — К достоинствам статьи можно отнести наличие исходного кода….
          Пришлось вмешаться:
          — Наличие чего, простите?
          — Э-э-э… Исходного кода…
          — Вы его смотрели? 
          — Нет, но в статье указано… 
          (мать-мать-мать… привычно отозвалось эхо)
          ㅡ Вы ходили по ссылке?

          В статье, действительно, предельно обнадеживающе написано: “The code and model are publicly available on the project page …/github.io/...”, — однако в коммите двухлетней давности по ссылке значится вдохновляющее «Код и модель скоро выложим»‎:


          Ищите и обрящете, стучите и откроется… Может быть… А может быть и нет. Я бы, исходя из печального опыта, ставил на второе, поскольку ситуация в последнее время повторяется ну уж о-о-очень часто. Даже на CVPR. И это только часть проблемы! Исходники могут быть доступны, но, к примеру, только модель, без скриптов обучения. А могут быть и скрипты обучения, но за несколько месяцев с письмами к авторам не получается получить такой же результат. Или за год на другом датасете с регулярными скайп-звонками автору в США не удается воспроизвести его результат, полученный в наиболее известной лаборатории в отрасли по этой теме… Трындец какой-то.

          И, судя по всему, мы пока видим лишь цветочки. В ближайшее время ситуация кардинально ухудшится. 

          Кому интересно, что стало со студентом куда катится научный мир, в том числе по «вине»‎ глубокого обучения, добро пожаловать под кат!
          Читать дальше →
        • Почему от 3D болит голова / Часть 8 Расфокус и будущее 3D

            S3D: No pain IS gain



            Когда-то давно в далекой галактике Geektimes был опубликован цикл статей о том, почему 3D-фильмы так сложно снимать без головной боли у зрителей. Как это часто бывает, цикл безвременно оборвался из-за недостатка времени у автора. При том, что тонны материалов остались лежать (иногда даже аккуратно подобранные).

            В декабре этого года исполнится 10 лет волне съемок 3D-фильмов, поднятой триумфальным успехом фильма «Аватар»‎, впервые в истории собравшего более $2 миллиардов в прокате. С тех пор, по мнению журналистов, «3D умер»‎. По факту это, конечно, не так. По сравнению с ситуацией 13-летней давности количество фильмов, выпускаемых в 3D, выросло на порядок, а количество залов, где можно показывать 3D, выросло в 400 раз (!) и продолжает быстро расти с CAGR порядка 12–14%. Всем бы технологиям такую «смерть»‎. Тем не менее проблемы у 3D-фильмов, очевидно, есть. И мы уже много лет занимаемся их анализом и исправлением.

            Хотелось бы понять, что с этими фильмами происходит. Почему «3D мертв»‎, а кинотеатры с 3D активно строят? 

            Один уважаемый российский стереограф неоднократно публично называл нас патологоанатомами за то, как мы детально разбирали проблемы фильмов. Звучит обидно, особенно учитывая, что у нас активно разрабатываются и средства «реанимации»‎. С другой стороны еще Авиценна, помнится, говаривал пациентам: «Существуют я, ты и болезнь. Чью сторону ты примешь, тот и победит»‎. Поэтому не будем идти против мудрости веков. Если пациент сказал в морг, значит в морг! Медицина тут бессильна.


            А для тех, кто хочет жить, и строятся все эти новые 3D кинозалы. Поскольку область растет и будет расти еще сильнее. Вопреки прогнозам сначала раздувающих, а потом бичующих хайп журналистов. 


            Кому интересно, добро пожаловать под кат
          • CAGR как проклятие специалистов, или ошибки прогнозирования экспоненциальных процессов


              Среди читающих этот текст, конечно, много специалистов. И, конечно, все отлично разбираются в своих областях и хорошо оценивают перспективность разных технологий и их развитие. При этом история (которая «учит тому, что она ничему не учит») знает немало примеров, когда специалисты уверенно делали разные прогнозы и промахивались о-о-о-очень сильно: 

              • «У телефона слишком много недостатков, чтобы его можно было серьезно рассматривать, как средство коммуникации. Устройство не представляет для нас никакой ценности», — писали специалисты Western Union, тогда крупнейшей телеграфной компании в 1876 году. 
              • «У радио нет будущего. Летательные аппараты тяжелее воздуха невозможны. Рентгенография окажется обманом», — зажигал Уильям Томсон лорд Кельвин в 1899, и можно, конечно, шутить, что британские ученые зажигали еще в XIX веке, но мы еще долго будем измерять температуру в Кельвинах, и сомневаться в том, что многоуважаемый лорд был хорошим физиком, причин нет. 
              • «Кто, черт возьми, захочет слышать, как актеры говорят?», — говорил про звуковое кино Гарри Ворнер, основавший Warner Brothers в 1927, один из лучших экспертов по кино того времени. 
              • «Нет причин, по которым кому-то нужен домашний компьютер», — Кен Олсон, основатель корпорации Digital Equipment в 1977, незадолго до взлета домашних компьютеров…
              • В наше время ничего не поменялось: «Нет никаких шансов, что iPhone получит значительную долю рынка», — писал в USA Today гендиректор Microsoft Стив Балмер в апреле 2007 перед триумфальным взлетом смартфонов.

              Можно было бы радостно потешаться над этими прогнозами, если бы ваш покорный слуга сам, например, не ошибался довольно серьезно в своей области. И если бы не видел, как массово ошибаются многие и многие эксперты. В общем, наблюдается классическое «никогда такого не было, и вот опять». И опять. И опять. Более того, эксперты и специалисты обречены на ошибки во многих случаях. Особенно когда дело касается проклятых экспоненциальных процессов. 
              Кому интересно, добро пожаловать под кат!
            • Камеры глубины — тихая революция (когда роботы будут видеть) Часть 2



                В первой части этого текста мы рассмотрели камеры глубины на основе структурного света и измерения round-trip задержки света, в которых в основном применяется инфракрасная подсветка. Они отлично работают в помещениях на расстояниях от 10 сантиметров до 10 метров, а главное — весьма дешевы. Отсюда массовая волна их текущего применения в смартфонах. Но… Как только мы выходим на улицу, солнце даже сквозь облака засвечивает инфракрасную подсветку и их работа резко ухудшается. 

                Как говорит Стив Бланк (по другому поводу, впрочем): «Хотите успеха — выходите из здания». Ниже речь пойдет про камеры глубины, работающие вне помещений. Сегодня эту тему сильно двигают автономные автомобили, но, как мы увидим, не только.


                Источник: Innoviz Envisions Mass Produced Self-Driving Cars With Solid State LiDAR

                Итак, камеры глубины, т.е. устройства снимающие видео, в каждом пикселе которого расстояние до объекта сцены, работающие при солнечном свете!

                Кому интересно — добро пожаловать под кат!
                Читать дальше →
              • Камеры глубины — тихая революция (когда роботы будут видеть) Часть 1




                  Недавно я описывал, благодаря чему роботы завтра начнут НАМНОГО лучше соображать (пост про аппаратное ускорение нейросетей). Сегодня разберем, почему роботы скоро будут НАМНОГО лучше видеть. В ряде ситуаций намного лучше человека.

                  Речь пойдет про камеры глубины, которые снимают видео, в каждом пикселе которого хранится не цвет, а расстояние до объекта в этой точке. Такие камеры существуют уже больше 20 лет, однако в последние годы скорость их развития выросла многократно и уже можно говорить про революцию. Причем многовекторную. Бурное развитие идет по следующим направлениям:
                  • Structured Light камеры, или камеры структурного света, когда есть проектор (часто инфракрасный) и камера, снимающая структурный свет проектора;
                  • Time of Flight камеры, или камеры, основанные на измерении задержки отраженного света;
                  • Depth from Stereo камеры — классическое и, пожалуй, наиболее известное направление построения глубины из стерео;
                  • Light Field Camera — они же камеры светового поля или пленоптические камеры, про которые был отдельный подробный пост;
                  • И, наконец, камеры, основанные на Lidar-технологиях, особенно свежие Solid State Lidars, которые работают без отказа примерно в 100 раз дольше обычных лидаров и выдают привычную прямоугольную картинку.

                  Кому интересно, как это будет выглядеть, а также сравнение разных подходов и их текущее и завтрашнее применение — добро пожаловать под кат!
                  Читать дальше →
                • Аппаратное ускорение глубоких нейросетей: GPU, FPGA, ASIC, TPU, VPU, IPU, DPU, NPU, RPU, NNP и другие буквы



                    14 мая, когда Трамп готовился спустить всех собак на Huawei, я мирно сидел в Шеньжене на Huawei STW 2019 — большой конференции на 1000 участников — в программе которой были доклады Филипа Вонга, вице-президента по исследованиям TSMC по перспективам не-фон-неймановских вычислительных архитектур, и Хенга Ляо, Huawei Fellow, Chief Scientist Huawei 2012 Lab, на тему разработки новой архитектуры тензорных процессоров и нейропроцессоров. TSMC, если знаете, делает нейроускорители для Apple и Huawei по технологии 7 nm (которой мало кто владеет), а Huawei по нейропроцессорам готова составить серьезную конкуренцию Google и NVIDIA.

                    Google в Китае забанен, поставить VPN на планшет я не удосужился, поэтому патриотично пользовался Яндексом для того, чтобы смотреть, какая ситуация у других производителей аналогичного железа, и что вообще происходит. В общем-то за ситуацией я следил, но только после этих докладов осознал, насколько масштабна готовящаяся в недрах компаний и тиши научных кабинетов революция.

                    Только в прошлом году в тему было вложено больше 3 миллиардов долларов. Google уже давно объявил нейросети стратегическим направлением, активно строит их аппаратную и программную поддержку. NVIDIA, почувствовав, что трон зашатался, вкладывает фантастические усилия в библиотеки ускорения нейросетей и новое железо. Intel в 2016 году потратил 0,8 миллиарда на покупку двух компаний, занимающихся аппаратным ускорением нейросетей. И это при том, что основные покупки еще не начались, а количество игроков перевалило за полсотни и быстро растет.


                    TPU, VPU, IPU, DPU, NPU, RPU, NNP — что все это означает и кто победит? Попробуем разобраться. Кому интересно — велкам под кат!
                    Читать дальше →
                  • Уличная магия сравнения кодеков. Раскрываем секреты



                      В этом году исполняется юбилей — 16 лет, как был запущен сайт compression.ru, на котором автор и сотоварищи организуют сравнения видеокодеков и кодеров изображений. За это время были проведены десятки сравнений с отчетами от 23 до 550+ страниц, количество графиков в последнем сравнении перевалило за 7000, а количество разных феерических случаев за это время окончательно превысило все разумные пределы. Поскольку следующая круглая дата (32 года) наступит еще нескоро, есть желание рассказать в честь юбилея малую толику феерического.

                      Если говорить про кодеки, то не секрет, что большинство сравнений и графиков, которые видит почтеннейшая публика — это продукт отдела маркетинга. В лучшем случае — графики грамотно делали инженеры, а маркетинг только давал добро на публикацию. В худшем случае инженеры вообще не участвовали в их подготовке. К чему тратить время этих занятых людей!

                      При этом тема сжатия весьма популярна. В сериале «‎Кремниевая долина»‎ стартап главного героя разработал гениальный алгоритм, который в последней серии первого сезона показал невероятное сжатие 3D видео и в итоге теперь миллионы стартаперов (и инвесторов) мира знают, что главное — это чтобы коэффициент Вайсмана был побольше и ещё гения надо найти, а остальное — фигня-вопрос. Чудо будет! Это естественным образом увеличивает ожидание чудес и, конечно (КОНЕЧНО!) эти чудеса радостно демонстрируются компаниями! В том числе с использованием последних достижений уличной магии.

                      DISCLAIMER: Любые совпадения имен и названий компаний ниже с реальными именами и названиями абсолютно случайны.

                      Усаживайтесь поудобнее! Обещаем, что к концу рассказа вы сможете показывать подобные фокусы сами, как, впрочем, и раскрывать многие из них. Поехали!
                      Читать дальше →
                    • Вычисляемое видео в 755 мегапикселей: пленоптика вчера, сегодня и завтра



                        Какое-то время назад автору довелось читать лекцию во ВГИК, и в аудитории было много людей с операторского факультета. Аудитории был задан вопрос: «С каким максимальным разрешением вы снимали?», и дальше выяснилось, что примерно треть снимала 4К или 8 мегапикселей, остальные — не более 2К или 2 мегапикселя. Это был вызов! Мне предстояло рассказать про камеру с разрешением 755 мегапикселей (raw разрешением, если быть точным, поскольку конечное у нее 4К)  и какие феерические возможности это дает для профессиональной съемки.

                        Сама камера выглядит так (этакий маленький слоник):



                        Причем, открою страшную тайну, чтобы сделать этот снимок искали ракурс получше и человека покрупнее. Мне доводилось щупать эту камеру вживую, скажу, что она выглядит намного крупнее. Снимок ниже с Йоном Карафином, с которым мы примерно одного роста, более точно передает масштабы бедствия:



                        Кому интересны принципиально возможности вычисляемого видео о которых редко пишут — вся правда под катом! )
                        Читать дальше →
                      • Увеличь это! Современное увеличение разрешения


                          Я уже перестал вздрагивать и удивляться, когда звонит телефон и в трубке раздается жесткий уверенный голос: «Вас беспокоит капитан такой-то (майор такой-то), вы можете ответить на пару вопросов?» Почему бы не поговорить с родной полицией…

                          Вопросы всегда одни и те же. «У нас есть видео с подозреваемым, пожалуйста, помогите восстановить лицо»… «Помогите увеличить номер с видеорегистратора»… «Здесь не видно рук человека, пожалуйста, помогите увеличить»… И так далее в том же духе.

                          Чтобы было понятно о чем речь — вот реальный пример присланного сильно сжатого видео, где просят восстановить размытое лицо (размер которого эквивалентен примерно 8 пикселям):


                          И ладно бы только русские дяди Степы беспокоили, пишут и западные Пинкертоны.
                          Читать дальше →
                        • Будущее VR видео — VR180 от Google

                            Хинт: этот gif запускается и останавливается по клику

                            S3D: No pain IS gain


                            В апреле этого года Google анонсировала технические детали нового формата для VR-видео — VR180. Спецификации формата были выложены в репозиторий Google на GitHub, производителям камер было предложено делать специальные камеры, формат стал поддерживаться на YouTube.

                            Основная идея довольно проста. В «обычном» VR-видео — 360-видео — можно вертеть головой во всех направлениях по горизонтали, при этом основное действие происходит, как правило, с какой-то одной стороны, а на устройство транслируется весь поток, что приводит к передаче и хранению избыточной информации. По факту в подавляющем большинстве случаев нет необходимости в реализации просмотра на 360 градусов — для достижения того же эффекта вполне достаточно и 180 градусов. При этом «вторая половина» кадра используется для второго ракурса, то есть получается стерео.

                            Таким образом, предложенный формат обеспечивает даже большее ощущение погружения, чем от 360-видео, является более дешевым в производстве, более простым в съемке и не имеет проблем со стичингом.

                            Как такое возможно, и что же предложили в Google?

                            Кому интересно VR-видео ближайшего будущего — добро пожаловать под кат!
                            Читать дальше →
                          • Почему от 3D болит голова / Часть 7: Сдвиг во времени между ракурсами

                              S3D: No pain IS gain




                              Сегодня речь пойдет о проблеме, которая почему-то очень редко упоминается, но при этом регулярно встречается в фильмах — примерно в 10 раз чаще перепутанных ракурсов — сдвиге во времени между ракурсами. Искать эту проблему — весьма нетривиальная задача с точки зрения компьютерного зрения. Однако в итоге нами был создан алгоритм, который позволяет обнаружить сдвиг с точностью до 0,1 кадра. В результате было найдено более 500 проблемных сцен в 27 фильмах из 105 проанализированных. Самые большие сдвиги — на 1–2 кадра, наименьшие — на 0,1 кадра. Интересно, что сдвиг во времени — один из самых болезненных артефактов после перепутанных ракурсов. Почему такое происходит, как выглядит, сильно ли заметно и можно ли исправить, будет рассказано дальше.

                              Осторожно, траффик - много примеров из фильмов...
                            • Почему от 3D болит голова / Часть 6: Искажения цвета

                                S3D: No pain IS gain




                                Ранее мы говорили про проблемы 3D оборудования, проблемы контента, перепутанные ракурсы, слишком большой и слишком маленький параллакс и геометрические искажения. Сегодня речь пойдет про технические проблемы с цветом. Почему картинки в левом и правом ракурсах различаются? Какие у этого технические или, точнее, физические причины? Как выглядели искажения по цвету в 50-х? Как выглядят сейчас? Каковы тенденции? Как это можно исправить? И, конечно, к чему это приводит. Будут показаны разные по цвету кадры из фильмов, в том числе достаточно эпичные примеры.
                                Осторожно, траффик - много примеров из фильмов...
                              • Почему от 3D болит голова / Часть 5: Геометрические искажения в стерео

                                  S3D: No pain IS gain




                                  Это пятая статья цикла, и речь у нас сегодня пойдет про геометрические искажения. Очень частая ситуация, когда человек покупает дешевый стереориг, радостно начинает снимать и сталкивается с тем, что у него не получается снять так, чтобы у зрителей не болела голова. Причем когда наш начинающий оператор глубже погружается в предмет — выясняется, что казалось простыми дешевыми камерами не обойтись. Почему так получается? Зачем нужны дорогие камеры? Можно ли как-то обойтись без них? Почему даже при использовании дорогих камер проблемные (в плане геометрических искажений) сцены попадают в 3D-фильмы? В каких фильмах в кинотеатрах больше всего таких сцен? Как меняется ситуация по годам? Какова ситуация для низкобюджетных и высокобюджетных фильмов? И, наконец, в каких ситуациях (в плане геометрии) можно исправить проблемно снятое на личный утюг стерео?
                                  Осторожно траффик - много примеров из фильмов...
                                • Почему от 3D болит голова / Часть 4: Параллакс

                                    S3D: No pain IS gain




                                    Эта статья — четвертая в цикле “Почему от 3D болит голова”. Раньше мы говорили про проблемы кинооборудования, был сделан краткий обзор проблем контента, и детально разобрана ситуация с, пожалуй, самой болезненной проблемой — перепутанными ракурсами. Продолжаем выполнять обещания и рассказывать подробнее про то, что было кратко проанонсировано ранее. Сегодня будут ответы на вопросы: Почему один и тот же фильм в кинотеатре трехмерен, а на телевизоре нет? В каких диапазонах вообще изменяется видимая глубина фильмов? Как изменяется в среднем видимая глубина фильмов по годам? Что можно сделать, если вы сидите в кинотеатре, фильм “плосковат”, а вы хотите большей видимой глубины? Можно вообще ли изменить видимую глубину и сделать “плоский” фильм “более трехмерным”? Ведь это так хочется! И, наконец, как “изменяют параллакс” телевизоры и плееры?
                                    Читать дальше →
                                  • Почему от 3D болит голова / Часть 3: Перепутанные ракурсы

                                      S3D: No pain IS gain




                                      Эта третья статья в цикле “Почему от 3D болит голова”. В первой части речь шла про проблемы кино-оборудования, во второй — общий обзор проблем фильмов, и, наконец, здесь и далее будут разбираться конкретные проблемы. Начнем с самой простой для понимания и одной из самых болезненных для восприятия — перепутанных ракурсов, когда на правый глаз подается картинка для левого, а на левый — для правого. Сложно найти слова для того, чтобы передать ощущения, которые испытывают соответствующие участки нашего мозга, когда видят такую картинку… Но мы все же попытаемся. )
                                      Читать дальше →
                                    • Почему от 3D болит голова / Часть 2: Дискомфорт из-за качества видео

                                        Why 3D is so painful?




                                        Это вторая статья из серии «Почему от 3D болит голова». В первой части речь шла в основном про проблемы кинооборудования. Во второй части речь пойдет про общие проблемы контента. Что такое «вырви глаз»-сцены? Какими они бывают? Почему они попадают даже в блокбастеры? Также очень важный аспект субъективное восприятие. В набравшем наибольшее количество плюсов комментарии к первой статье серии, автор пишет: «Фильм «в триде» чаще всего имеет 2-3 сцены, где это самое «триде» заметно, обычно именно для этого и снятые, а в остальном отличается только мутной темной картинкой через заляпанные очки...» Почему картинка мутная и темная, и когда могут закончиться «темные времена 3D» было подробно рассказано в первой части, а вот почему про одни и те же фильмы одни говорят, что там «слишком трехмерные сцены, аж глаза ломит», а другие «3D эффекта в фильме совершенно не видно» будет рассказано ниже.
                                        Читать дальше →
                                      • Почему от 3D болит голова / Часть 1: Недостатки оборудования



                                        Вопрос, почему у людей болит голова от 3D, очень мифологизирован. Журналисты повторяют друг за другом моменты, которые, в общем-то, важны, но важность которых находится на 10-м месте, а про совершенно вопиющие вещи типа кратной экономии на оборудовании кинотеатров или про массовые феерические ошибки на съемках и post-production практически все молчат. При этом очень многие проблемы, если задаться целью, можно легко увидеть, что называется, невооруженным взглядом, если знать, куда смотреть и воспользоваться относительно несложными скриптами. Часть проблем обнаружить сложнее, но после того, как они найдены — «насладиться» ими также несложно. Характерный пример — это перепутанные ракурсы (правый перепутан с левым). Развенчанию мифов, а также реальным проблемам, их причинам и в той или иной степени способам их исправления и будет посвящен цикл статей «Почему от 3D болит голова».
                                        Читать дальше →