Как стать автором
Обновить
593
0
Dmitriy Vatolin @3Dvideo

Современная обработка видео

Отправить сообщение

Всё чаще сталкиваюсь с ситуациями, когда людям что-то нужно, причём ответ на вопрос чуть ли не первых строках выдачи будет, но они просто не ищут. И это я про программистов, если что.

Производные ChatGPT явно скоро решат эту проблему) Хороший знакомый говорит, что получать ответы от ChatGPT намного быстрее, чем искать по StackOverflow (я про написание кода, если что ;).

Вы правы в том, что довольно много очень печальных тенденций сходятся вместе.

У меня есть слайды, которые я показывал небольшой аудитории, где я анализирую (и собираю чужой анализ) на тему общего счастья людей.

Там много чудного и много хороших вопросов.

Например:
* Почему в развивающихся странах пик самоубийств приходится на 20-30 лет, а в развитых на 45-55?

* Почему в США на антидепрессантах побывала четверть женщин трудоспособного возраста и шестая часть мужчин?

* Почему в развитых странах кризис среднего возраста так глубок?

Даже просто понимание этих процессов может от многих бед уберечь.

Другое дело, что также, как человеку с весом 140 почти нереально начать ходить в фитнес, также и человеку в клинической депрессии сложно искать (и устранять) причины жопы, в которую он себя загнал. Это надо делать раньше. А раньше по многим причинам люди не начинают этим заниматься, пополняя печальную статистику (тех же антидепрессантов, слезть с которых сложнее, чем с ноотропов).

На эту тему много как черрипикинга, так и нормальных исследований.

Есть прямо графики зависимости доходов от количества лет образования. И закончившие MBA (которое как правило второе высшее) почему-то в топе)

Возможно на MBA рассказывают, как устроена жизнь? ;)

Он уже идет. Сейчас на IT факультетах был, например, довольно мощный отток молодых преподавателей в IT компании (поскольку компании дают отсрочку, а вуз нет).

Ну и сейчас идет интересный процесс, когда известные мне хорошие преподаватели из-за того, что падает интерес студентов (+ хочется охватить больше, +клиповое мышление и все такое) переносят курсы в онлайн.

В этом есть и плюсы, и минусы. Но процесс преподавания это меняет очень сильно.

Там очень много вопросов. Например, как разделить влияние наследования и культуры.

имхо, вопросами адекватного гуманитарного плана - как реально устроен мозг и когнитивные процессы - сейчас вообще мало кто занимается.

Если в мире, то занимается довольно много людей. Другое дело, что среди них популяризацией занимаются единицы. И когда я общался, там очень многое определяется тем, кто финансирует гранты. Это вызывает заметный bias ) Особенно когда финасирует фарма (у них специфичные вопросы).

А почему "в целом тупеют" и "сжимаются мозги"? ) (с профессиональным интересом ;)))

всюду рекламы курсов "научим программировать за полгода", у людей формируется мнение "да что там делать, сидеть кнопки нажимать"

Все нормально)

В своей другой ипостаси (руководитель двух лабораторий, где активно занимаются ИИ) мне хорошо видно, как поменяется рынок труда в ближайшие 15 лет. Замена многих выпускников курсов на людей работающих в паре с условными ChatGPT++ инструментами будет довольно массовым.

И вот еще недавняя статья в Форбсе "Не время для мягких: почему людям с hard skills сейчас проще найти работу" вас должна немного утешить)))
https://www.forbes.ru/mneniya/481272-ne-vrema-dla-magkih-pocemu-ludam-s-hard-skills-sejcas-prose-najti-rabotu

Я про это подробно с примерами рассказывал тут:
https://vtconf.com/talks/f1874e30be274605abb6d0f3c7329940/
В принципе слайды в текст сконвертировать не очень долго, на новогодних есть шанс, если дедлайны конца года без сил не оставят)

К сожалению ансамбль метрик не решает, хотя и усложняет взлом. Я эту тему практически не трогал (она большая), но даже определить, что была попытка взлома, если изменения достаточно деликатные - не так просто. Особенно сложно утверждать, что была попытка накрутки, если картинка становится визуально лучше.

У вас нормальный вопрос был) (судя по тому, что мне Хабр на почту прислал))

Именно так! Спасибо за хороший пример на картинках.

В статье про это было. Не поверите, но No-Reference метрики сейчас крайне востребованы в индустрии и компании платят за разработку и доработку No-Reference и Reduced-Reference под их кейсы (в т.ч. мы такой весьма интересный проект недавно делали). В некоторых случаях нужно проконтролировать поток не имея исходника, либо имея минимальное количество данных. Например (самый простой случай), значение No-Reference метрики для этого сэмпла сразу после сжатия. В итоге с 1 числом на сцену мы знаем, что происходит у потребителя (точнее знаем, когда у него что-то не то началО происходить. А зная наиболее частые проблемы и имея NR метрики на эти артефакты мы и о том, что происходит, представление получим. Для тех, кто хочет быть лучше конкурентов, это важно. Я бы даже сказал критично. Хотя компаний, ориентирующихся на отчеты службы поддержки тоже хватает, конечно))) Я не буду говорить сколько, например, среди отечественных онлайн-кинотеатров каких из них)))

Абсолютно верное направление мысли. В JPEG AI, например, где проблема заточки под датасет остра как никогда по сути в этом направлении и двигаются. Мы в сравнении кодеков также начали случайным образом менять часть датасета ежегодно уже больше 10 лет назад.

  1. Держите полный исходник (лучше на него кликнуть и посмотреть в увеличенном виде) - там хорошо видно, что это точно не "локальный контраст и насыщенность", а действительно больше исходных деталей (и люди это ценят). И если погрузиться в то, как LCEVC устроен, то понятно, почему свежий стандарт сжимает заметно лучше на глаз, чем HEVC - стандарт 9-летней давности.

  2. Проблема ровно в том, что во многих случаях (и чем дальше, тем их больше) старые метрики штрафуют за правильные контрастные детали, достаточно промахнуться с их положением, например, на полпикселя. Закон больших чисел отражает это расхождение в изменении корреляции метрик с мнением людей.

А у Super-Resolution еще круче - PSNR там по сути поощряет больший блюр (замыливание картинки).

Как-то так, если кратко)

1) прогресс не стоит на месте - и несмотря на все "накрутки", обычные потребители получают всё больше пикселей за всё меньшие деньги (и с всё большей скоростью) ?

Безусловно! ) Речь всего лишь о том, чтобы поменять порядок мировых лидеров в области)))

2) стеганография получает не просто второе дыхание, а прямо прописывается в "новый дивный" стандарт (и передает сообщение оценке качества) ?

Гм... Мы занимались стеганографией в видео, но в свете новых нейросетевых решений пока не думал об этом. В любом случае она точно сильно поменяется.

3) жалко нет фотографий артефактов из

Будут! )

Мы сейчас (для разработки метрик нового поколения) делаем 2 датасета. Первый с артефактами алгоритмов Super-Resolution - там только на гитхабе уже 880 репозиториев SR, причем самые "звездные" - это очевидно прошлые лидеры. А как находить новых автоматически (когда там каждые 2 дня в среднем по новому репозиторию)?.

А второй - с артефактами нейросетевых алгоритмов сжатия картинок (JPEG AI и остальные) - там тоже вопросов много.

И у меня уже есть десятки очень прикольных картинок из этих проектов! У датасета цель - 10000-100000 тысяч примеров, так что там будет много чего эпичного выбрать). На конференциях я их уже показываю)))

)))) Мы в свое время столкнулись с тем, что азиаты, например, существенно менее чувствительны к артефактам 3D, чем европеоиды (отдельная тема почему). Но сильнее продвинуть рынок 3D кино это им помогло.

Ну а вообще к блокингу и бандингу примерно одинаково люди чувствительны, так что для стриминга такой проблемы нет.

Там все интереснее. У вас возможность накрутки разными методами зависит от контента, поэтому отсечение выбросов на выборке может оказаться далеко не лучшей стратегией. )

Сейчас, судя по статьям исследование возможности накрутки по нескольким метрикам активно изучается (как минимум китайцами), поэтому стратегия очевидно должна будет зависеть от их успехов на этом поприще. В общем - классическая "проблема брони и снаряда", причем броня явно будет запаздывать в ближайшие годы (она уже запаздывает).

Раз метрикам верить нельзя, то как тогда оценить, какой кодек из уже имеющихся или скоро возникнувших наиболее хорош по соотношению уровень_сжатия/качество?

В статье есть ответ со слов "Естественно, с этими проблемами можно справляться". Т.е. - сравнение станет намного сложнее, дольше и дороже из-за того, что придется делать независимый анализ на других стримах, с большим количеством метрик и привлечением краудсорса. И у соответствующих отделов компаний будет выбор - делать все это (в каком-то объеме), либо верить рекламным материалам (или инфлюенсерам))). Кстати - в черновиках статья именно про новые кодеки новых стандартов AV1, VVC, AVS3. Рук не хватает закончить.

Получается, только брать одно и то же исходное видео, прогонять каждым кодеком, брать из него одни и те же случайные кадры и сравнивать визуально полученные каждым кодеком картинки?

Да и лучше брать видеофрагменты. Там есть особенности кодеков из-за которых у вас оценка отдельных кадров не будет совпадать с оценкой стрима (часть артефактов маскируется при показе видео), причем эта фича зависит от стандарта, конкретной реализации и особенностей стрима.

Конечно, на последнем этапе можно прикрутить алгоритм на ИИ, который будет делать кроп участков картинки и сравнивать их по каким-то объективным показателям, но всё равно добавляет работы каждой компании, которая хочет выбрать кодек для своих нужд.

Да, все так. Статья, как ни странно, соответствует анонсу, т.е. описан расклад, который с приходом ИИ стал заметно кучерявей. ;)

Информация

В рейтинге
Не участвует
Откуда
Москва и Московская обл., Россия
Зарегистрирован
Активность

Специализация

Project Director, Chief Executive Officer (CEO)
Lead