Pull to refresh

Comments 50

Интересно, сколько весит сама нейросеть, что-то мне кажется, что для распаковки кадров из кучки цифр нужно иметь очень большую нейросеть, которая помнит много взаимосвязей в кадрах, а то выходит отличный алгоритм сжатия видео с большими потерями.
+1. Это из той же оперы, что самораспаковывающийся архив, который не читает никаких дополнительных данных, но в себе уже содержит всё.
С другой стороны, избыточность внутри видеоданных явно зашкаливает, надо только научиться её извлевать.
Более того, можно любое заранее выбранное видео упаковать в 1 бит или даже в ноль. И в комплекте будет идти алгоритм разархиватора, на пару гигов.
И в комплекте операционной системы будет идти алгоритм разархиватора, на пару гигов…
UFO just landed and posted this here
Какая неоднозначная технология, такими темпами первый ИИ действительно убьет всех человеков научившись на данных об ОЖИДАНИЯХ от ИИ.

А про видео — как видно на примерах — нейросети нужно больше избирательности — лица уж очень напоминают Волдеморта, или нужна вторая сеть занимающаяся обучением актерами, если получится заставить комплекс сетей с разными специализациями сообща «смотреть» и «показывать» фильм — вот тогда будет прорыв, хотя результаты уже поражают.
Кстати, интересное предположение об убийстве людей на основе ожидания этого убийства.

Исходя из вашего предположения и упоминания Волан-де-Морта мне подумалось, что в будущем пластической хирургии операции будет делать машина, возможно, без изъявления пожеланий пациента. На основе данных, которые содержат в себе представление людей о прекрасном.

К чему это я? Представляю себе сценарий, когда в мире будущего будет центральная система ИИ, которая будет передавать какую-либо метаинформацию своим подразделениям. ИИ хирургу в том числе. Так вот, произойдёт какой-то сбой, осознание того, что нужно уничтожить человечество попадёт в центральную систему ИИ, передастся подсистемам. А наш хирург решит во время операций вырезать людей.
И это только хирург, а что будет с остальными подсистемами?
Ух… Что-то я зафантазировался.
Такое уже было, в вархаммере 40к.
ИИ самоудалится из-за множественных нарушений копирайта на поведение, описанное в различных литературе, фильмах и т.д.
Триумф правообладателей
Сомнительно что ИИ с самосознанием решит самоудалится из-за такой низменной и бессмысленной причины. Кстати, а будет ли это считаться доведением до самоубийства?
Чем такая симуляция отличается от плохого сжатия? и почему кто-то должен предположить, что это симуляция, а не перекодирование?
Вобще странная формулировка «реконструкция видео», а может мой смартфон тоже смотрит фильм в кинотеатре а потом просто реконструирует его дома в файл, и никакая это не экранка.
UFO just landed and posted this here
Толко что в этой истории от «творчества» и от «переосмысления»-то? Фильм пережали в нейросеть, другой сетью пожали кадры, а потом первой сетью плохо восстановили пожатое.
Ну так всё общение можно представить в виде плохо переписанных (от слова рерайт) чужих мнений.
Да, когда приходят какие-нибудь религиозные агитаторы-фанатики, примерно так и происходит. Говорят плохо запомнеными шаблонными цитатами, при отклонении от генерального курса впадают в ступор.
Не только они. Вот взять любой комментарий из этой статьи — разве что-то подобное уже не было произнесено кем-то на вашей памяти? Иногда меняется только объект обсуждения, да и то нечасто.

Это я к тому, что результат работы обсуждаемой нейросети действительно похож на плохо пережатое видео. Однако есть детали, которые делают всю разницу. И этих деталей больше, чем в нашем с вами банальном диалоге.
Разница в позиции — считать внешнюю, по отношению к кадрам, информацию из нейросети «интеллектом» или просто специфической разновидностью памяти. Я считают это просто памятью.
А так — Хорхе Луис Борхес: Пьер Менар, автор «Дон Кихота» :)
Разумеется, это не интеллект. И, по-моему, даже не память (которая, кстати, к интеллекту имеет не самое отдалённое отношение). А так же — не просто плохое пережатие. Думаю, это некое начало, чего-то большого.

Эмм… Пелевин, Виктор Олегович — «Зенитные кодексы Аль-Эфесби»
Я после прочтения заголовка ожидал нечто большее. Распознавание лиц актёров, или образов в стиле DeepDream.
А тут действительно просто пережали поток неким нейронным алгоритмом, который при наличии сильного шума даже лица превращает в бесформенную кашу.
Если я правильно понял, то от исходного фильма здесь всего лишь по 200 байт информации на кадр. То есть весь фильм хронометражем в 117 минут поместился бы на дискету в сжатом виде.
Только к этой дискете в комплекте идёт специфический многогигабайтный разархиватор и вся информация, что не уместилась не дискете, содержится там.
Было ли здесь переосмысление? какието чуть более сложные алгоритмы кодирования, не более Переосмысление, это когда ты помнишь, «Вот человек, кажется со светлыми волосами, пошел кажется туда», возможны ошибки сюжета, порядок событий, какието события теряются и то это из-за проблем с памятью у людей, стихи теже например вы же не переосмысливаете, вы их заучиваете. В данном случае попытались сымитировать плохую память для мащины, да и скорее не память, а зрение. Ведь кроме визуального образа не было переделано ничего, инверсию цветов провели да и все.
Да, была бы крутая сеть. Записывает кадр: в кадре Харисон Форд (39 лет), на лице выражение 42, в пыльном (название марки одежды), на заднем плане комната в стиле 60х детективного агенства средней потасканности с небольшим налетом новизны. Все предметы в стиле будущего для 80х. За окном пролетает машина будущего. И так далее. Голос и звуки так же синтезируются.
Все объекты данного фильма будут браться из памяти, если же такого объекта нет — можно взять что-нибудь похожее. Если тебе не нравится концовка — просто поменяй её)
>> И, конечно, знаменитый рассказ „Мечтают ли андроиды об электроовцах?“… новеллы Ф.Дика 1977 года. Этот рассказ также исследует природу реальности
— эти произведения не являются рассказами, в отличии от произведения взятого за основу кинофильма «Пророк»

Лучше бы он взял «Крикуны» (Вторая модель) — где искусственный разум порождал новые модели.
Зажали фильм с потерями и каждому кадру присвоили временную метку.
Вот если сжать другой фильм и восстановить первой нейросетью…
В чём тут проявляется ИИ? Даже в тех нейросетях, которые рисуют сюр на основе картин и фотографий, и то больше от творчества.
Вот если бы этой нейросети скормили сначала «Аватар», потом «Звёздные войны», а потом она бы восстановила блокбастер, где ситхи сражаются против джедаев за Пандору, попутно вербуя себе учеников из аборигенов, вот это была бы и вправду «вещь, которой мир ещё не видывал», действительно стирающая грань между реальным и искусственным разумом.
Эта работа — просто механическое использование autoencoder'а, ничего интересного в реализации нет. Автора статьи, видимо, заинтересовал лишь забавный факт: один ИИ распознал исходник после обработки другим ИИ.
Да, вот если бы нейросеть, наученную на одном фильме, натравить на другой… как здесь только с видео… вот была бы психоделика))
Если натравить на целый фильм, шаблоны получатся достаточно универсальными, так что дикой психоделики вряд ли стоит ждать. Я прямо сейчас учу такую сетку, результат не впечатляет. Видимо, мне по вычислительным русурсам до гугла далеко.
Результат, sparse autoencoder, 1500 шаблонов 16x16

Видимо, sparsity перекрутил, результат получился будто posterized. В общем, работа в процессе.
Я не специалист в нейросетях, но меня интересует следующее.
Почему нейросети не могут восстанавливать лица «человеческим» алгоритмом, подобным составлению фоторобота?
Зачем ей 1500 шаблонов 16х16, когда в фоторобот можно закинуть 15 параметрических шаблонов?
Вот Рутгера Хауэра она превращает в Воландеморта, хотя как мне кажется ей должно быть понятно, кто это. Ну или просто понятно, что это человек со стандартным лицом, а не гуль из Фалаута.
Автоэнкодеры как в работе выше, так и мой, неспециализированы, они в большинстве своём неспособны отличить человека от дерева (и вообще различать объекты целиком), они работают на примитивном уровне различения градиентов, светотени, текстуры, базовой формы. Наш мозг действует сходным образом, у нас тоже есть такое базовое представление за одним исключением: оно трёхмерное, а весь плоский видеопоток достраивается воображением до трёхмерного, так что у нас не вызывает сложности узнать себя на фото.

Есть более сложные глубинные сети (утрируя можно считать, что это набор автоэнкодеров структуры вида e-e-e-d-d-d), которые интерпретируют все эти показатели в тот самый «человеческий» алгоритм, там на определённом уровне Вы можете уже увидеть вполне логичные с человеческой т.з. признаки. Просто лично мне с ними сложно работать, а autoencoder'ы просты и часто вполне эффективны.
Зачем ей 1500 шаблонов 16х16, когда в фоторобот можно закинуть 15 параметрических шаблонов?
Кстати, моя недавняя статья на GT имеет некоторое отношение к этому. Как раз сейчас занимаюсь реализацией сети с шаблонами произвольной формы и размера (в рамках разумного, конечно).
Ну так психоделика получалась при многократной обработке изображения. С видео это тоже можно провернуть — кроме вычислительных мощностей никаких препятствий нет.
Интересно посмотреть реконструкцию мультфильма «Ёжик в тумане».
Да)) Обучаем сеть на Телепузиках и затем скармливаем ей Ежика в тумане. Или наоборот.
Еще одно применение бездумное применение НС к уже решенной задаче… Следующим шагом будет НС которая «переосмыслит математику» и будет складывать числа с помощью deep-learning.
Звучит как идея для стартапа.
Думается мне подобная методика может найти отличное применение при создании анимационных и мультипликационных многосерийных фильмов — обучил машину стилистике произведения и скармливай ей эскизы, получая на выходе готовый кадр…
Так можно пойти дальше — заставить машину генерировать сценарии.
А простые мультики с плоской графикой типа Лунтика и Смешариков итак уже заскриптованы стандартными анимациями, я думаю там уже всё автоматизировано на 90%.
Звук все равно остался. По звуку и забанят.
А если нейросеть насмотрится Терминатора? )
Господа, это же будущее! Только представьте, подсовываешь локально запущенной нейросети текстовый документ со сценарием свежего фильма и смотришь фильм! А какое обширное поле для войны правообладателей с пиратами! А еще ловля зрителей с ноутбуками на задних рядах, быстро шлепающих по клавиатуре о том что происходит на экране.
StarWars_Ep12_TextRIP.txt / 100Кб скачать бесплатно
Зачем писать руками? Есть же нейронная сеть, которая описыват происходящее на видео.
Боюсь, для такого понадобится слишком большой жизненный опыт, т.е. разве что подключать мозг самого пользователя и использовать его воображение для восстановления деталей. Почти по Лукьяненко.
Вообще, странно, что копирасты пошли на создание прецедента. Теперь дело за малым — доработать технологию, чтобы получить хотя бы одно «переосмысление» какого-либо фильма, мало отличимое от оригинала и дальше можно свободно выкладывать пиратское видео под видом «переосмысленного» искином.
Обученная нейросеть действует подобно персонажам, рассказывавшим анекдоты по номерам. "- Номер 200. — Мы неприличных анекдотов при дамах не рассказываем!". И от ответственности это не избавляет, так как теоретически, нейросеть может запомнить каждый кадр фильма во всех подробностях.
Мне кажется, автор видео просто удачно «загрузил» правообладателей. По сути дела им был применен алгоритм сжатия видео с большими потерями. Пусть он и реализован на нейросети, от этого он не перестает быть алгоритмом. Результаты работы алгоритма не являются результатами творческого труда.

Кроме того, хоть видео и значительно отличается от оригинала, но для его создания был применен оригинал, права на который принадлежат правообладателям. Можно задаться вопросом, откуда автор автоэнкодера взял оригинал и под какой лицензией? Содержала ли эта лицензия право на автоматическую обработку видео какими-либо программами? Или это была лицензия исключительно для домашнего просмотра, какие обычно сопровождают DVD-диски?

В общем, мне кажется, с юридической точки зрения здесь все не в пользу автоэнкодеров.
Sign up to leave a comment.

Articles