NickDoom Jan 30 2023 at 21:34

Теоретические соображения о сжатии изображений при помощи нейросетей

6 min

4.7K

Machine learning *

From sandbox

Comments 8

vkni Jan 31 2023 at 05:07

А вы не попробовали что-то такое забабахать и проверить, работает оно или нет?

Neels Feb 2 2023 at 02:54

Зачем? Достаточно ведь посмотреть сериал "Кремниевая долина" и потом просто написать статью :)

vkni Feb 2 2023 at 03:09

Ну зачем так злобно-то?

NickDoom Mar 29 2023 at 08:07

Примерно через две недели мои домыслы подтвердили профессионалы:

Так происходит потому, что если резкая граница немного промахивается по местоположению (а точно угадать ее местоположение на субпиксельном уровне непросто), то PSNR жестко штрафует алгоритм за такую границу, причем, если граница более плавная, штраф меньше. По сути это означает, что PSNR «поощряет» более размытый результат и нужны новые метрики.

Для большого профессионального коллектива это — спотык. Для меня — стоп машина, что я и отметил в статье. Без наличия на руках подходящих метрик (не мой случай, увы) — это трата времени и дискредитация подхода (потенциально хороший результат превратится в тыкву).

Celsius Jan 31 2023 at 05:58

Нейросети так не работают. Рекомендую ознакомиться с теорией информации и использованием нейросетевых методов сжатия.

Собственно, нейросеть может создать приближение функции кодирующей изображения из определенного домена, но при добавлении другого домена возникнут искажения. Это можно компенсировать добавлением числа параметров, но после некоторого предела использовать такую функцию становится бессмысленно.
Самый наглядный пример - StableDiffusion. Набор из 75 токенов и сид исходного шума кодирует любое из триллионов изображений, но закодировать любое произвольное изображение невозможно так как функции генерации используют некоторый набор абстракций, полученных из обучающего датасета. И статистическое смещение/искажение этих абстракций не позволяют кодировать произвольное изображение без дообучения.
Самая главная проблема в нейросетевом кодировании - фазовые пространства не гомеоморфны, там есть гомеоморфные кластера для некоторых доменов, но эти кластера разрежены. Чем больше размерность пространства, тем больше кластеров и больше разряжение.

NickDoom Mar 29 2023 at 08:11

То есть мы каждый раз должны обучать сеть сжимать одно изображение?

ОК, сойдёт :) На выходе всё равно детерминированный формат, который читается без нейросетей. Хотя на данном уровне развития техники это, конечно, умозрительная возможность.

Biga Jan 31 2023 at 12:44

Существуют архиваторы, которые работают на нейросетях (или на алгоримах, похожих на нейросети), но немного по другому принципу. Там нейросеть быстро обучают под сжимаемый набор данных. Но их скорость работы слишком низкая, а профит слишком небольшой по сравнению с более традиционными методами сжатия.

Некоторые предсказательные алгоритмы (вроде https://ru.wikipedia.org/wiki/Context_tree_weighting, https://ru.wikipedia.org/wiki/DMC_(алгоритм_сжатия)) хоть и не являются нейросетями, но имеют некоторые схожие особенности.

UFO landed and left these words here