Как стать автором
Обновить

Комментарии 8

А вы не попробовали что-то такое забабахать и проверить, работает оно или нет?

Зачем? Достаточно ведь посмотреть сериал "Кремниевая долина" и потом просто написать статью :)

Ну зачем так злобно-то?

Примерно через две недели мои домыслы подтвердили профессионалы:

Так происходит потому, что если резкая граница немного промахивается по местоположению (а точно угадать ее местоположение на субпиксельном уровне непросто), то PSNR жестко штрафует алгоритм за такую границу, причем, если граница более плавная, штраф меньше. По сути это означает, что PSNR «поощряет» более размытый результат и нужны новые метрики.

Для большого профессионального коллектива это — спотык. Для меня — стоп машина, что я и отметил в статье. Без наличия на руках подходящих метрик (не мой случай, увы) — это трата времени и дискредитация подхода (потенциально хороший результат превратится в тыкву).

Нейросети так не работают. Рекомендую ознакомиться с теорией информации и использованием нейросетевых методов сжатия.

Собственно, нейросеть может создать приближение функции кодирующей изображения из определенного домена, но при добавлении другого домена возникнут искажения. Это можно компенсировать добавлением числа параметров, но после некоторого предела использовать такую функцию становится бессмысленно.
Самый наглядный пример - StableDiffusion. Набор из 75 токенов и сид исходного шума кодирует любое из триллионов изображений, но закодировать любое произвольное изображение невозможно так как функции генерации используют некоторый набор абстракций, полученных из обучающего датасета. И статистическое смещение/искажение этих абстракций не позволяют кодировать произвольное изображение без дообучения.
Самая главная проблема в нейросетевом кодировании - фазовые пространства не гомеоморфны, там есть гомеоморфные кластера для некоторых доменов, но эти кластера разрежены. Чем больше размерность пространства, тем больше кластеров и больше разряжение.

То есть мы каждый раз должны обучать сеть сжимать одно изображение?

ОК, сойдёт :) На выходе всё равно детерминированный формат, который читается без нейросетей. Хотя на данном уровне развития техники это, конечно, умозрительная возможность.

Существуют архиваторы, которые работают на нейросетях (или на алгоримах, похожих на нейросети), но немного по другому принципу. Там нейросеть быстро обучают под сжимаемый набор данных. Но их скорость работы слишком низкая, а профит слишком небольшой по сравнению с более традиционными методами сжатия.

Некоторые предсказательные алгоритмы (вроде https://ru.wikipedia.org/wiki/Context_tree_weighting, https://ru.wikipedia.org/wiki/DMC_(алгоритм_сжатия)) хоть и не являются нейросетями, но имеют некоторые схожие особенности.

НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории