Автор: Денис Аветисян


Новое исследование предлагает всесторонний анализ возможностей современных моделей, объединяющих зрение и язык, при работе со сжатыми изображениями.

Снижение производительности VLM, вызванное сжатием изображений, компенсируется предложенным методом, что подтверждается улучшением метрики BD, демонстрируя возможность восстановления качества при обработке сжатых визуальных данных.
Снижение производительности VLM, вызванное сжатием изображений, компенсируется предложенным методом, что подтверждается улучшением метрики BD, демонстрируя возможность восстановления качества при обработке сжатых визуальных данных.

Представлен комплексный бенчмарк для оценки и адаптации моделей обработки изображений к различным алгоритмам сжатия, выявляющий и устраняющий пробелы в обобщающей способности и сохранении информации.

Несмотря на стремительное развитие мультимодальных моделей "зрение-язык" (VLM), их способность эффективно интерпретировать сжатые изображения остается малоизученной проблемой. В работе "Benchmarking and Enhancing VLM for Compressed Image Understanding" представлен всесторонний анализ производительности VLM при обработке изображений, сжатых различными кодеками, а также выявлены факторы, определяющие снижение точности. Показано, что основную роль играет не потеря информации при сжатии, а обобщающая способность модели, и предложен универсальный адаптер для повышения производительности на 10-30%. Возможно ли создание VLM, устойчивых к различным уровням сжатия, и как это повлияет на их применение в реальных условиях?


Пределы Восприятия: Как Искажения Подрывают Способность Машин "Видеть" и "Понимать"

Современные модели, объединяющие зрение и язык, демонстрируют впечатляющие результаты во многих задачах, однако их способность к тонкому визуальному рассуждению и пониманию сложных композиций остаётся ограниченной. Несмотря на постоянное увеличение масштаба и сложности этих моделей, наблюдается существенный разрыв в обобщении: даже незначительные искажения в изображениях приводят к резкому снижению точности. Особенно остро эта проблема проявляется при использовании методов сжатия изображений, направленных на уменьшение размера файлов; вносимые ими артефакты усугубляют неспособность моделей адекватно интерпретировать визуальную информацию. Данное ухудшение производительности может оказать значительное влияние на применение подобных технологий в условиях ограниченных ресурсов, где качество изображения часто страдает, что ставит под сомнение их надежность и эффективность в реальных сценариях.

Сравнение четырех методов сжатия изображений показало, что любые искажения, вызванные сжатием, негативно влияют на способность визуальных языковых моделей (VLM) понимать изображения, что подтверждается результатами ответов на вопросы.
Сравнение четырех методов сжатия изображений показало, что любые искажения, вызванные сжатием, негативно влияют на способность визуальных языковых моделей (VLM) понимать изображения, что подтверждается результатами ответов на вопросы.

Потеря информации и узкое место сжатия

Современные методы сжатия изображений, такие как JPEG, ELIC и DiffEIC, неизбежно приводят к потере части детализации - возникает так называемый “информационный разрыв”, который невозможно полностью восстановить. Эта потеря информации напрямую влияет на производительность больших визуальных моделей (VLM), вызывая ошибки в задачах, требующих точного понимания изображений. Степень этого влияния можно оценить с помощью метрик, подобных BD-Metric; в проведенных исследованиях использование адаптера для сжатия JPEG позволило улучшить показатели модели Qwen-Chat-7B более чем на 12 единиц. Важно отметить, что простое увеличение размера модели не всегда компенсирует ухудшение качества, вызванное сжатием, что свидетельствует об отклонении от стандартных закономерностей масштабирования.

Сравнительный анализ метрики BD показал, что использование различных методов сжатия влияет на производительность визуальных языковых моделей (ВЯМ) как в зависимости от ВЯМ, так и от решаемой задачи, при этом оптимальные результаты достигаются при определенном сочетании обоих факторов.
Сравнительный анализ метрики BD показал, что использование различных методов сжатия влияет на производительность визуальных языковых моделей (ВЯМ) как в зависимости от ВЯМ, так и от решаемой задачи, при этом оптимальные результаты достигаются при определенном сочетании обоих факторов.

Сравнительный анализ метрики BD показал, что использование различных методов сжатия влияет на производительность визуальных языковых моделей (ВЯМ) как в зависимости от ВЯМ, так и от решаемой задачи, при этом оптимальные результаты достигаются при определенном сочетании обоих факторов.

Преодоление артефактов сжатия: Легкий адаптер для улучшения восприятия изображений

Разработанный адаптер VLM представляет собой перспективное решение для повышения устойчивости визуальных языковых моделей (VLM) к изображениям, подвергшимся сжатию, без необходимости их масштабного переобучения. Этот адаптер эффективно взаимодействует с моделями с открытым исходным кодом, такими как Qwen-VL2.5-3B и InternVL3-1B, значительно улучшая их производительность при обработке сжатых данных. Экспериментальные исследования показали увеличение точности распознавания изображений на 10-30% при использовании различных кодеков сжатия. Решение проблемы «разрыва в обобщении» позволяет VLM сохранять высокую точность даже при значительном сжатии изображений, открывая возможности для создания эффективных и надежных приложений, работающих с визуальной информацией.

Визуализация демонстрирует производительность различных VLM-моделей по всем метрикам при трех уровнях компрессионных искажений.
Визуализация демонстрирует производительность различных VLM-моделей по всем метрикам при трех уровнях компрессионных искажений.

Проверка Надежности на Разнообразных Данных

Комплексная оценка адаптера VLM проводилась с использованием популярных эталонов, включая MMBench, COCO-Caption, POPE, SEEDBench и GQA. Результаты демонстрируют значительное повышение точности и устойчивости к различным задачам, таким как генерация подписей к изображениям, обнаружение объектов и визуальное рассуждение. Эта проверка подтверждает способность адаптера сохранять высокую производительность VLM даже при использовании сжатых изображений, что позволяет создавать эффективные и надежные приложения для сред с ограниченными ресурсами.

Наши результаты показывают улучшение субъективной оценки метрик POPE и SEEDBench по сравнению со стандартными VLM.
Наши результаты показывают улучшение субъективной оценки метрик POPE и SEEDBench по сравнению со стандартными VLM.

Исследование показывает, что даже самые передовые vision-language модели (VLM) испытывают трудности при работе со сжатыми изображениями. Это закономерно: потеря информации при сжатии создает разрыв между тем, что видит модель, и тем, что она ожидает увидеть. Как говорил Дэвид Марр: «Визуальная система не просто регистрирует изображение; она активно строит его представление». Иными словами, модель пытается реконструировать полную картину из неполных данных, а это всегда компромисс. Предложенный адаптер - лишь временное решение, попытка залатать дыры в архитектуре. В конечном итоге, проблема не в моделях, а в иллюзии, что можно бесконечно сжимать информацию, не теряя её сути. Разрыв между обобщением и фактической производительностью на сжатых изображениях - это не ошибка, а неизбежный побочный эффект оптимизации под «идеальные» условия.

Куда же дальше?

Представленная работа, как и большинство подобных, выявляет проблему - модели «зрения и языка» плохо работают с тем, что в продакшене считают нормой - сжатыми изображениями. Удивительно, не правда ли? Создаётся впечатление, что задача оценки не столько в достижении идеальной точности, сколько в бесконечной гонке за устранением последствий «технического долга», который неизбежно возникает при попытке оптимизировать всё и сразу. Легковесный адаптер, предложенный авторами, - это, конечно, шаг в правильном направлении, но продажи всегда найдут способ сломать даже самую элегантную архитектуру.

Вопрос не в том, чтобы научить модель понимать «идеальные» изображения, а в том, чтобы она смирилась с неизбежным шумом, артефактами и потерями. Разрыв между «информационным» и «восприятийным» качеством - это лишь одна сторона медали. Главная проблема - в обобщающей способности моделей. Каждый новый алгоритм сжатия - это новый способ обмануть систему. Всё новое - это старое, только с другим именем и теми же багами.

В перспективе, вероятно, придётся признать, что универсальной модели, способной работать со всеми видами сжатия, не существует. Более реалистичный подход - это специализация и адаптация моделей под конкретные сценарии использования. И да, можно смело утверждать: как только что-то заработает - просто подождите. Продакшен не заставит себя ждать.


Полный обзор с формулами: denisavetisyan.com/zrenie-skvoz-szhatie-kak-nejroseti-ponimayut-izobrazheniya-s-poteryami

Оригинал статьи: https://arxiv.org/pdf/2512.20901.pdf

Связаться с автором: linkedin.com/in/avetisyan