Сжатие данных *

Упаковываем и распаковываем информацию

СтатьиПостыНовостиАвторыКомпании

pulichkin вчера в 11:57

Сравнение форматов PNG: от первой до третьей редакции

Простой

30 мин

1.6K

Блог компании NtechLabОбработка изображений*Сжатие данных*Алгоритмы*Open source*

Обзор

Недавно опубликованная третья редакция спецификации Portable Network Graphics (PNG) 2025 года, разработанная World Wide Web Consortium (W3C), привлекла внимание к эволюции этого формата (W3C PNG Specification (Third Edition, 2025)). Ранее я, как и многие, использовал PNG, не задумываясь о его развитии и различных редакциях. Углубившись в изучение спецификаций PNG (1996, 2003, 2025), я решил подготовить данную статью, чтобы обобщить ключевые изменения и их значение для веб-дизайна, разработки игр и мультимедиа. Статья не претендует на исчерпывающий охват, но стремится предоставить полезный обзор для всех заинтересованных, включая начинающих. Приветствуются любые замечания и предложения по улучшению материала в комментариях к публикации. Весь код, приведённый ниже, выложил в репозиторий. Надеюсь, чтение будет полезным и увлекательным.

+14

vsradkevich 5 мая в 00:46

Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам

Средний

15 мин

4.4K

Искусственный интеллектМашинное обучение*Natural Language Processing*Сжатие данных*Big Data*

Аналитика

Современные большие языковые модели впечатляют, но остаются громоздкими и статичными. В ближайшие годы мы перейдём от таких «гигантов» к персональным ИИ-спутникам: компактным и обучаемым на ходу. Ключ к этому — долговременная память (mem-векторы), модульные трансформеры, параметро-эффективное дообучение, внешние базы знаний и жёсткая оптимизация под локальное железо. Разбираем, какие технологии уже работают, какие ещё только вырастают из лабораторий и что ждёт нас завтра.

Будущее трансформеров

vsradkevich 3 мая в 10:42

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно

Средний

20 мин

3.7K

Искусственный интеллектМашинное обучение*Natural Language Processing*Сжатие данных*Big Data*

Аналитика

Каждый, кто работал с большими языковыми моделями (LLM), знает про ограничение длины контекста: модель не может напрямую обработать текст, превышающий определённое число токенов. Это накладывает ограничения на работу с длинными документами и обширным контекстом. Но что если бы мы могли упаковать длинный текст в один-единственный вектор и скормить его модели как обычный токен? Звучит фантастично, однако свежие исследования показывают, что это возможно – такие “mem-векторы” позволяют сохранить сотни и даже полторы тысячи токенов информации в одном эмбеддинге. Это принципиально иной подход, нежели классическое сжатие данных, и он сулит интересные применения.

Mem-вектор (от “memory vector”) – это специально обученный вектор, который хранит содержание целого текста. Идея в том, что если модель умеет предсказывать текст, то можно подобрать такой вектор на входе, при котором замороженная (неизменяемая) LLM сама декодирует исходный текст. Иначе говоря, mem-вектор играет роль «семени», из которого предобученная модель порождает заложенное в нём сообщение. В этой статье разберём, как это работает, почему вообще возможно “запихнуть” роман в один вектор и какие ограничения при этом появляются. Также сравним mem-подход с классическими алгоритмами сжатия (Huffman, арифметическое кодирование, zlib и др.), обсудим последние научные работы на эту тему и возможные применения: от Retrieval-Augmented Generation (RAG) до передачи новых знаний замороженным моделям. Центральная мысль: mem-векторы – это не просто компрессия текста, а способ напрямую скормить модели смысл и знания, минуя последовательное чтение токенов.

Разбираемся далее

alizar 28 апр в 09:01

MP3 устарел. Будущее за современными lossless-кодеками

Средний

7 мин

14K

Блог компании RUVDS.comIT-стандарты*ЗвукСжатие данных*Хранение данных*

Обзор

Сравнение производительности lossless-кодеков на материале CD-качества, то есть аудиофайлах PCM с битовой глубиной 16 бит и частотой дискретизации 44,1 кГц, источник

В своё время MP3 совершил революцию в распространении музыки. Больше не нужно было покупать дорогие компакт-диски. Достаточно поставить на ночь загрузку из «Напстера» — и к утру у тебя несколько файлов MP3, которые можно слушать совершенно бесплатно! Любые исполнители и альбомы. Это было невероятно.

Но сейчас времена изменились. Файлы скачиваются за секунды, а место на диске измеряется терабайтами. Нет смысла подвергать музыку калечащему сжатию с потерей информации. Можно спокойно скачивать и хранить её в lossless-форматах, причём со значительным сжатием.

Есть ряд lossless-кодеков, которые эффективнее .FLAC по степени сжатия.

Читать дальше →

+55

224

heavychevy 14 апр в 12:09

HIGGS: Новый алгоритм квантования нейросетей

Средний

4 мин

1.5K

Сжатие данных*Исследования и прогнозы в IT*Искусственный интеллектМашинное обучение*Open source*

Давайте разберёмся в том, как работает новый метод квантования больших языковых моделей HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS)

bos1988 28 мар в 12:16

Экономия RAM с pandas.read_sql

Простой

6 мин

1.8K

Python*SQL*Сжатие данных*

Из песочницы

Как экономить до 90% оперативной памяти при загрузке pandas DataFrame из базы данных?

Сравним различные способы выгрузки данных и найдем метод для снижения потребления оперативной памяти.

Pavel_nobranch 22 мар в 03:09

Как передать произвольное количество бит, передав 2 бита

Простой

2 мин

11K

Алгоритмы*Ненормальное программирование*Сетевые технологии*Сжатие данных*

Недавно прочитал статью на Пикабу про бесконечное сжатие, где предлагалось создать словарь 3-х байтовых блоков, и представлять информацию в виде ссылок на эти блоки. Понял что выигрыша в этом нет, но идея передавать не саму информацию, f что-то другое, меня зацепила. Начал размышлять, допустим демон на дне океана перекусывает нитку оптоволокна и смотрит как туда сюда бегут 1 и 0. Какой в них смысл? Одно и тоже. И правда как извлечь смысл из этого однообразия. А здесь вступают в игру фактор времени и договоренности. То есть добавляются дополнительные измерения о которых демон не знает. Стартовые, стоповые биты, длина пакета.

Стал думать, хорошо как можно использовать время, договоренность и идею передавать не саму информацию а ссылку на нее. Как передать ссылку на информацию в словаре, не передавая ее индекс. Допустим передать не сами 4 бита информации, а ссылку на эти 4 бита в таблице всех возможных значений 4 бит.

-7

135

PatientZero 20 фев в 06:21

Как уместить поиск по 30 тысячам слов в 64 КБ ОЗУ

Средний

17 мин

9.4K

История ITКлиентская оптимизация*Алгоритмы*Математика*Сжатие данных*

Ретроспектива

Перевод

Как уместить словарь размером 250 КБ в 64 КБ ОЗУ с возможностью выполнения быстрого поиска? Для справки: даже современные методики сжатия наподобие gzip -9 не могут сжать этот файл до размера меньше 85 КБ.

В 1970-х Дуглас Макилрой столкнулся с этой непростой задачей при реализации проверки правописания для Unix в AT&T. Из-за ограничений компьютера PDP-11 весь словарь должен был умещаться всего в 64 КБ ОЗУ. Кажется, подобную задачу решить невозможно.

Вместо того, чтобы использовать стандартные методики сжатия, Дуглас воспользовался преимуществами свойств данных, разработав алгоритм сжатия, отличавшийся от теоретического минимума сжатия всего на 0,03 бита. И по сей день этот рекорд остаётся непревзойдённым.

История spell в Unix — это не только любопытный исторический факт. Это мастер-класс по проектированию в условиях жёстких ограничений: анализа первооснов задачи, применения математических наблюдений и проектирования изящных решений, работающих в условиях строгого дефицита ресурсов.

+47

zarin 20 дек 2024 в 09:30

Как сделать видео на стриминге легче и не погрязнуть в шакалах: опыт Кинопоиска

13 мин

7.1K

Блог компании ЯндексСжатие данных*Высоконагруженные системы*Алгоритмы*Работа с видео*

Привет! Меня зовут Михаил Мазанов, я отвечаю за технологический стек работы с медиаданными в Кинопоиске: от съёмок оригинальных проектов до доставки и просмотра видео на всех экранах. Для нашей пятой ежегодной конференции про стриминг PlayButton 2024 я готовил большой доклад про оптимизацию качества видео Кинопоиска, а для Хабра решил пересобрать его в виде статьи — для тех, кому текстовый формат предпочтительнее видео.

Кроме технических графиков, вас ждёт ещё и наглядная разница в работе алгоритмов сжатия на примере «Рика и Морти» и «Джона Уика».

+39

aleksandr_krestinin 18 дек 2024 в 08:00

Сжатие графики при помощи алгоритма LZ4

Средний

17 мин

4.4K

Блог компании WhooshСжатие данных*Интернет вещейC*Программирование микроконтроллеров*

Кейс

✏️ Технотекст 7

Привет, Хабр! Меня зовут Александр Крестинин, я разработчик встроенного ПО в компании Whoosh. Мы в embedded-команде не только переливаем биты из одного регистра в другой, но и решаем разные бизнес-задачи. Иногда попадаются головоломки.

Однажды мы подумали, что было бы здорово выводить на экраны самокатов анимации и изображения — показывать инструкции, как пользоваться сервисом, как начать и закончить поездку, ~~и чтобы запускать DOOM.~~

Зачем?

1) Сделать комфортнее. Удобно видеть инструкции на большом и ярком экране перед глазами, а не нырять за ними в приложение на смартфоне.

2) Сделать безопаснее. Пользователь меньше отвлекается на телефон, крепче держится за самокат и внимательнее смотрит на всё, что вокруг.

3) Почти у всех привычных устройств уже есть экраны, которые выводят пользователям видео и картинки, а почему бы не сделать то же самое на самокате?

Но тут возникает проблема. Микроконтроллер крайне ограничен в памяти и вычислительных ресурсах. Самая простая анимация занимает чрезмерно много места. А если внедрить в отрисовку алгоритмы сжатия, то вычислительная нагрузка увеличится и анимация будет сильно лагать.

Расскажу, как мы нашли решение этой задачи. Прошу под кат.

+12

GlobalSign_admin 8 дек 2024 в 17:49

ZIP-бомба в формате Apache Parquet

5 мин

Блог компании GlobalSignСжатие данных*Информационная безопасность*Базы данных*Big Data*

Давние хаброжители помнят, как в 2015 году ZIP-бомба в формате PNG ненадолго вывела из строя Habrastorage. С тех пор появились новые разновидности этого «оружия»: например, разработаны нерекурсивные и компиляторные бомбы (29 байт кода → 16 ГБ .exe).

Подобного рода экспоиты можно встроить не только в формат ZIP или PNG, но и в других форматы файлов, которые поддерживают сжатие. Например, в формате Apache Parquet.

Читать дальше →

+20

Realife 11 ноя 2024 в 09:01

Аппаратное кодирование HEVC в FFmpeg — как быстро вникнуть и начать уже сейчас?

Средний

8 мин

15K

Блог компании RUVDS.comРабота с видео*Сжатие данных*Софт

Туториал

В прошлой статье, посвящённой изучению кодирования на HEVC в FFmpeg, мы разобрали большинство функций работы с видео и научились эффективно сжимать видео или ускорять процесс кодирования для различных задач, преимущественно в программном кодировании. На этот раз моё внимание привлекла тема аппаратного кодирования (ГПУ) в FFmpeg.

Буду рассматривать аппаратные кодеки Nvidia, AMD и Intel.

Читать дальше →

+54

Firemoon 5 ноя 2024 в 11:16

Записываем PNG без мам, пап и внешних библиотек

9 мин

17K

Блог компании SelectelАлгоритмы*Обработка изображений*Сжатие данных*

✏️ Технотекст 7

Я решал очередную техническую задачу и столкнулся с проблемой: нужно сохранять изображения, а у меня нет сериализаторов и я не могу использовать готовые библиотеки. Ситуацию ухудшает, что из доступных форматов только PNG, JPEG и WebP. Выбор пал на PNG.

Формат изображения PNG известен с 1996 года, а на Хабре опубликовано несколько статей о декодировании этого формата. И ни одной — о кодировании. Я расскажу, как сохранить PNG своими руками на случай, если вам тоже придется это делать. Например, в академических целях.

Под катом вас ждет подробный разбор каждого байта на множестве иллюстраций.

Читать дальше →

+145

KoshelevGeorge1989 14 окт 2024 в 17:42

Стеганография в линукс — просто (Часть 2)

Простой

2 мин

2.9K

Хранение данных*Сжатие данных*Информационная безопасность*

Туториал

В этой статье я поделюсь своим опытом и еще некоторыми утилитами

Вообще меня побудило написать эту статью прохождение курса Базовый курс по CTF на онлайн платформе Stepik, он бесплатный и по окончании выдается сертификат (это не реклама, а совет).

Перейдем непосредственно к утилитам.

Я уже подготовил файл «нашпигованый» двумя стегоконтейнерами. Файл скриншота рабочего стола 1.jpg

Проверим его наличие на рабочем столе ls.

KoshelevGeorge1989 3 окт 2024 в 18:29

Стеганография в Linux — просто

Простой

3 мин

12K

Информационная безопасность*Сжатие данных*Хранение данных*

Туториал

Сегодня я хотел бы познакомить читателей Хабра с цифровой стеганографией. В нынешнем примере мы создадим, протестируем, проанализируем и взломаем стегосистемы. Я использую операционную систему Kali GNU/Linux, но кому интересна тема на практике, тот может повторить все то же в любом другом дистрибутиве Линукс.
Но для начала совсем немного теории.

+18

Realife 29 сен 2024 в 11:51

Кодирование с кодеком HEVC простым языком — гайд на FFmpeg. Высокое качество, но низкий вес

Простой

11 мин

35K

Блог компании RUVDS.comOpen source*Работа с видео*Сжатие данных*Софт

Туториал

Казалось бы, довольно простой вопрос: «Чем сжать видео?». На ум сразу приходят Handbrake, Movavi Converter или ещё что-нибудь пострашнее. Однако когда речь заходит о более гиковском подходе с упором на максимальное качество и экономию места, такие программы сложно назвать инструментами. Равно как и для обратной ситуации, когда картинку нужно сильно сжать и сохранить в целостности большую часть полезной информации. Все эти программы только лишь предоставляют набор наиболее общих конфигов для обычной съёмки и 2D.

В этой статье мы изучим, как при помощи самого большого сборника свободных библиотек FFmpeg научиться кодировать видео самому именно под ваши задачи.

Читать дальше →

+123

144

eevg 16 авг 2024 в 09:21

Анализ информации битового блока по количеству нулей и единиц в блоке

Средний

4 мин

1.1K

Визуализация данных*Сжатие данных*

Из песочницы

Среди методов анализа информации, в данной статье представлен анализ распределения плотности информации в битовом блоке данных. Данный метод может быть ориентиром при разработке методов сжатия информации, так как дает оценки как распределена плотность информации в зависимости от состава блока, который определяется количеством нулей и единиц, формирующих битовый блок данных.

sentenzo 25 июл 2024 в 13:30

Как я создал архиватор из задачки с техсобеса: сжатие файлов с помощью RLE

Средний

17 мин

14K

Блог компании KTSPython*Алгоритмы*Сжатие данных*

Обзор

✏️ Технотекст 7

Привет, меня зовут Рома. Я работаю в отделе спецпроектов KTS на позиции Python backend-разработчика.

Однажды мне взбрело в голову написать собственную имплементацию алгоритма сжатия RLE. В этой статье рассказываю подробнее про RLE: что это за зверь такой, где используется, чем плох, чем хорош, и какие неожиданные сложности могут возникнуть при попытке имплементации.

+72

Bright_Translate 21 июл 2024 в 09:00

Как уничтожить вашу ОС с помощью TAR

Средний

12 мин

22K

Блог компании RUVDS.comНастройка Linux*Сжатие данных*Системное администрирование*

Кейс

Перевод

Это короткая история о том, насколько опасной может оказаться обычная распаковка tar, и что можно сделать для минимизации или избежания связанных с ней рисков.

▍ Ошибка

Недавно я экспериментировал с установкой Void Linux через chroot методом XBPS. Для подготовки базовой системы Void Linux на моём хосте с Fedora Linux требовался XBPS Package Manager. Одним из вариантов было скачать архив статически собранных инструментов из официального репозитория. Я выбрал https://repo-default.voidlinux.org/static/xbps-static-latest.x86_64-musl.tar.xz

Читать дальше →

+43

PatientZero 12 июл 2024 в 20:36

Невероятно тупой способ взлома Wi-Fi в самолёте (зато бесплатно)

Простой

14 мин

65K

Информационная безопасность*Мессенджеры*Сетевые технологии*Сжатие данных*

Туториал

Перевод

Самолёт поднялся на высоту трёх километров. Я вытащил свой ноутбук, надеясь воспользоваться Интернетом, а может, немного поработать, если станет совсем скучно.

Подключившись к Wi-Fi самолёта, я открыл браузер. Страница сетевого логина потребовала ввести данные кредитной карты. Я поискал карту, которая обнаружилась внутри паспорта. В процессе поисков я заметил, что страница логина предлагает бесплатно войти в мой аккаунт программы авиамиль, хотя я пока ни за что ещё не заплатил. Я решил, что это дыра в файрволле. Мне предстоял долгий путь из Лондона в Сан-Франциско, поэтому я решил её исследовать.

Я вошёл в свой аккаунт JetStreamers Diamond Altitude, перешёл на страницу своего профиля и увидел кнопку редактирования. Она выглядела обычно: отбрасываемая тень, скруглённые углы, ничего особенного. С её помощью можно было поменять имя, адрес и так далее.

Но внезапно я понял, что это необычная кнопка. Она мошенническим образом позволит мне получить полный доступ к Интернету через мой аккаунт программы авиамиль. Это будет медленно и невероятно тупо, но сработает.

Многие коллеги просили меня выполнить ревью их пул-реквестов, потому что я оставлял комментарии типа «опоздало на две недели» или «мешает развёртыванию критического обновления». Но мои идеи тоже важны, поэтому я надел наушники и включил музыку для концентрации. Я забыл зарядить наушники, поэтому Limp Bizkit начал проигрываться через динамики ноутбука. К счастью, никто из пассажиров не был против, так что мы кайфовали вместе.

Прежде чем получить доступ ко всему Интернету через аккаунт программы авиамиль, мне нужно было написать несколько прототипов. Сначала я думал, что напишу их на Go, но потом понял, что если напишу их на Python, то смогу назвать получившийся инструмент PySkyWiFi. Разумеется, я выбрал второй вариант.

+119

2 3 ...

6 7

Сжатие данных *

Сравнение форматов PNG: от первой до третьей редакции

Новости

Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам

Mem-векторы: как сохранить 1500 токенов в одном векторе и зачем это нужно

MP3 устарел. Будущее за современными lossless-кодеками

HIGGS: Новый алгоритм квантования нейросетей

Экономия RAM с pandas.read_sql

Как передать произвольное количество бит, передав 2 бита

Как уместить поиск по 30 тысячам слов в 64 КБ ОЗУ

Как сделать видео на стриминге легче и не погрязнуть в шакалах: опыт Кинопоиска

Сжатие графики при помощи алгоритма LZ4

ZIP-бомба в формате Apache Parquet

Аппаратное кодирование HEVC в FFmpeg — как быстро вникнуть и начать уже сейчас?

Записываем PNG без мам, пап и внешних библиотек

Ближайшие события

Стеганография в линукс — просто (Часть 2)

Стеганография в Linux — просто

Кодирование с кодеком HEVC простым языком — гайд на FFmpeg. Высокое качество, но низкий вес

Анализ информации битового блока по количеству нулей и единиц в блоке

Как я создал архиватор из задачки с техсобеса: сжатие файлов с помощью RLE

Как уничтожить вашу ОС с помощью TAR

▍ Ошибка

Невероятно тупой способ взлома Wi-Fi в самолёте (зато бесплатно)

Вклад авторов