Сжатие данных *

Упаковываем и распаковываем информацию

62,35

Рейтинг

СтатьиПостыНовостиАвторыКомпании

MaxLenPer 6 апр в 07:16

maxpack: межфайловая дедупликация на версионных данных

Простой

5 мин

Сжатие данных * Хранение данных * DevOps *

Обзор

Из песочницы

Разбор межфайловой дедупликации на версионных данных: почему обычная упаковка упирается в потолок и что меняется на CPython, Go и Node.js.

recompileme 6 апр в 05:29

Simple diffusion – компактная модель генерации изображений

Простой

7 мин

6.6K

Искусственный интеллектКомпьютерная анимация * Машинное обучение * Сжатие данных *

Всем привет! Мы создаем простую, быструю и компактную диффузионную модель, которую можно обучать и запускать на обычных видеокартах, сохранив при этом высокое качество. Simple Diffusion (sdxs-1b) — это первый результат наших опытов, мы публикуем её как альфа‑версию под лицензией Apache-2.0 вместе с открытым кодом подготовки данных и обучения. https://huggingface.co/AiArtLab/sdxs-1b

TLDR; На обучение SDXL потребовалось ~6 млн долларов. Z‑Image говорят обучили всего за 600к. У нас была RTX-4080 и ~~два чемодана~~ желание сделать небольшой прототип быстрой и дешевой модели на imagenet. В процессе мы немного увлеклись. Вероятно удалось создать модель примерно в сотни раз дешевле/быстрее относительно быстро обучаемой SDXL с генерацией близко к реальному времени в высоком разрешении, и без характерных проблем в анатомии, но качество пока в целом ниже (но надеемся будет выше).

+13

Kahelman 3 апр в 23:15

Исследователи Кембриджа доказали, что вашей статьи не существует

Сложный

4 мин

17K

Искусственный интеллектИсследования и прогнозы в IT * КопирайтСжатие данных *

Аналитика

Перевод

СРОЧНО. Исследователи из Отдела предиктивных реконструкций (Department of Predictive Reconstructions) Королевского колледжа Кембриджа (King’s College Cambridge) доказали, что любой письменный текст можно свести к минимальному генеративному промпту и восстановить с семантической достоверностью 98%. Редакция получила доступ к препубликационному черновику. Рынки реагируют. Подробности ниже.

-7

meliksetyan 25 мар в 20:46

TurboQuant. Новый алгоритм сжатия от Google

Средний

4 мин

20K

Сжатие данных * Алгоритмы * Исследования и прогнозы в IT *

Обзор

Recovery Mode

Google Research выпустили TurboQuant - новый алгоритм сжатия данных, который сокращает объём кэш-памяти LLM как минимум в 6 раз и даёт ускорение до 8 раз. При этом заявляется отсутствие потерь в точности, что напрямую влияет на эффективность работы ИИ.

+15

inkedsymon 24 мар в 09:17

В каждом JPEG зашита модель вашей сетчатки. Буквально

Простой

8 мин

55K

Алгоритмы * Обработка изображений * Научно-популярноеСжатие данных * Python *

Обзор

После того как я написал статью про то, что ваш монитор не умеет показывать бирюзовый и 65% видимых цветов для него просто не существуют, один мой знакомый (далекий правда от технической отрасли) спросил: «Окей, монитор врёт, а что тогда делает JPEG с оставшимися 35%?» И это хороший вопрос. Я полез в спеку, а через полчаса забыл, зачем вообще полез. Потому меня уже интересовало другое: ребята, которые в 1992-м финализировали этот стандарт, по сути заревёрсили человеческое зрение и запихнули его в алгоритм сжатия.

И я хочу вам про это рассказать, потому что это самый красивый кусок инженерии, который я видел. В той статье я разбирал, как мало мы на самом деле видим. Здесь — как мало нам на самом деле нужно видеть, чтобы мозг поверил, что видит всё. А потом я решил это проверить руками.

+264

tochno_st 23 мар в 09:16

Гайд: Как работать с форматом PARQUET

Простой

9 мин

6.7K

Python * Открытые данные * Сжатие данных *

Туториал

Из песочницы

В прошлом году мы начали публиковать данные в каталоге «Если быть точным» в формате Parquet. Его придумали инженеры Twitter и Cloudera в 2013 году, и сегодня он стал стандартом хранения аналитических данных — его используют Google, Amazon, Netflix и большинство современных data-платформ. В этом гайде мы расскажем, как эффективно работать с данными в формате Parquet с помощью Python.

alizar 8 дек 2025 в 09:01

Видеокодек AV2 готов. Почему нам важны открытые стандарты

Простой

7 мин

17K

Блог компании RUVDS.comРабота с видео * Сжатие данных * Open source * Патентование *

Обзор

Новые видеокодеки моментально улучшают жизнь миллионов людей. Тем не нужно прикладывать практически никаких усилий, разве что обновить железо или софт. После этого видеофайлы магически уменьшаются в размере, качество картинки становится лучше, видео в интернете перестаёт тормозить и т. д. Например, новый видеокодек AV2 уменьшает трафик на 30%.

Единственный недостаток — время кодирования увеличивается, потому что используются сложные интеллектуальные технологии (например, психофизические модели зрения и мозга, новые способы предсказания будущего (межкадровых изменений) по предыдущим кадрам, последние открытия в математике (вроде треллис-квантования). Появляется ощущение некоего волшебства. Вообще, эффективное сжатие напрямую связано с пониманием данных, то есть с уровнем интеллекта. Чем глубже понимание смысла, тем больше мы видим аналогий, паттернов, циклов и рекурсий, которые можно использовать для «упаковки» информации.

Как говорится, достаточно продвинутая технология неотличима от магии. Так и видеокодеки нового поколения — это настоящая программная магия.

+57

bar_bar 14 ноя 2025 в 13:27

K-VAE токенизатор от Сбера

Средний

5 мин

Блог компании СберИскусственный интеллектСжатие данных * Машинное обучение *

Кейс

В Сбере, в Управлении базовых моделей Kandinsky были разработаны токенизаторы KVAE как для изображений, так и для видео, превосходящие state-of-the-art аналоги как по объективным метрикам (PSNR), так и по качеству генерации.

Прямое назначение этих моделей: декодирование и формирование латентного пространства для диффузионных моделей, к которым относится Flux, Wan, StableDiffusion и другие. Качество генераций этих моделей напрямую зависит от выбранного токенизатора.

В посте приведены подробности разработанного решения, которое будет полноценно представлено в рамках AIJourney 2025.

+14

vmetrix 12 ноя 2025 в 12:17

Сравнение технологий аппаратного транскодирования

Простой

13 мин

8.5K

Блог компании RUTUBEКомпьютерное железоСжатие данных * Работа с видео * Видеокарты

Аналитика

Можно ли чем-то заменить Nvidia? Если уж не для нейросетей, то для транскодирования видео, которое в медиапроизводстве занимает очень значительное место и требует больших вычислительных ресурсов.

В этой статье попытаемся выяснить, есть ли у аппаратной платформы NVIDIA альтернативы в задачах обработки и кодирования видео, и можно ли заменить NVIDIA чем-то более доступным во всех смыслах: и по возможности закупки на рынке РФ, и по цене.

+10

3Dvideo 12 ноя 2025 в 09:41

Прогресс видеокодеков и большое сравнение российских видеосервисов

Средний

19 мин

31K

Обзор

✏️ Технотекст 8

Год назад на конференции VideoTech ваш покорный слуга сделал большой доклад, в том числе про прогресс современных метрик качества видео (которыми мы довольно плотно занимаемся: тык, тык, тык, тык, тык, тык, тык, тык). А на открытой дискуссии тем же вечером представитель крупного российского видеосервиса поднялся и высказал всем мнение (своего менеджера):

«Измерение качества видео — это лишняя операция. Бизнес — это вообще-то про деньги. Поэтому в бизнесе главное — это бизнес-метрики: user retention, DAU, MAU и вообще ARPU. А все эти ваши PSNR, SSIM, VMAF — от лукавого. Если пользователи платят деньги и не отписываются, значит всех всё устраивает и это главная метрика качества».

«И вообще в свое время в Toyota был внедрен подход Lean Manufacturing, где одна из «семи потерь» — это потери из-за лишних этапов обработки (waste on over-processing), к которому, очевидно, относится измерение качества. Эти материи проходят на курсах MBA, которые довольно дороги. Поэтому далеко не все российские технари в теме этих важнейших понятий и не в состоянии осознать их критическую важность для бизнеса компаний».

Мне эта позиция (изложенная выше короче и резче) очень понравилась своей прямотой и кристальной ясностью. Из этой дискуссии родились два сравнения — видеохостингов и онлайн кинотеатров, про которые и будет рассказано ниже. В том числе будет ответ на вопрос, который мне не раз задавали мои знакомые:

«Слушай, а почему у меня на даче YouTube через Роскомнадзор работает лучше Rutube без Роскомнадзор?»

(видеоверсия — доклад на VideoTech доступен тут)

Ну-с, господа, «которых всё устраивает!» Поехали!

+225

189

sijokun 28 окт 2025 в 21:21

Как мы перестали хранить Pydantic в JSON и в 7 раз сократили расход памяти в Redis

Простой

3 мин

15K

Python * Сжатие данных * Хранение данных *

Из песочницы

У нас был большой продакшен-сервис с ~10M MAU, где Redis использовался как основное хранилище состояния пользователей. Все данные лежали в нём в виде JSON-сериализованных Pydantic-моделей. Это выглядело удобно, пока не стало больно.

На определённом этапе мы выросли до Redis Cluster из пяти нод – и он всё равно задыхался по памяти. JSON-объекты раздувались в разы относительно полезных данных, и мы платили за тонны пустоты — буквально деньгами и деградацией.

Я посчитал сколько весят реально полезные данные и получил цифру, от которой понял, что так жить больше нельзя.

+21

About_it 18 окт 2025 в 13:01

Почему файлы стали меньше: форматы фото и видео (JPEG, HEIC, AV1)

Простой

11 мин

21K

Блог компании RUVDS.comСжатие данных * Обработка изображений * Графический дизайн * Алгоритмы *

Обзор

Форматы изображений и видео вроде JPEG, HEIC и AV1 давно стали частью нашей повседневности. Мы снимаем на смартфон, пересылаем фото в мессенджерах, заливаем видео в облако — и редко задумываемся, почему одинаковый кадр может весить в три раза меньше, но выглядеть так же.

Рассмотрим, как современные кодеки экономят место, почему файлы стали компактнее и зачем это вообще понадобилось. Детали под катом.

+88

114

horpia 9 окт 2025 в 06:55

Упаковка проекта с большой анимацией в один HTML файл или как кодировка Windows-1251 избавила от лишних 52МБ

Средний

12 мин

18K

Сжатие данных * HTML * JavaScript *

Кейс

Поделюсь с вами необычным опытом разработки упаковщика проекта с большой анимационной сценой в один независимый HTML файл, который может воспроизводиться в любом браузере без интернета и веб-сервера.

+119

klimensky 30 сен 2025 в 08:11

Как JPEG стал стандартом изображений в интернете

11 мин

13K

Блог компании FirstVDSОбработка изображений * Сжатие данных * IT-стандарты * Алгоритмы *

Ретроспектива

JPEG — формат-динозавр. Ему уже за тридцать, но он по-прежнему живее всех живых: даже в 2025 году изображения в JPEG встречаются повсюду.

В конце 80-х инженерам нужно было как-то справляться с растущими размерами файлов. Интернет был медленным, а фотографии — всё тяжелее. Тогда и придумали решение: сжатие с потерями, основанное на дискретном косинусном преобразовании (DCT). Если по-простому, DCT — это способ выкинуть из картинки то, чего наш глаз почти не заметит, и оставить главное. В итоге получаем файл в разы меньше, а картинка всё ещё выглядит прилично.

Почему именно этот подход победил конкурентов, кто его протолкнул и как JPEG стал «языком» интернета для изображений — обо всём этом дальше.

+14

alizar 25 авг 2025 в 09:01

Lottie — новый стандарт векторной анимации

Простой

7 мин

25K

Блог компании RUVDS.comIT-стандарты * Сжатие данных * Компьютерная анимация * Веб-дизайн *

Обзор

В области графических форматов в последнее время произошло много интересных событий. Вышла новая спецификация PNG с официальным утверждением формата анимированной графики APNG, хотя его поддержка в браузерах реализована уже довольно давно.

В то же время за последние годы набрал большую популярность Lottie — новый формат векторной анимации, легковесная альтернатива анимированным GIF и APNG. Он основан на JSON и содержит текстовые описания элементов объектов и движений, с поддержкой растровых картинок, динамических скриптов и интерактивных элементов.

+59

PhoenixLi 21 авг 2025 в 11:00

StarRocks и Trino: сходства, различия, бенчмарки и кейсы

Средний

8 мин

6.5K

Data Engineering * Big Data * Сжатие данных * Базы данных *

Перевод

Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций.

Со временем потребности пользователей в аналитике эволюционировали. С ростом мобильного интернета и SaaS-приложений критически важной стала оперативная (в том числе потоковая) аналитика. Компаниям потребовались более производительные движки, поддерживающие большое число одновременных запросов и обеспечивающие низкие задержки. На этом фоне всё больше пользователей стали искать альтернативы.

StarRocks как новый аналитический движок получил широкое признание отрасли. Он демонстрирует заметные преимущества по производительности, поддержке высокой степени параллелизма и низкой задержке, привлекая внимание крупных компаний, таких как WeChat , Xiaohongshu (RedNote), Ctrip, Beike и др. Как именно StarRocks формирует свои преимущества? В чём его сходства и различия с Trino? Ниже — подробный разбор.

sentenzo 15 авг 2025 в 14:38

Как написать bzip2-архиватор на Python: разбираем преобразование Барроуза-Уилера

Сложный

25 мин

16K

Блог компании KTSPython * Сжатие данных * Алгоритмы *

✏️ Технотекст 8

Привет! Я Рома, бэкендер-питонист в KTS.

Это вторая статья в моем цикле об алгоритме архивации bzip2. Первую можно прочитать здесь, но для понимания сегодняшней темы она необязательна. Ниже я разберу преобразование Барроуза-Уилера — ключевой этап сжатия bzip2.

+56

goodbeef 14 авг 2025 в 10:58

Как мы ускорили сжатие данных: эксперименты с эвристиками

9 мин

5.9K

Блог компании Cloud.ruIT-инфраструктура * DevOps * Хранение данных * Сжатие данных *

Хранение 1 ГБ данных в облаке стоит от 2 до 12 рублей. Можно ждать, пока диски подешевеют, а можно сжать данные и получить «бесплатный» апгрейд хранилища. Но если вы храните данные в облаке, сжимать все подряд — как пытаться загрузить стиральную машинку не глядя: льняные брюки могут сесть в 5 раз и освободить место, но если кинуть в барабан кирпич, меньше он не станет, зато вы получите грохот, счет за электричество, недовольных соседей и возможно — сломанную машинку.

Чтобы не потратить кучу CPU с сомнительным результатом, мы у себя в команде R&D Cloud.ru решили исследовать, как сделать сжатие оптимальным, чтобы не тратить время на упаковку того, что сжатию не поддается и эффективно расходовать вычислительные ресурсы.

Я Александр Аксенов, мой профиль — оптимизация хранения данных и мне есть что вам рассказать про то, как ускорить процесс сжатия до 80 раз, сэкономить CPU и сохранить качество. Звучит как кликбейт (так оно и есть 😃), но почему это технически правда и может пригодиться вы узнаете из статьи. Надеюсь, мои выводы окажутся полезными всем, кто работает с данными, в особенности инженерам СХД, DevOps, разработчикам распределенных систем и архитекторам облачных решений.

Узнать больше

dign 8 авг 2025 в 14:53

Создаём образ RDP-клиента для запуска с USB-флешки (часть 3)

6 мин

8.6K

Linux * НакопителиСжатие данных * Системное администрирование *

В части 1 и части 2 мы подробно рассмотрели процесс создания загрузочного образа RDP-клиента на базе Debian 12. В результате у нас получился готовый к использованию образ, который можно записать на USB-носитель или установить на жёсткий диск.

В некоторых случаях требуется уменьшить размер виртуального диска — не просто сжать образ, а физически уменьшить объём виртуального qcow2-диска.

Самый надёжный способ — создать новый образ с меньшим диском и перенести туда систему.

bormee 3 авг 2025 в 17:15

CJON (Compact JSON-like Object Notation) v0.1

Средний

5 мин

14K

Базы данных * Восстановление данных * Хранение данных * Сжатие данных *

Из песочницы

1. Назначение

CJON – это легковесный, компактный и человекочитаемый формат, предназначенный для использования в условиях ограниченных каналов связи, таких как SMS, DTMF, и низкоскоростная радиосвязь. Его основное назначение – передача структурированных телеметрических или управляющих данных в случаях, когда традиционный JSON слишком объёмен, а бинарные форматы непрактичны или плохо читаемы.

2. Области применения

• Дистанционная телеметрия для сельского хозяйства и промышленного оборудования
• Аварийные сообщения и тревоги
• Автоматизация в условиях низкоскоростной или оффлайн-связи
• Мобильные устройства, передающие структурированные данные через SMS или голосовую связь
• Передача данных по DTMF через GSM-сети

2 3 ...

7 8