Все потоки

Сжатие данных *

Упаковываем и распаковываем информацию

12,4

Рейтинг

СтатьиПостыНовостиАвторыКомпании

2M12 вчера в 06:10

Как заглянуть внутрь.exe, собранного через Nuitka? Новый инструмент с открытым кодом

Средний

4 мин

6.1K

Python * Реверс-инжиниринг * Open source * Сжатие данных * Анализ и проектирование систем *

Обзор

Из песочницы

Как узнать, что внутри .exe, собранного через Nuitka? DeNuitkanizator — инструмент с открытым кодом для анализа таких файлов. Извлекает строки, модули, хэши, информацию о защите и многое другое за один запуск.

Читать далее

+4

alizar 15 июн в 07:01

Нейронные аудиокодеки: мощное сжатие звука с помощью LLM

Средний

7 мин

14K

Блог компании RUVDS.comАлгоритмы * ЗвукСжатие данных * Математика *

Обзор

В июле 2024 года французская компания Kyutai опубликовала речевую модель Moshi с нейронным аудиокодеком Mimi. Это был первый в мире голосовой end-to-end AI с открытыми исходниками, способный вести диалог в реальном времени и свободный для использования всеми желающими, демо.

Вместо прямого предсказания сэмплов аудиокодек работает в три этапа:

1. Токенизация звука.

2. Предсказание следующих токенов в LLM.

3. Восстановление оригинала.

Читать далее

+56

infosave 10 июн в 13:37

Архиватор рождённый из теории предельного сжатия вселенной

Сложный

5 мин

8.1K

Алгоритмы * Rust * Машинное обучение * Сжатие данных * Физика

Обзор

Bounce — быстрый архиватор на чистом Rust без внешних зависимостей. Smart Routing автоматически выбирает стратегию: LZ77 для текста, Byte-Shuffle для весов нейросетей, Huffman для бинарных данных, Raw Store для уже сжатых файлов. Результат: 450 МБ .safetensors сжимается до 71.9% при декомпрессии 1.3 ГБ/с — лучше gzip и zstd. Многопоточный pipeline, пик памяти 73.6 МБ на файл в 450 МБ, размер блока через золотое сечение. Идеально для ML CI/CD, edge-деплоя LLM и смешанных датасетов.

Читать далее

-3

MaxLenPer 19 мая в 12:58

Мой универсальный код

Простой

4 мин

10K

Rust * Хранение данных * Сжатие данных * Алгоритмы * Математика *

Как я улучшил универсальный код Элиаса 1975 года, заменив длину на popcount — и получил 36% экономии на метаданных. С бенчмарками! Картинка на обложке кринжовая, но тут вроде так принято? 😅

Читать далее

+5

konstantin_kozhin 4 мая в 07:00

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

Средний

5 мин

11K

Блог компании МТСNatural Language Processing * Машинное обучение * Искусственный интеллектСжатие данных *

Обзор

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели.

В основе этой проблемы лежит KV-cache. Пример: у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ.

Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.

Читать далее

+26

sergeivsk 21 апр в 10:41

Как я экономлю 80% контекста нейросетей при работе с логами

Средний

6 мин

7.3K

Rust * Регулярные выражения * Отладка * Программирование * Сжатие данных *

Кейс

Recovery Mode

Разаработанная фоновая утилита позволяет производить вставку сжатых логов с абсолютной прозрачностью для восприятия AI агентами. В статье описал свой путь к оптимизации сжатия до 80%.

Читать далее

+5

MaxLenPer 6 апр в 07:16

maxpack: межфайловая дедупликация на версионных данных

Простой

5 мин

5.2K

Сжатие данных * Хранение данных * DevOps *

Обзор

Из песочницы

Разбор межфайловой дедупликации на версионных данных: почему обычная упаковка упирается в потолок и что меняется на CPython, Go и Node.js.

Читать далее

+1

recompileme 6 апр в 05:29

Simple diffusion – компактная модель генерации изображений

Простой

7 мин

6.8K

Сжатие данных * Машинное обучение * Компьютерная анимация * Искусственный интеллект

✏️ Технотекст 8

Всем привет! Мы создаем простую, быструю и компактную диффузионную модель, которую можно обучать и запускать на обычных видеокартах, сохранив при этом высокое качество. Simple Diffusion (sdxs-1b) — это первый результат наших опытов, мы публикуем её как альфа‑версию под лицензией Apache-2.0 вместе с открытым кодом подготовки данных и обучения. https://huggingface.co/AiArtLab/sdxs-1b

TLDR; На обучение SDXL потребовалось ~6 млн долларов. Z‑Image говорят обучили всего за 600к. У нас была RTX-4080 и ~~два чемодана~~ желание сделать небольшой прототип быстрой и дешевой модели на imagenet. В процессе мы немного увлеклись. Вероятно удалось создать модель примерно в сотни раз дешевле/быстрее относительно быстро обучаемой SDXL с генерацией близко к реальному времени в высоком разрешении, и без характерных проблем в анатомии, но качество пока в целом ниже (но надеемся будет выше).

Читать далее

+13

Kahelman 3 апр в 23:15

Исследователи Кембриджа доказали, что вашей статьи не существует

Сложный

4 мин

17K

Сжатие данных * КопирайтИсследования и прогнозы в IT * Искусственный интеллект

Аналитика

Перевод

СРОЧНО. Исследователи из Отдела предиктивных реконструкций (Department of Predictive Reconstructions) Королевского колледжа Кембриджа (King’s College Cambridge) доказали, что любой письменный текст можно свести к минимальному генеративному промпту и восстановить с семантической достоверностью 98%. Редакция получила доступ к препубликационному черновику. Рынки реагируют. Подробности ниже.

Читать далее

-7

meliksetyan 25 мар в 20:46

TurboQuant. Новый алгоритм сжатия от Google

Средний

4 мин

22K

Сжатие данных * Алгоритмы * Исследования и прогнозы в IT *

Обзор

Recovery Mode

Google Research выпустили TurboQuant - новый алгоритм сжатия данных, который сокращает объём кэш-памяти LLM как минимум в 6 раз и даёт ускорение до 8 раз. При этом заявляется отсутствие потерь в точности, что напрямую влияет на эффективность работы ИИ.

Читать далее

+16

inkedsymon 24 мар в 09:17

В каждом JPEG зашита модель вашей сетчатки. Буквально

Простой

8 мин

60K

Python * Сжатие данных * Научно-популярноеОбработка изображений * Алгоритмы *

Обзор

После того как я написал статью про то, что ваш монитор не умеет показывать бирюзовый и 65% видимых цветов для него просто не существуют, один мой знакомый (далекий правда от технической отрасли) спросил: «Окей, монитор врёт, а что тогда делает JPEG с оставшимися 35%?» И это хороший вопрос. Я полез в спеку, а через полчаса забыл, зачем вообще полез. Потому меня уже интересовало другое: ребята, которые в 1992-м финализировали этот стандарт, по сути заревёрсили человеческое зрение и запихнули его в алгоритм сжатия.

И я хочу вам про это рассказать, потому что это самый красивый кусок инженерии, который я видел. В той статье я разбирал, как мало мы на самом деле видим. Здесь — как мало нам на самом деле нужно видеть, чтобы мозг поверил, что видит всё. А потом я решил это проверить руками.

Читать далее

+269

tochno_st 23 мар в 09:16

Гайд: Как работать с форматом PARQUET

Простой

9 мин

7.4K

Python * Открытые данные * Сжатие данных *

Туториал

Из песочницы

В прошлом году мы начали публиковать данные в каталоге «Если быть точным» в формате Parquet. Его придумали инженеры Twitter и Cloudera в 2013 году, и сегодня он стал стандартом хранения аналитических данных — его используют Google, Amazon, Netflix и большинство современных data-платформ. В этом гайде мы расскажем, как эффективно работать с данными в формате Parquet с помощью Python.

Читать далее

+5

alizar 8 дек 2025 в 09:01

Видеокодек AV2 готов. Почему нам важны открытые стандарты

Простой

7 мин

17K

Блог компании RUVDS.comOpen source * Сжатие данных * Работа с видео * Патентование *

Обзор

Новые видеокодеки моментально улучшают жизнь миллионов людей. Тем не нужно прикладывать практически никаких усилий, разве что обновить железо или софт. После этого видеофайлы магически уменьшаются в размере, качество картинки становится лучше, видео в интернете перестаёт тормозить и т. д. Например, новый видеокодек AV2 уменьшает трафик на 30%.

Единственный недостаток — время кодирования увеличивается, потому что используются сложные интеллектуальные технологии (например, психофизические модели зрения и мозга, новые способы предсказания будущего (межкадровых изменений) по предыдущим кадрам, последние открытия в математике (вроде треллис-квантования). Появляется ощущение некоего волшебства. Вообще, эффективное сжатие напрямую связано с пониманием данных, то есть с уровнем интеллекта. Чем глубже понимание смысла, тем больше мы видим аналогий, паттернов, циклов и рекурсий, которые можно использовать для «упаковки» информации.

Как говорится, достаточно продвинутая технология неотличима от магии. Так и видеокодеки нового поколения — это настоящая программная магия.

Читать далее

+60

bar_bar 14 ноя 2025 в 13:27

K-VAE токенизатор от Сбера

Средний

5 мин

9.1K

Блог компании СберИскусственный интеллектСжатие данных * Машинное обучение *

Кейс

В Сбере, в Управлении базовых моделей Kandinsky были разработаны токенизаторы KVAE как для изображений, так и для видео, превосходящие state-of-the-art аналоги как по объективным метрикам (PSNR), так и по качеству генерации.

Прямое назначение этих моделей: декодирование и формирование латентного пространства для диффузионных моделей, к которым относится Flux, Wan, StableDiffusion и другие. Качество генераций этих моделей напрямую зависит от выбранного токенизатора.

В посте приведены подробности разработанного решения, которое будет полноценно представлено в рамках AIJourney 2025.

Читать далее

+14

vmetrix 12 ноя 2025 в 12:17

Сравнение технологий аппаратного транскодирования

Простой

13 мин

8.6K

Блог компании RUTUBEКомпьютерное железоСжатие данных * Работа с видео * Видеокарты

Аналитика

Можно ли чем-то заменить Nvidia? Если уж не для нейросетей, то для транскодирования видео, которое в медиапроизводстве занимает очень значительное место и требует больших вычислительных ресурсов.

В этой статье попытаемся выяснить, есть ли у аппаратной платформы NVIDIA альтернативы в задачах обработки и кодирования видео, и можно ли заменить NVIDIA чем-то более доступным во всех смыслах: и по возможности закупки на рынке РФ, и по цене.

Читать далее

+10

3Dvideo 12 ноя 2025 в 09:41

Прогресс видеокодеков и большое сравнение российских видеосервисов

Средний

19 мин

32K

Научно-популярноеИскусственный интеллектРабота с видео * Сжатие данных * Программирование *

Обзор

✏️ Победитель Технотекста 8

Год назад на конференции VideoTech ваш покорный слуга сделал большой доклад, в том числе про прогресс современных метрик качества видео (которыми мы довольно плотно занимаемся: тык, тык, тык, тык, тык, тык, тык, тык). А на открытой дискуссии тем же вечером представитель крупного российского видеосервиса поднялся и высказал всем мнение (своего менеджера):

«Измерение качества видео — это лишняя операция. Бизнес — это вообще-то про деньги. Поэтому в бизнесе главное — это бизнес-метрики: user retention, DAU, MAU и вообще ARPU. А все эти ваши PSNR, SSIM, VMAF — от лукавого. Если пользователи платят деньги и не отписываются, значит всех всё устраивает и это главная метрика качества».

«И вообще в свое время в Toyota был внедрен подход Lean Manufacturing, где одна из «семи потерь» — это потери из-за лишних этапов обработки (waste on over-processing), к которому, очевидно, относится измерение качества. Эти материи проходят на курсах MBA, которые довольно дороги. Поэтому далеко не все российские технари в теме этих важнейших понятий и не в состоянии осознать их критическую важность для бизнеса компаний».

Мне эта позиция (изложенная выше короче и резче) очень понравилась своей прямотой и кристальной ясностью. Из этой дискуссии родились два сравнения — видеохостингов и онлайн кинотеатров, про которые и будет рассказано ниже. В том числе будет ответ на вопрос, который мне не раз задавали мои знакомые:

«Слушай, а почему у меня на даче YouTube через Роскомнадзор работает лучше Rutube без Роскомнадзор?»

(видеоверсия — доклад на VideoTech доступен тут)

Ну-с, господа, «которых всё устраивает!» Поехали!

Читать далее

+225

sijokun 28 окт 2025 в 21:21

Как мы перестали хранить Pydantic в JSON и в 7 раз сократили расход памяти в Redis

Простой

3 мин

15K

Python * Сжатие данных * Хранение данных *

Из песочницы

У нас был большой продакшен-сервис с ~10M MAU, где Redis использовался как основное хранилище состояния пользователей. Все данные лежали в нём в виде JSON-сериализованных Pydantic-моделей. Это выглядело удобно, пока не стало больно.

На определённом этапе мы выросли до Redis Cluster из пяти нод – и он всё равно задыхался по памяти. JSON-объекты раздувались в разы относительно полезных данных, и мы платили за тонны пустоты — буквально деньгами и деградацией.

Я посчитал сколько весят реально полезные данные и получил цифру, от которой понял, что так жить больше нельзя.

Читать далее

+21

About_it 18 окт 2025 в 13:01

Почему файлы стали меньше: форматы фото и видео (JPEG, HEIC, AV1)

Простой

11 мин

22K

Блог компании RUVDS.comСжатие данных * Обработка изображений * Графический дизайн * Алгоритмы *

Обзор

Форматы изображений и видео вроде JPEG, HEIC и AV1 давно стали частью нашей повседневности. Мы снимаем на смартфон, пересылаем фото в мессенджерах, заливаем видео в облако — и редко задумываемся, почему одинаковый кадр может весить в три раза меньше, но выглядеть так же.

Рассмотрим, как современные кодеки экономят место, почему файлы стали компактнее и зачем это вообще понадобилось. Детали под катом.

Читать далее

+88

horpia 9 окт 2025 в 06:55

Упаковка проекта с большой анимацией в один HTML файл или как кодировка Windows-1251 избавила от лишних 52МБ

Средний

12 мин

18K

JavaScript * HTML * Сжатие данных *

Кейс

Поделюсь с вами необычным опытом разработки упаковщика проекта с большой анимационной сценой в один независимый HTML файл, который может воспроизводиться в любом браузере без интернета и веб-сервера.

Читать далее

+122

klimensky 30 сен 2025 в 08:11

Как JPEG стал стандартом изображений в интернете

11 мин

14K

Блог компании FirstVDSОбработка изображений * Сжатие данных * IT-стандарты * Алгоритмы *

Ретроспектива

JPEG — формат-динозавр. Ему уже за тридцать, но он по-прежнему живее всех живых: даже в 2025 году изображения в JPEG встречаются повсюду.

В конце 80-х инженерам нужно было как-то справляться с растущими размерами файлов. Интернет был медленным, а фотографии — всё тяжелее. Тогда и придумали решение: сжатие с потерями, основанное на дискретном косинусном преобразовании (DCT). Если по-простому, DCT — это способ выкинуть из картинки то, чего наш глаз почти не заметит, и оставить главное. В итоге получаем файл в разы меньше, а картинка всё ещё выглядит прилично.

Почему именно этот подход победил конкурентов, кто его протолкнул и как JPEG стал «языком» интернета для изображений — обо всём этом дальше.

Читать далее

+14

1

2 3 ...