Сжатие данных *

Упаковываем и распаковываем информацию

СтатьиПостыНовостиАвторыКомпании

@FirstJohn 4 авг 2023 в 07:20

Сжатие данных управляет Интернетом. Вот как это работает

5 мин

6.5K

Блог компании FirstVDSАлгоритмы * Математика * Сжатие данных *

Перевод

Желание одного студента не сдавать выпускной экзамен привело к появлению вездесущего алгоритма, который сжимает данные, не жертвуя при этом информацией.

@MaxRokatansky 3 июл 2023 в 16:07

Алгоритмы компрессии данных: принципы и эффективность

12 мин

39K

Блог компании OTUSАлгоритмы * Сжатие данных *

Обзор

Автор статьи: Артем Михайлов

В современном информационном обществе объем данных стремительно растет, и с каждым годом все больше информации генерируется и обрабатывается. В связи с этим, важным аспектом стало умение эффективно управлять данными, чтобы не только сохранить информацию, но и оптимизировать ее использование и передачу. Одним из основных инструментов для достижения этой цели является компрессия данных.

Компрессия данных — это процесс сокращения объема данных без потерь или с минимальной потерей информации. Путем применения алгоритмов и методов компрессии, мы можем существенно уменьшить размер данных, сохраняя при этом их суть и основные характеристики. Это может быть полезно во множестве ситуаций, начиная от экономии места на хранилище и ускорения передачи данных до минимизации затрат на интернет-трафик и повышения производительности систем обработки и анализа информации.

Читать дальше →

+15

@alizar 3 июл 2023 в 09:00

Кодеки новой эпохи: HEVC, AV1, VVC и нейросети

Средний

6 мин

35K

Блог компании RUVDS.comРабота с видео * Машинное обучение * Алгоритмы * Сжатие данных *

Аналитика

Сжатие с учётом контекста, источник: WaveOne (сайт удалён)

Хотя новые стандарты кодеков появляются каждые десять лет, все они основаны на пиксельной математике — манипулировании значениями отдельных пикселей в видеокадре для удаления информации, не важной для восприятия. Другие математические операции уменьшают объём данных после первоначального кодирования.

В новом поколении кодеков алгоритмы машинного обучения используются для анализа и понимания визуального содержания видео, выявления избыточных данных и более эффективного сжатия. Вместо написанных вручную алгоритмов, тут применяют методы Software 2.0, основанные на обучении. Данная область развивается на протяжении десятилетий, но в последние годы получила сильный толчок. Все знают, что в 2017 году произошёл прорыв в разработке ИИ благодаря изобретению трансформеров. В свою очередь, они основаны на концепции внимания, которую придумали в 90-е. Эта техника впервые позволила соотносить друг с другом отдельные части текста или видеокадра.

Читать дальше →

+55

@MaxRokatansky 23 июн 2023 в 05:47

Кодирование и декодирование данных

Средний

7 мин

49K

Блог компании OTUSМатематика * Сжатие данных * Читальный зал

Обзор

Автор статьи: Артем Михайлов

Кодирование и декодирование данных — это процессы, которые стали неотъемлемой частью нашей цифровой жизни. Они позволяют «упаковать» большой объем информации и передать ее по различным каналам связи, в том числе через Интернет. Кодирование и декодирование не ограничиваются только передачей данных. Они также применяются в графике, звуке, видео и многих других областях.

Зачем нужно кодировать и декодировать данные? Ответ состоит в том, что нам нужно сократить объем информации и передать ее за минимальное время и с минимальными потерями. Кодирование позволяет компрессировать данные до необходимого уровня, а декодирование — восстановить их при получении.

Важным примером применения кодирования и декодирования данных является цифровое телевидение и интернет-трансляции. Например, H.264 — это технология кодирования видео, которая позволяет получить максимально высокое качество с минимальным объемом данных. При этом, при передаче через Интернет, данные сжимаются, и после достижения адресата автоматически декодируются.

Читать дальше →

@Iliya_karin 20 июн 2023 в 04:27

Dedup Windows vs Linux, MS снова “удивит”?

Простой

17 мин

14K

Настройка Linux * Серверное администрирование * Хранение данных * Сжатие данных *

Туториал

✏️ Технотекст 2023

Меня давно заинтриговала тема дедупликации данных. Это произошло в далеком 2016 году, когда передо мной встала задача впихнуть не впихуемое, на продакшн-серверах. Но обнаружить доступное решение оказалось невероятно сложно (на тот момент невозможно). Со временем у меня возникли и личные задачи, когда я хотел уменьшить объем третьей или четвертой копии данных, чтобы сэкономить место на диске. Но, возможно, я просто одержим датахордингом, и это тоже не исключено.

+18

@olegbunin 6 июн 2023 в 09:01

Укрощение мифического чудовища: реальный опыт промышленного использования ScyllaDB без прикрас

8 мин

9.6K

Блог компании Конференции Олега Бунина (Онтико)Сжатие данных * Хранение данных * Базы данных *

CassandraDB – она же просто Кассандра – хорошо зарекомендовала себя в нише высокопроизводительных NoSQL баз данных. Но, вот, её активно стала вытеснять ещё более быстрая, надежная и легко масштабируемая ScyllaDB - этакая Кассандра++. Как тут удержаться и не проверить, так ли прекрасна эта зверушка, как про неё говорят её создатели? Тем более вендоры других популярных баз данных того и гляди закроют поддержку для российских пользователей. Нужно иметь под рукой пару-тройку запасных вариантов. Сегодня мы рассмотрим, как одноглазый монстрик приживается в диких условиях кровавого энтерпрайза, и насколько целесообразно его использовать.

Об этом расскажет Илья Орлов, техлид компании STM Labs. Вместе с командой он разрабатывает высоконагруженные решения для всевозможных задач: бизнес-порталов с использованием собственной платформы, мониторинга фискальных данных и прочее. Они любят экспериментировать с разными БД, поэтому статья будет об использовании ScyllaDB на промышленных мощностях.

@randall 25 мая 2023 в 13:18

Когда данных слишком много… как оптимизировать хранение

Простой

5 мин

Блог компании MWSBig Data * Восстановление данных * Сжатие данных * Хранение данных *

Обзор

Каждый день человечество генерирует порядка 330 млн терабайт данных. Хотя по оценкам экспертов Google всего 10% из них являются свежими и оригинальными, даже копии копий нужно где-то хранить. И эта задача имеет ряд нюансов. Здесь уместно провести аналогию с известным транспортным парадоксом: чем больше дорог строится, тем больше образуется автомобилей, чтобы заполнить их (постулат Льюиса — Могриджа).

Недостаточно построить очень много дата-центров. Один из наиболее очевидных способов сэкономить на хранении данных — это архивирование файлов и сжатие изображений. Есть и другие подходы, которые помогают записать больше данных на диск и быстрее их обрабатывать.

Читать дальше →

@DGryaznov 23 мая 2023 в 07:01

Как стажировка в большой компании может преобразить студенческий проект

Простой

6 мин

3.9K

Блог компании ИТ-холдинг Т1Сжатие данных * Искусственный интеллектКарьера в IT-индустрии

Обзор

Добрый день! Меня зовут Дмитрий Грязнов, я студент УрФу и начинающий разработчик.

Вместе с товарищами мы подумали, что всем студентам и школьникам, которые ищут в интернете информацию, был бы полезен сервис, который может делать смысловую выжимку из текста любого объёма. Мы решили разработать именно такое приложение и выступить с этой идеей на конкурсе «Большие вызовы для студентов». Собрали ансамбль моделей, изучили, много чего переработали.

Коротко: мы используем пайплайн из сжимающих T5, Pegasus, экстракции TextRank, парафразер Bart. Сначала один алгоритм определяет вес каждого предложения и передаёт на вход абстрактивной модели 20% самых значимых предложений. А затем второй перефразирует полученный текст, чтобы сделать его более связанным. Очень много интеграционного кода и тюнинга, чтобы это всё заработало нормально. Сейчас расскажу, как дело было.

+33

@GlobalSign_admin 21 мая 2023 в 18:49

Как заразить видео. Поиск уязвимостей в декодерах H.264

3 мин

11K

Блог компании GlobalSignСжатие данных * Работа с видео * Обработка изображений * Информационная безопасность *

Современные стандарты сжатия видео — настоящее чудо скрытой сложности и результат десятилетий научной работы. Спецификация H.264 — это около 800 страниц правил, определяющих, как декодировать видео. Но чем больше сложности, тем выше риски для безопасности, легче пропустить ошибку в битовом потоке, который слишком труден для понимания и декодирования.

Если посмотреть на экосистему декодирования, то здесь в связке работают инструменты на нескольких уровнях из аппаратных ускорителей на CPU и GPU (список производителей аппаратных декодеров), драйверов и привилегированных программных компонентов. Все вместе они образуют сложнейший неоднородный коктейль привилегированного, практически нетестируемого и уязвимого кода.

В итоге мы приближаемся к тому, что вирусы можно будет незаметно интегрировать в видеоролики и распространять через популярные видеоплатформы, эксплуатируя уязвимости в аппаратных декодерах на смартфонах и в программных декодерах браузеров на ПК.

Читать дальше →

+16

@ru_vds 10 мая 2023 в 09:00

RSync на стероидах с поддержкой Windows

Средний

5 мин

64K

Блог компании RUVDS.comАлгоритмы * Резервное копирование * Сжатие данных * Системное администрирование *

На Хабре периодически рассказывают о новых инструментах для синхронизации данных. Это интересная тема. Такие программы используются:

для синхронизации файлов на разных устройствах,
дедупликации,
резервного копирования,
сжатия.

Малейшая оптимизация даёт экономию трафика, места, ускоряет синхронизацию и общую производительность любых систем. Всё, везде и сразу. В эпоху веб-приложений и клиент-серверной архитектуры со множеством девайсов, которые работают в единой инфраструктуре, синхронизация — Святой Грааль, одна из базовых технологий в компьютерной области.

Кроме того, инструменты синхронизации интересны с алгоритмической точки зрения. Любопытно, как люди умудряются оптимизировать базовые алгоритмы типа rsync, которые вроде бы работают идеально. Но нет, всегда можно придумать что-то получше.

Читать дальше →

+61

@Artem-Martiyanov 7 мая 2023 в 17:38

Webpack. Создание WebP вместе с Jpeg и Png

2 мин

9.3K

CSS * Клиентская оптимизация * HTML * Сжатие данных * Системы сборки *

Из песочницы

Как вы знаете, формат изображений WebP в большинстве случаев имеет меньший вес, по сравнению со своими братьями: png и jpeg. Поэтому использовать его в своих приложениях - это хорошая практика.

@vitalyisaev2 23 мар 2023 в 10:01

Как мы создаём корпоративную почтовую систему нового поколения Mailion. Оптимизация стоимости хранения данных

Средний

22 мин

3.4K

Блог компании МойОфисСерверная оптимизация * Хранение данных * Сжатие данных *

Каждый из нас сталкивался с необходимостью настройки сложного ПО, интенсивно потребляющего ресурсы компьютера. Как правило, у такого софта довольно объёмная конфигурация, и из-за этого бывает трудно подобрать комбинацию параметров, при которой этот софт демонстрировал бы высокую производительность при минимальной утилизации железа.

Одна из наиболее ресурсоемких категорий софта сегодня — это системы хранения данных. К ним можно отнести как классические СУБД, так и хранилища различного назначения. В корпоративной почтовой системе Mailion мы используем объектное хранилище собственной разработки — Dispersed Object Store (DOS). Mailion поддерживает одновременную работу до миллиона пользователей, и подобный уровень нагрузки выдвигает существенные требования к производительности и экономической эффективности системы.

Под катом рассказываем, как мы искали оптимальную конфигурацию нашего объектного хранилища, и какие уроки извлекли из этого поиска.

+26

@alizar 6 фев 2023 в 09:00

Величайшие программисты XXI века. Юрки Алакуйяла — гений сжатия

Простой

8 мин

19K

Блог компании RUVDS.comIT-стандарты * Алгоритмы * Обработка изображений * Сжатие данных *

Пару дней назад на Хабре обсуждали, что сжатие информации — главная концепция нашей жизни. И вот перед нами представитель этой самой индустрии. Человек, который видит мир через призму теории информации, энтропии, хаоса и закономерностей.

Мало кто слышал имя Юрки Алакуйяла (@jyzg), но все мы используем его разработки. Картинки JPEG частенько генерируются фантастическим JPEG-энкодером guetzli с применением психовизуальных моделей, а HTTP-трафик в интернете жмётся кодеком brotli, тоже лучшим в своём классе.

Д-р Юрки Алакуйяла — активный член опенсорсного сообщества и исследователь. Работает техлидом Google Research Europe (Швейцария). Среди последних разработок — алгоритмы сжатия JPEG XL, WebP lossless и др.

Читать дальше →

+87

@alef13 2 фев 2023 в 13:00

Революционный метод сжатия изображений

Средний

5 мин

26K

Блог компании RUVDS.comАлгоритмы * Искусственный интеллектСжатие данных *

Всем привет! Курс компьютерной графики в том или ином виде присутствует в образовательной программе любой ИТ-специальности. В числе прочего там обязательно проходят форматы графических файлов и затрагивают алгоритмы сжатия изображений. Сегодня я расскажу о новом, современном методе сжатия изображений, который ещё не вошёл ни в один учебник.

Читать дальше →

+76

124

@alizar 30 янв 2023 в 09:00

Сжатие без потерь — главная концепция в нашей жизни

Простой

7 мин

24K

Блог компании RUVDS.comСжатие данных * Научно-популярноеМозгАлгоритмы *

Бывало так, что из долгой поездки вы помните только несколько моментов? А все отпуска за много лет сливаются в единое целое? А из школьного класса помните фамилии только нескольких человек? Это вовсе не потеря памяти, как может показаться. Наоборот, это признак крайне развитого интеллекта, который научился эффективно сжимать данные.

На самом деле воспоминания из памяти можно вытянуть (разархивировать) через регрессивный гипноз. Просто в данный момент они не нужны, поэтому хранятся в сжатом виде ~~на ленточных накопителях~~ в дальних уголках памяти.

Все мы знаем и используем компьютерные архиваторы: ZIP, RAR, Brotli и т. д. Но мало кто видит в них модель интеллекта. Это даже как-то странно на первый взгляд. Хотя если подумать, то идеальное сжатие — это синоним понимания.

Читать дальше →

+65

@Data_center_MIRAN 14 дек 2022 в 11:59

Как смотрели нюдсы на древних компьютерах?

7 мин

42K

Блог компании Дата-центр «Миран»История ITОбработка изображений * Сжатие данных * Старое железо

Перевод

Формат JPEG представили в 1993 году, а GIF — в 1987-м. Но тогда непонятно, как смотрели фотографии девушек на этой прекрасной машине образца 1983 года?

Такой вопрос пришёл мне от читателя обзора портативного компьютера Compaq Portable. Ответ оказался сложнее, чем мы думали. Давайте разберёмся.

Читать дальше →

+91

@honyaki 13 дек 2022 в 20:13

Применение нейросетей для сжатия данных при интерактивной визуализации

5 мин

3.7K

Блог компании SkillfactoryЧитальный залСжатие данных * Обработка изображений * Машинное обучение *

Перевод

]

Одна из самых приятных вещей в жизни разработчика архитектуры ПО и технологического эксперта Intel — возможность наблюдать за фантастическими достижениями Центров передового опыта (CoE) OneAPI по всему миру. Недавно лаборатория UC Davis Visualization & Interface Design Innovation (VIDI) Lab поделилась опытом применения глубокого обучения в создании интерактивной визуализации для науки. Подробности — к старту флагмансокго курса по Data Science.

Читать дальше →

@3Dvideo 22 ноя 2022 в 08:02

Хакинг метрик качества видео или как с приходом ИИ все становится намного сложнее

23 мин

16K

Программирование * Сжатие данных * Машинное обучение * Научно-популярноеИскусственный интеллект

Сейчас модно писать, что ML пришел туда и все стало отлично, DL пришел сюда и все стало замечательно. А к кому-то пришел сам AI, и там все стало просто сказочно! Возможна ли ситуация, когда к нам пришел волшебный ML/DL и все стало сложнее, тяжелее и на порядок запутаннее? Безусловно! Разберем такой пример.

Десятки лет при сравнении кодеков и алгоритмов обработки видео исследователи использовали старые добрые метрики PSNR и SSIM с довольно простыми формулами и были счастливы. Но прогресс невозможно остановить! На их место пришли новые метрики и… тут выяснилось, что они взламываются.

— Погодите, погодите… — скажет взволнованный читатель, — А как это вообще выглядит, взломать метрику???
— Добро пожаловать в 21 век, дорогой товарищ! Благодаря неудержимому прогрессу, сегодня можно хакнуть не только ~~утюг~~, колонку, автопилот машины и домашний пылесос, но и метрику качества видео.

В этот момент собеседники обычно дружно спрашивают, кому это надо? О, поверьте, есть люди, которым не просто надо, а сильно надо! Представьте себе, что вы руководитель подразделения и у вас жесткие KPI (маркетинг требует обогнать конкурентов, от этого зависят нехилые годовые бонусы у всех сотрудников и особенно у вас). Чтобы улучшить видеокодек на условные 4%, требуются десятки человеко-месяцев труда весьма высокооплачиваемых инженеров, причем, бывает, получается, а бывает, не очень. И тут выясняется, что можно за пару недель работы одного зеленого стажера подшаманить метрику на 7%. Ваши действия? Вспоминается жизненный анекдот «тут-то мне карта и поперла»…

Далее мы популярно затронем взлом методом черного ящика, белого ящика, взлом недифференцируемых метрик (привет дистилляция!) и цирк с дифференцируемыми.

Впрочем обо всем по порядку…

Кому интересен ~~цирк с конями~~ взлом метрик — го под кат.

+87

@honyaki 10 ноя 2022 в 22:41

Что Chrome сделал с JPEG XL и почему делать этого не стоило

12 мин

11K

Блог компании SkillfactoryGoogle ChromeОбработка изображений * Сжатие данных *

Перевод

Аргументы в защиту формата в лонгриде под катом — к старту курса по Fullstack-разработке на Python.

Разработчики Chrome недавно анонсировали своё решение о прекращении поддержки формата JPEG XL, который ранее был «убран за флажок». Это решение объясняется так:

Читать дальше →

@ErmolaevD 12 окт 2022 в 13:28

Один, два…десять! Когда скорость восстановления имеет значение

7 мин

4.7K

Блог компании КиберпротектСерверная оптимизация * Восстановление данных * Хранение данных * Сжатие данных *

Привет, Хабр! Сегодня я предлагаю поговорить о скорости восстановления из резервной копии. Иногда именно этот параметр оказывается критически недооцененным при внедрении систем резервного копирования для небольших отделов и не самых критичных задач (ведь для критичных RTO и RPO прописывают еще на этапе проектирования). В этом посте мы остановимся на 10 способах сократить время, которое ваши системы будут простаивать, если вдруг не дай бог чего случится. А если вы знаете еще и другие методы, делитесь ими в комментариях.

+14

1 2 3

5 6 7 8

Сжатие данных *

Сжатие данных управляет Интернетом. Вот как это работает

Алгоритмы компрессии данных: принципы и эффективность

Кодеки новой эпохи: HEVC, AV1, VVC и нейросети

Кодирование и декодирование данных

Dedup Windows vs Linux, MS снова “удивит”?

Укрощение мифического чудовища: реальный опыт промышленного использования ScyllaDB без прикрас

Когда данных слишком много… как оптимизировать хранение

Как стажировка в большой компании может преобразить студенческий проект

Как заразить видео. Поиск уязвимостей в декодерах H.264

RSync на стероидах с поддержкой Windows

Webpack. Создание WebP вместе с Jpeg и Png

Как мы создаём корпоративную почтовую систему нового поколения Mailion. Оптимизация стоимости хранения данных

Величайшие программисты XXI века. Юрки Алакуйяла — гений сжатия

Ближайшие события

Революционный метод сжатия изображений

Сжатие без потерь — главная концепция в нашей жизни

Как смотрели нюдсы на древних компьютерах?

Применение нейросетей для сжатия данных при интерактивной визуализации

Хакинг метрик качества видео или как с приходом ИИ все становится намного сложнее

Что Chrome сделал с JPEG XL и почему делать этого не стоило

Один, два…десять! Когда скорость восстановления имеет значение

Вклад авторов