Сжатие данных *

Упаковываем и распаковываем информацию

СтатьиПостыНовостиАвторыКомпании

MaxRokatansky 20 окт 2023 в 14:28

Сжатие сообщений в Apache Kafka

6 мин

11K

Блог компании OTUSСжатие данных*

Перевод

Apache Kafka способен обеспечивать невероятно высокую пропускную способность. Он славится такими впечатляющими достижениями, как поддержка 20 миллионов заказов в час для рассылки тестов на COVID гражданам США во время пандемии. Достичь такого уровня масштабируемости позволяет подход Kafka к партиционированию топиков.

mvideo 11 окт 2023 в 09:28

Дорогая техника для прослушивания Lossless Audio. Оно того стоит?

Простой

6 мин

19K

Блог компании М.Видео-ЭльдорадоГаджетыЗвукНосимая электроникаСжатие данных*

Обзор

Вы слушаете почти всю свою музыку в «сжатом» формате (MP3 и AAC). Эти файлы экономят место, но опускают высококачественные детали оригинальных записей. Наверняка, вы задумывались, как найти несжатый звук (в форматах WAV и AIFF) и точное воспроизведение оригинальной студийной записи, а также встречали термин Lossless Audio или «аудио без потерь».

Хотя это ни в коем случае не новый термин, «Lossless» сравнительно недавно стал мейнстримом благодаря Apple, Amazon и Spotify, принявших его в своих последних аудиоаппаратных и программных продуктах и, понятное дело, рекламирующих его со всех своих платформ.

Аудио без потерь по-прежнему сжимает файлы, но использует специальный алгоритм, который может минимизировать размер ущерба для детализации. К типам файлов без потерь относятся FLAC (Free Lossless Audio Codec) и ALAC (Apple Lossless Audio Codec). Как говорят в Apple, Amazon и Spotify, у их Lossless Audio звук в исходном качестве. Что же это такое Lossless Audio и с чем его ~~едят~~ слушают? В чем разница между Lossless, Lossy и Hi-Res? какое оборудование сегодня есть для Lossless и сколько стоит? Обо всём этом подробно в этой статье.

Читать дальше →

+12

Tuy4ik 25 сен 2023 в 09:48

Сжать и не пожалеть: как работает сжатие без потерь

Средний

4 мин

5.2K

Алгоритмы*История ITМатематика*Хранение данных*Сжатие данных*

Перевод

Более 9 миллиардов гигабайт информации ежедневно путешествуют по интернету, заставляя постоянно искать все новые и новые методы упаковки данных. Самые эффективные решения используют подходы, которые позволяют достичь большей плотности за счет "потерь" информации в процессе сжатия. В то же время очень мало внимания уделяется сжатию без потерь. Почему? Ответ прост - методы сжатия без потерь уже невероятно эффективны. С их помощью работает буквально всё, от формата PNG до утилиты PKZip. И это все благодаря студенту, что захотел пропустить экзамен.

+12

AntiLogik 24 сен 2023 в 13:21

Приложения алгебры кортежей. Часть 2. Математическая модель вопроса

Средний

11 мин

2.5K

Сжатие данных*Математика*ООП*Алгоритмы*Семантические сети*

Мнение

В предыдущей части рассматривалась новая система счисления, в обосновании которой использовались некоторые соотношения алгебры кортежей.

Об алгебре кортежей (АК) и ее использовании для логико-семантического анализа было рассказано в моей статье в Хабре. В комментариях к статье предлагалось обратить внимание на функцию SELECT в языке SQL, которая соответствует операции Selection (Выборка) в реляционной алгебре. Эта операцию можно рассматривать как один из вариантов математической модели вопроса.

Предлагаемый здесь вариант смысла вопроса заключается в том, что в вопросе заданы некоторые ограничения (область знания, ситуация, значения некоторых атрибутов и т.д.), которые требуется использовать для того, чтобы найти или вычислить значение определенного атрибута или проверить правильность заданных в вопросе соотношений. Эта семантика применима к восполняющим вопросам типа «Что?», «Где?», «Когда?», к уточняющим вопросам типа «Верно ли, что А?» и к ИЛИ-вопросам типа «Что правильно: А или Б?». Назовем такие вопросы ограничительными. Их можно считать вариантами известной в искусственном интеллекте задачи удовлетворения ограничений.

tba 23 авг 2023 в 12:00

Наполняем до краев: влияние порядка столбцов в таблицах на размеры баз данных PostgresQL

Средний

8 мин

24K

PostgreSQL*Хранение данных*Сжатие данных*

Кейс

Перевод

При оценке требований базы данных к оборудованию требуется учет многих факторов. И здесь у Postgres есть одна интересная особенность, которая почти всегда ускользает от внимания разработчиков, потому что она искусно спрятана между столбцами таблиц.

И что же там прячется?

+57

AntiLogik 7 авг 2023 в 13:29

Приложения алгебры кортежей. Часть 1. Гибкая система счисления с простыми основаниями

Средний

8 мин

Сжатие данных*Математика*Алгоритмы*Высоконагруженные системы*

Мнение

В настоящее время известно большое число систем счисления. Подробный перечень (не знаю, насколько полный) приведен в англоязычной Википедии. В этом списке я не нашел ту систему, которая будет изложена здесь. Она относится к классу систем с переменным основанием (mixed radix). Предлагаю ее назвать Flexible number system with a Prime Radixes, сокращенно FPR-системой счисления.

Но для того, чтобы ее понять, необходимы знания некоторых понятий алгебры кортежей (АК) и частично упорядоченных множеств хотя бы в том объеме, который имеется в соответствующей статье в Википедии. Об АК кратко было рассказано в статье «Как совместить логику и семантику в одной алгебраической системе». Там же есть ссылки на публикации с более подробным описанием АК.

В данной статье будут обоснованы следующие преимущества предложенной системы счисления:

• она универсальна - позволяет ТОЧНО выразить все (за исключением нуля) конечные целые и рациональные (с любым ненулевым целым числом в знаменателе) числа, а также некоторые классы иррациональных чисел;

• ее использование позволяет сократить вычислительную сложность алгоритма умножения чисел;

• в ней существенно уменьшается объем памяти для записи и хранения многих больших чисел.

FirstJohn 4 авг 2023 в 07:20

Сжатие данных управляет Интернетом. Вот как это работает

5 мин

6.2K

Блог компании FirstVDSАлгоритмы*Математика*Сжатие данных*

Перевод

Желание одного студента не сдавать выпускной экзамен привело к появлению вездесущего алгоритма, который сжимает данные, не жертвуя при этом информацией.

MaxRokatansky 3 июл 2023 в 16:07

Алгоритмы компрессии данных: принципы и эффективность

Средний

12 мин

27K

Блог компании OTUSАлгоритмы*Сжатие данных*

Обзор

Автор статьи: Артем Михайлов

В современном информационном обществе объем данных стремительно растет, и с каждым годом все больше информации генерируется и обрабатывается. В связи с этим, важным аспектом стало умение эффективно управлять данными, чтобы не только сохранить информацию, но и оптимизировать ее использование и передачу. Одним из основных инструментов для достижения этой цели является компрессия данных.

Компрессия данных — это процесс сокращения объема данных без потерь или с минимальной потерей информации. Путем применения алгоритмов и методов компрессии, мы можем существенно уменьшить размер данных, сохраняя при этом их суть и основные характеристики. Это может быть полезно во множестве ситуаций, начиная от экономии места на хранилище и ускорения передачи данных до минимизации затрат на интернет-трафик и повышения производительности систем обработки и анализа информации.

Читать дальше →

+15

alizar 3 июл 2023 в 09:00

Кодеки новой эпохи: HEVC, AV1, VVC и нейросети

Средний

6 мин

28K

Блог компании RUVDS.comАлгоритмы*Машинное обучение*Работа с видео*Сжатие данных*

Аналитика

Сжатие с учётом контекста, источник: WaveOne (сайт удалён)

Хотя новые стандарты кодеков появляются каждые десять лет, все они основаны на пиксельной математике — манипулировании значениями отдельных пикселей в видеокадре для удаления информации, не важной для восприятия. Другие математические операции уменьшают объём данных после первоначального кодирования.

В новом поколении кодеков алгоритмы машинного обучения используются для анализа и понимания визуального содержания видео, выявления избыточных данных и более эффективного сжатия. Вместо написанных вручную алгоритмов, тут применяют методы Software 2.0, основанные на обучении. Данная область развивается на протяжении десятилетий, но в последние годы получила сильный толчок. Все знают, что в 2017 году произошёл прорыв в разработке ИИ благодаря изобретению трансформеров. В свою очередь, они основаны на концепции внимания, которую придумали в 90-е. Эта техника впервые позволила соотносить друг с другом отдельные части текста или видеокадра.

Читать дальше →

+55

MaxRokatansky 23 июн 2023 в 05:47

Кодирование и декодирование данных

Средний

7 мин

30K

Блог компании OTUSМатематика*Сжатие данных*Читальный зал

Обзор

Автор статьи: Артем Михайлов

Кодирование и декодирование данных — это процессы, которые стали неотъемлемой частью нашей цифровой жизни. Они позволяют «упаковать» большой объем информации и передать ее по различным каналам связи, в том числе через Интернет. Кодирование и декодирование не ограничиваются только передачей данных. Они также применяются в графике, звуке, видео и многих других областях.

Зачем нужно кодировать и декодировать данные? Ответ состоит в том, что нам нужно сократить объем информации и передать ее за минимальное время и с минимальными потерями. Кодирование позволяет компрессировать данные до необходимого уровня, а декодирование — восстановить их при получении.

Важным примером применения кодирования и декодирования данных является цифровое телевидение и интернет-трансляции. Например, H.264 — это технология кодирования видео, которая позволяет получить максимально высокое качество с минимальным объемом данных. При этом, при передаче через Интернет, данные сжимаются, и после достижения адресата автоматически декодируются.

Читать дальше →

Iliya_karin 20 июн 2023 в 04:27

Dedup Windows vs Linux, MS снова “удивит”?

Простой

17 мин

11K

Сжатие данных*Хранение данных*Серверное администрирование*Настройка Linux*

Туториал

✏️ Технотекст 2023

Меня давно заинтриговала тема дедупликации данных. Это произошло в далеком 2016 году, когда передо мной встала задача впихнуть не впихуемое, на продакшн-серверах. Но обнаружить доступное решение оказалось невероятно сложно (на тот момент невозможно). Со временем у меня возникли и личные задачи, когда я хотел уменьшить объем третьей или четвертой копии данных, чтобы сэкономить место на диске. Но, возможно, я просто одержим датахордингом, и это тоже не исключено.

+18

olegbunin 6 июн 2023 в 09:01

Укрощение мифического чудовища: реальный опыт промышленного использования ScyllaDB без прикрас

8 мин

6.6K

Блог компании Конференции Олега Бунина (Онтико)Базы данных*Хранение данных*Сжатие данных*

CassandraDB – она же просто Кассандра – хорошо зарекомендовала себя в нише высокопроизводительных NoSQL баз данных. Но, вот, её активно стала вытеснять ещё более быстрая, надежная и легко масштабируемая ScyllaDB - этакая Кассандра++. Как тут удержаться и не проверить, так ли прекрасна эта зверушка, как про неё говорят её создатели? Тем более вендоры других популярных баз данных того и гляди закроют поддержку для российских пользователей. Нужно иметь под рукой пару-тройку запасных вариантов. Сегодня мы рассмотрим, как одноглазый монстрик приживается в диких условиях кровавого энтерпрайза, и насколько целесообразно его использовать.

Об этом расскажет Илья Орлов, техлид компании STM Labs. Вместе с командой он разрабатывает высоконагруженные решения для всевозможных задач: бизнес-порталов с использованием собственной платформы, мониторинга фискальных данных и прочее. Они любят экспериментировать с разными БД, поэтому статья будет об использовании ScyllaDB на промышленных мощностях.

randall 25 мая 2023 в 13:18

Когда данных слишком много… как оптимизировать хранение

Простой

5 мин

5.1K

Блог компании MWSBig Data*Восстановление данных*Сжатие данных*Хранение данных*

Обзор

Каждый день человечество генерирует порядка 330 млн терабайт данных. Хотя по оценкам экспертов Google всего 10% из них являются свежими и оригинальными, даже копии копий нужно где-то хранить. И эта задача имеет ряд нюансов. Здесь уместно провести аналогию с известным транспортным парадоксом: чем больше дорог строится, тем больше образуется автомобилей, чтобы заполнить их (постулат Льюиса — Могриджа).

Недостаточно построить очень много дата-центров. Один из наиболее очевидных способов сэкономить на хранении данных — это архивирование файлов и сжатие изображений. Есть и другие подходы, которые помогают записать больше данных на диск и быстрее их обрабатывать.

Читать дальше →

DGryaznov 23 мая 2023 в 07:01

Как стажировка в большой компании может преобразить студенческий проект

Простой

6 мин

3.6K

Блог компании Холдинг Т1Карьера в IT-индустрииИскусственный интеллектСжатие данных*

Обзор

Добрый день! Меня зовут Дмитрий Грязнов, я студент УрФу и начинающий разработчик.

Вместе с товарищами мы подумали, что всем студентам и школьникам, которые ищут в интернете информацию, был бы полезен сервис, который может делать смысловую выжимку из текста любого объёма. Мы решили разработать именно такое приложение и выступить с этой идеей на конкурсе «Большие вызовы для студентов». Собрали ансамбль моделей, изучили, много чего переработали.

Коротко: мы используем пайплайн из сжимающих T5, Pegasus, экстракции TextRank, парафразер Bart. Сначала один алгоритм определяет вес каждого предложения и передаёт на вход абстрактивной модели 20% самых значимых предложений. А затем второй перефразирует полученный текст, чтобы сделать его более связанным. Очень много интеграционного кода и тюнинга, чтобы это всё заработало нормально. Сейчас расскажу, как дело было.

+33

GlobalSign_admin 21 мая 2023 в 18:49

Как заразить видео. Поиск уязвимостей в декодерах H.264

3 мин

10K

Блог компании GlobalSignИнформационная безопасность*Обработка изображений*Работа с видео*Сжатие данных*

Современные стандарты сжатия видео — настоящее чудо скрытой сложности и результат десятилетий научной работы. Спецификация H.264 — это около 800 страниц правил, определяющих, как декодировать видео. Но чем больше сложности, тем выше риски для безопасности, легче пропустить ошибку в битовом потоке, который слишком труден для понимания и декодирования.

Если посмотреть на экосистему декодирования, то здесь в связке работают инструменты на нескольких уровнях из аппаратных ускорителей на CPU и GPU (список производителей аппаратных декодеров), драйверов и привилегированных программных компонентов. Все вместе они образуют сложнейший неоднородный коктейль привилегированного, практически нетестируемого и уязвимого кода.

В итоге мы приближаемся к тому, что вирусы можно будет незаметно интегрировать в видеоролики и распространять через популярные видеоплатформы, эксплуатируя уязвимости в аппаратных декодерах на смартфонах и в программных декодерах браузеров на ПК.

Читать дальше →

+16

ru_vds 10 мая 2023 в 09:00

RSync на стероидах с поддержкой Windows

Средний

5 мин

47K

Блог компании RUVDS.comАлгоритмы*Резервное копирование*Сжатие данных*Системное администрирование*

На Хабре периодически рассказывают о новых инструментах для синхронизации данных. Это интересная тема. Такие программы используются:

для синхронизации файлов на разных устройствах,
дедупликации,
резервного копирования,
сжатия.

Малейшая оптимизация даёт экономию трафика, места, ускоряет синхронизацию и общую производительность любых систем. Всё, везде и сразу. В эпоху веб-приложений и клиент-серверной архитектуры со множеством девайсов, которые работают в единой инфраструктуре, синхронизация — Святой Грааль, одна из базовых технологий в компьютерной области.

Кроме того, инструменты синхронизации интересны с алгоритмической точки зрения. Любопытно, как люди умудряются оптимизировать базовые алгоритмы типа rsync, которые вроде бы работают идеально. Но нет, всегда можно придумать что-то получше.

Читать дальше →

+62

Artem-Martiyanov 7 мая 2023 в 17:38

Webpack. Создание WebP вместе с Jpeg и Png

2 мин

8.1K

CSS*Клиентская оптимизация*HTML*Сжатие данных*Системы сборки*

Из песочницы

Как вы знаете, формат изображений WebP в большинстве случаев имеет меньший вес, по сравнению со своими братьями: png и jpeg. Поэтому использовать его в своих приложениях - это хорошая практика.

vitalyisaev2 23 мар 2023 в 10:01

Как мы создаём корпоративную почтовую систему нового поколения Mailion. Оптимизация стоимости хранения данных

Средний

22 мин

3.1K

Блог компании МойОфисСжатие данных*Хранение данных*Серверная оптимизация*

Каждый из нас сталкивался с необходимостью настройки сложного ПО, интенсивно потребляющего ресурсы компьютера. Как правило, у такого софта довольно объёмная конфигурация, и из-за этого бывает трудно подобрать комбинацию параметров, при которой этот софт демонстрировал бы высокую производительность при минимальной утилизации железа.

Одна из наиболее ресурсоемких категорий софта сегодня — это системы хранения данных. К ним можно отнести как классические СУБД, так и хранилища различного назначения. В корпоративной почтовой системе Mailion мы используем объектное хранилище собственной разработки — Dispersed Object Store (DOS). Mailion поддерживает одновременную работу до миллиона пользователей, и подобный уровень нагрузки выдвигает существенные требования к производительности и экономической эффективности системы.

Под катом рассказываем, как мы искали оптимальную конфигурацию нашего объектного хранилища, и какие уроки извлекли из этого поиска.

+27

alizar 6 фев 2023 в 09:00

Величайшие программисты XXI века. Юрки Алакуйяла — гений сжатия

Простой

8 мин

19K

Блог компании RUVDS.comIT-стандарты*Алгоритмы*Обработка изображений*Сжатие данных*

Пару дней назад на Хабре обсуждали, что сжатие информации — главная концепция нашей жизни. И вот перед нами представитель этой самой индустрии. Человек, который видит мир через призму теории информации, энтропии, хаоса и закономерностей.

Мало кто слышал имя Юрки Алакуйяла (@jyzg), но все мы используем его разработки. Картинки JPEG частенько генерируются фантастическим JPEG-энкодером guetzli с применением психовизуальных моделей, а HTTP-трафик в интернете жмётся кодеком brotli, тоже лучшим в своём классе.

Д-р Юрки Алакуйяла — активный член опенсорсного сообщества и исследователь. Работает техлидом Google Research Europe (Швейцария). Среди последних разработок — алгоритмы сжатия JPEG XL, WebP lossless и др.

Читать дальше →

+87

alef13 2 фев 2023 в 13:00

Революционный метод сжатия изображений

Средний

5 мин

24K

Блог компании RUVDS.comАлгоритмы*Искусственный интеллектСжатие данных*

Всем привет! Курс компьютерной графики в том или ином виде присутствует в образовательной программе любой ИТ-специальности. В числе прочего там обязательно проходят форматы графических файлов и затрагивают алгоритмы сжатия изображений. Сегодня я расскажу о новом, современном методе сжатия изображений, который ещё не вошёл ни в один учебник.

Читать дальше →

+76

124

1 2

4 5 6 7

Сжатие данных *

Сжатие сообщений в Apache Kafka

Дорогая техника для прослушивания Lossless Audio. Оно того стоит?

Сжать и не пожалеть: как работает сжатие без потерь

Приложения алгебры кортежей. Часть 2. Математическая модель вопроса

Наполняем до краев: влияние порядка столбцов в таблицах на размеры баз данных PostgresQL

Приложения алгебры кортежей. Часть 1. Гибкая система счисления с простыми основаниями

Сжатие данных управляет Интернетом. Вот как это работает

Алгоритмы компрессии данных: принципы и эффективность

Кодеки новой эпохи: HEVC, AV1, VVC и нейросети

Кодирование и декодирование данных

Dedup Windows vs Linux, MS снова “удивит”?

Укрощение мифического чудовища: реальный опыт промышленного использования ScyllaDB без прикрас

Когда данных слишком много… как оптимизировать хранение

Ближайшие события

Как стажировка в большой компании может преобразить студенческий проект

Как заразить видео. Поиск уязвимостей в декодерах H.264

RSync на стероидах с поддержкой Windows

Webpack. Создание WebP вместе с Jpeg и Png

Как мы создаём корпоративную почтовую систему нового поколения Mailion. Оптимизация стоимости хранения данных

Величайшие программисты XXI века. Юрки Алакуйяла — гений сжатия

Революционный метод сжатия изображений

Вклад авторов