Как стать автором
Обновить
0.2

Сжатие данных *

Упаковываем и распаковываем информацию

Сначала показывать
Порог рейтинга

Знакомьтесь, HIGGS — новый метод сжатия LLM от исследователей из Яндекса и ведущих научно-технологических вузов

Время на прочтение3 мин
Количество просмотров6.4K

Исследователи из Yandex Research, НИУ ВШЭ, MIT, KAUST и ISTA разработали новый метод HIGGS для сжатия больших языковых моделей. Его особенность — высокая производительность даже на слабых устройствах без существенной потери качества. Например, это первый метод квантизации, с помощью которого удалось сжать DeepSeek R1 размером 671 млрд параметров без значительного ухудшения модели.

Метод позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает LLM доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.

Метод уже доступен на Hugging Face и GitHub. Научную статью про него можно прочитать на arXiv. Ну а более простое описание — под катом этой новости. 

Читать далее

Новости

Intel завершила разработку и поддержку видеокодека H.265/HEVC

Время на прочтение1 мин
Количество просмотров4.1K

Intel завершила разработку и поддержку видеокодека H.265/HEVC, который был частью проекта Intel Scalable Video Technology. Кодек с открытым исходным кодом, также известный как SVT-HEVC, был оптимизирован для процессоров Xeon Scalable и Xeon D.

Читать далее

Microsoft удалила кодек AC-3 Dolby Digital из Windows 11 24H2

Время на прочтение1 мин
Количество просмотров10K

Microsoft удалила кодек AC-3 Dolby Digital из Windows 11 версии 24H2. Соответствующая информация опубликована на странице поддержки.

«Начиная с Windows 11 версии 24H2 кодек AC-3 больше не входит в состав Windows. При обновлении до Windows 11 версии 24H2 с более ранней версии Windows кодек AC-3 сохранится. В этих случаях вы по-прежнему сможете воспроизводить файлы, закодированные с помощью AC-3», — указывает компания.

Читать далее

РКС рассказал о создании алгоритма, увеличивающего объём передаваемых данных со спутников в 10 раз за счёт сжатия

Время на прочтение1 мин
Количество просмотров4.4K

В холдинге «Российские космические системы» (РКС, входит в госкорпорацию «Роскосмос») создали новый алгоритм сжатия данных, позволяющий в 10 раз увеличить передачу данных со спутников за счёт сжатия. По словам РКС, эта технология позволит без изменения конструкции космических аппаратов дистанционного зондирования Земли (ДЗЗ) увеличить объём передаваемой информации от 1,2 до 10 раз.

Читать далее

Релиз AMD Brotli-G 1.0

Время на прочтение1 мин
Количество просмотров2.2K

В конце января 2024 года состоялся первый мажорный релиз инструмента AMD Brotli-G 1.0 для для сжатия данных веб-ресурсов по алгоритму Brotli с помощью графических процессоров (GPU) и центральных процессоров (CPU). Исходный код проекта выложен на GitHub под лицензией MIT License.

Читать далее

В Роскачестве сравнили скорость передачи больших файлов через четыре мессенджера

Время на прочтение2 мин
Количество просмотров5K

Специалисты Роскачества решили проверить пропускную способность четырёх мессенджеров и выявить лучшие для отправки больших файлов и обмена ими. Опираясь на рейтинг Similarweb по российскому региону, специалисты выбрали наиболее популярные и широко используемые сервисы: WhatsApp, Viber, Telegram и «ВКонтакте».

Читать далее

На сервисе Itch.io проводится прием заявок на участие геймджеме посвященого написанию игр под DOS в формате COM файла

Время на прочтение1 мин
Количество просмотров3.1K
На онлайн-сервисе инди-разработчиков игр Itch.io до конца сентября 2023 года, проводится прием заявок на участие в геймджеме посвященного написанию игр рассчитанных на исполнение под чистым DOS, при этом вся игра должна умещаться в один-единственный COM файл.
Читать дальше →

SK Hynix объявила о начале массового производства памяти HBM3

Время на прочтение1 мин
Количество просмотров2.3K

SK hynix объявила о начале массового производства HBM3, которая считается самой производительной в отрасли памятью DRAM. В октябре компания стала первой в отрасли, разработавшей HBM3.

Читать далее

Опубликованы спецификации графического формата QOI, который в 20–50 раз быстрее PNG

Время на прочтение3 мин
Количество просмотров4.9K
Примерно месяц назад польский программист Доминик Шаблевски представил на суд публики новый графический формат QOI (Quite OK Image). Формат сжимает без потери качества, ориентируется на максимальную скорость кодирования/декодирования изображений, и по бенчмаркам значительно превосходит libpng и stbi. Разница в сжатии составляет 20−50 раз, в декомпрессии — 3−4 раза.

Кроме того, формат сжатия исключительно простой, закодирован буквально в 300 строчек кода, и работает по простым правилам типа кодирования повторов (RLE). Естественно, он не связан никакими лицензионными соглашениями и ограничениями.

И вот вчера после исправления всех недочётов наконец-то опубликованы финальные спецификации, так что теперь QOI документально забетонирован и его можно начинать использовать в продакшне. Что примечательно, полные спецификации QOI поместились на одной странице!
Читать дальше →

Главное — скорость. Новый графический формат QOI в 20−50 раз быстрее PNG

Время на прочтение10 мин
Количество просмотров9.9K


Современные форматы кодирования изображений — это настоящая магия, в которой не разобраться без нескольких лет погружения в специфические алгоритмы. Даже опенсорсные форматы содержат настоящее спагетти навороченных и хитроумных методов типа алгоритма Хаффмана и дискретно-косинусного преобразования — результат нескольких десятилетий развития компьютерной науки.

Поскольку польский разработчик Доминик Шаблевски вообще не разбирается в кодировании изображений, то он написал примитивный метод сжатия изображений без потери качества всего в 300 строчек кода, на базовой математике. Результат его очень удивил.
Читать дальше →

Разработчик представил Quite OK Image, алгоритм сжатия без потерь со сложностью O(n)

Время на прочтение3 мин
Количество просмотров10K

Разработчик Доминик Саблевски (Dominic Szablewski) представил алгоритм QOI (Quite OK Image), который позволяет без потерь сжимать RGB и RGBA изображения до размера файла, аналогичного для формата PNG, но в 20-50 раз быстрее. Автор отметил у себя в блоге, что алгоритм оказался «до глупости простым». Код проекта доступен на GitHub.

Читать далее

Машинное обучение применили в звуке. Новый аудиокодек сжимает речь в 3 Кбита/с

Время на прочтение3 мин
Количество просмотров9K
Сегодня видеочаты стали частью нашей повседневной жизни. Хотя пропускная способность сетей растёт, по-прежнему востребована качественная связь на низком битрейте. Проблема особенно для звука, потому что именно звук передаёт информацию в чате. На самом низком битрейте принято использовать параметрические кодеки с роботизированным голосом, а не нормальные кодеки, которые описывают форму сигнала.

Поэтому разработчики из компании Google разработали высококачественный речевой кодек Lyra с очень низким битрейтом. В разработке использованы генеративные модели, обученные на тысячах часов данных. Теперь машинное обучение применили и в этой области.

Lyra на 3kbps сжимает речь примерно как Opus на 8kbps.

Фабрис Беллар разработал эффективный архиватор текста с учётом вероятности появления следующего слова

Время на прочтение3 мин
Количество просмотров9.3K
Знаменитый программист Фабрис Беллар представил свою новую разработку: программа для сжатия без потерь англоязычных сообщений по языковой модели GPT-2.

Например, сообщение

This lossless compressor achieves a much higher compression rate on English texts than general purpose compressors (116 символов)

сжимается всего в 10 символов:

猟慴䅭铕袢珏寻䡷䁞꽱

Средний уровень компрессии составляет 15 %.

Сжатие осуществляется с учётом вероятности появления следующего слова по языковой модели нейросети GPT-2, которую разработала компания OpenAI (на Хабре был обзор GPT-2 и новость про генератор текста). Это нейросеть с 345 млн параметров на архитектуре Transformer (Фабрис Беллар отмечает, что самая большая модель GPT-2 с 1,5 млрд параметров даёт весьма условное улучшение сжатия). Далее арифметический кодер генерирует битовый поток. В этой демонстрации каждый сжатый символ содержит 15 бит данных и для примера представлен в юникодовских диапазонах двух наборов символов: CJK (китайский-японский-корейский) и хангыль.
Читать дальше →

Ближайшие события