Сжатие данных *

Упаковываем и распаковываем информацию

Знакомьтесь, HIGGS — новый метод сжатия LLM от исследователей из Яндекса и ведущих научно-технологических вузов

3 мин

4.4K

Блог компании ЯндексМашинное обучение * Исследования и прогнозы в IT * Сжатие данных * Open source *

Исследователи из Yandex Research, НИУ ВШЭ, MIT, KAUST и ISTA разработали новый метод HIGGS для сжатия больших языковых моделей. Его особенность — высокая производительность даже на слабых устройствах без существенной потери качества. Например, это первый метод квантизации, с помощью которого удалось сжать DeepSeek R1 размером 671 млрд параметров без значительного ухудшения модели.

Метод позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает LLM доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.

Метод уже доступен на Hugging Face и GitHub. Научную статью про него можно прочитать на arXiv. Ну а более простое описание — под катом этой новости.

+23

@Travis_Macrif 23 авг 2024 в 06:54

Intel завершила разработку и поддержку видеокодека H.265/HEVC

1 мин

2.4K

Сжатие данных * Работа с видео *

Intel завершила разработку и поддержку видеокодека H.265/HEVC, который был частью проекта Intel Scalable Video Technology. Кодек с открытым исходным кодом, также известный как SVT-HEVC, был оптимизирован для процессоров Xeon Scalable и Xeon D.

@AnnieBronson 29 мая 2024 в 17:06

Microsoft удалила кодек AC-3 Dolby Digital из Windows 11 24H2

1 мин

8.8K

ЗвукСжатие данных * Операционные системы

Microsoft удалила кодек AC-3 Dolby Digital из Windows 11 версии 24H2. Соответствующая информация опубликована на странице поддержки.

«Начиная с Windows 11 версии 24H2 кодек AC-3 больше не входит в состав Windows. При обновлении до Windows 11 версии 24H2 с более ранней версии Windows кодек AC-3 сохранится. В этих случаях вы по-прежнему сможете воспроизводить файлы, закодированные с помощью AC-3», — указывает компания.

@IgnatChuker 5 фев 2024 в 11:46

РКС рассказал о создании алгоритма, увеличивающего объём передаваемых данных со спутников в 10 раз за счёт сжатия

1 мин

4.6K

Сжатие данных * Космонавтика

В холдинге «Российские космические системы» (РКС, входит в госкорпорацию «Роскосмос») создали новый алгоритм сжатия данных, позволяющий в 10 раз увеличить передачу данных со спутников за счёт сжатия. По словам РКС, эта технология позволит без изменения конструкции космических аппаратов дистанционного зондирования Земли (ДЗЗ) увеличить объём передаваемой информации от 1,2 до 10 раз.

+11

@denis-19 3 фев 2024 в 06:12

Релиз AMD Brotli-G 1.0

1 мин

2.4K

Веб-разработка * Open source * GitHub * Сжатие данных * Софт

В конце января 2024 года состоялся первый мажорный релиз инструмента AMD Brotli-G 1.0 для для сжатия данных веб-ресурсов по алгоритму Brotli с помощью графических процессоров (GPU) и центральных процессоров (CPU). Исходный код проекта выложен на GitHub под лицензией MIT License.

@LizzieSimpson 5 дек 2023 в 13:44

В Роскачестве сравнили скорость передачи больших файлов через четыре мессенджера

2 мин

5.3K

Мессенджеры * Сжатие данных * Исследования и прогнозы в IT *

Специалисты Роскачества решили проверить пропускную способность четырёх мессенджеров и выявить лучшие для отправки больших файлов и обмена ими. Опираясь на рейтинг Similarweb по российскому региону, специалисты выбрали наиболее популярные и широко используемые сервисы: WhatsApp, Viber, Telegram и «ВКонтакте».

@axe_chita 16 сен 2023 в 17:08

На сервисе Itch.io проводится прием заявок на участие геймджеме посвященого написанию игр под DOS в формате COM файла

1 мин

3.2K

Assembler * Ненормальное программирование * Разработка игр * Сжатие данных *

На онлайн-сервисе инди-разработчиков игр Itch.io до конца сентября 2023 года, проводится прием заявок на участие в геймджеме посвященного написанию игр рассчитанных на исполнение под чистым DOS, при этом вся игра должна умещаться в один-единственный COM файл.

Читать дальше →

@maybe_elf 9 июн 2022 в 12:32

SK Hynix объявила о начале массового производства памяти HBM3

1 мин

2.4K

Высоконагруженные системы * Хранение данных * Сжатие данных * Производство и разработка электроники *

SK hynix объявила о начале массового производства HBM3, которая считается самой производительной в отрасли памятью DRAM. В октябре компания стала первой в отрасли, разработавшей HBM3.

@ITSumma 21 дек 2021 в 09:58

Опубликованы спецификации графического формата QOI, который в 20–50 раз быстрее PNG

3 мин

5.1K

Блог компании ITSummaOpen source * Алгоритмы * Обработка изображений * Сжатие данных *

Примерно месяц назад польский программист Доминик Шаблевски представил на суд публики новый графический формат QOI (Quite OK Image). Формат сжимает без потери качества, ориентируется на максимальную скорость кодирования/декодирования изображений, и по бенчмаркам значительно превосходит libpng и stbi. Разница в сжатии составляет 20−50 раз, в декомпрессии — 3−4 раза.

Кроме того, формат сжатия исключительно простой, закодирован буквально в 300 строчек кода, и работает по простым правилам типа кодирования повторов (RLE). Естественно, он не связан никакими лицензионными соглашениями и ограничениями.

И вот вчера после исправления всех недочётов наконец-то опубликованы финальные спецификации, так что теперь QOI документально забетонирован и его можно начинать использовать в продакшне. Что примечательно, полные спецификации QOI поместились на одной странице!

Читать дальше →

+32

@mvideo 1 дек 2021 в 06:50

Главное — скорость. Новый графический формат QOI в 20−50 раз быстрее PNG

10 мин

10K

Блог компании М.Видео-ЭльдорадоOpen source * Алгоритмы * Обработка изображений * Сжатие данных *

Современные форматы кодирования изображений — это настоящая магия, в которой не разобраться без нескольких лет погружения в специфические алгоритмы. Даже опенсорсные форматы содержат настоящее спагетти навороченных и хитроумных методов типа алгоритма Хаффмана и дискретно-косинусного преобразования — результат нескольких десятилетий развития компьютерной науки.

Поскольку польский разработчик Доминик Шаблевски вообще не разбирается в кодировании изображений, то он написал примитивный метод сжатия изображений без потери качества всего в 300 строчек кода, на базовой математике. Результат его очень удивил.

Читать дальше →

+53

@daniilshat 25 ноя 2021 в 13:04

Разработчик представил Quite OK Image, алгоритм сжатия без потерь со сложностью O(n)

3 мин

11K

Алгоритмы * Обработка изображений * Сжатие данных *

Разработчик Доминик Саблевски (Dominic Szablewski) представил алгоритм QOI (Quite OK Image), который позволяет без потерь сжимать RGB и RGBA изображения до размера файла, аналогичного для формата PNG, но в 20-50 раз быстрее. Автор отметил у себя в блоге, что алгоритм оказался «до глупости простым». Код проекта доступен на GitHub.

+32

@Data_center_MIRAN 3 мар 2021 в 10:28

Машинное обучение применили в звуке. Новый аудиокодек сжимает речь в 3 Кбита/с

3 мин

9.4K

Блог компании Дата-центр «Миран»ЗвукМашинное обучение * Сжатие данных *

Сегодня видеочаты стали частью нашей повседневной жизни. Хотя пропускная способность сетей растёт, по-прежнему востребована качественная связь на низком битрейте. Проблема особенно для звука, потому что именно звук передаёт информацию в чате. На самом низком битрейте принято использовать параметрические кодеки с роботизированным голосом, а не нормальные кодеки, которые описывают форму сигнала.

Поэтому разработчики из компании Google разработали высококачественный речевой кодек Lyra с очень низким битрейтом. В разработке использованы генеративные модели, обученные на тысячах часов данных. Теперь машинное обучение применили и в этой области.

Lyra на 3kbps сжимает речь примерно как Opus на 8kbps.

+22

@ITSumma 9 июл 2020 в 09:01

Фабрис Беллар разработал эффективный архиватор текста с учётом вероятности появления следующего слова

3 мин

9.4K

Блог компании ITSummaМашинное обучение * Программирование * Сжатие данных *

Знаменитый программист Фабрис Беллар представил свою новую разработку: программа для сжатия без потерь англоязычных сообщений по языковой модели GPT-2.

Например, сообщение

This lossless compressor achieves a much higher compression rate on English texts than general purpose compressors (116 символов)

сжимается всего в 10 символов:

猟慴䅭铕袢珏寻䡷䁞꽱

Средний уровень компрессии составляет 15 %.

Сжатие осуществляется с учётом вероятности появления следующего слова по языковой модели нейросети GPT-2, которую разработала компания OpenAI (на Хабре был обзор GPT-2 и новость про генератор текста). Это нейросеть с 345 млн параметров на архитектуре Transformer (Фабрис Беллар отмечает, что самая большая модель GPT-2 с 1,5 млрд параметров даёт весьма условное улучшение сжатия). Далее арифметический кодер генерирует битовый поток. В этой демонстрации каждый сжатый символ содержит 15 бит данных и для примера представлен в юникодовских диапазонах двух наборов символов: CJK (китайский-японский-корейский) и хангыль.

Читать дальше →

+43

Сжатие данных *

Знакомьтесь, HIGGS — новый метод сжатия LLM от исследователей из Яндекса и ведущих научно-технологических вузов

Новости

Intel завершила разработку и поддержку видеокодека H.265/HEVC

Microsoft удалила кодек AC-3 Dolby Digital из Windows 11 24H2

РКС рассказал о создании алгоритма, увеличивающего объём передаваемых данных со спутников в 10 раз за счёт сжатия

Релиз AMD Brotli-G 1.0

В Роскачестве сравнили скорость передачи больших файлов через четыре мессенджера

На сервисе Itch.io проводится прием заявок на участие геймджеме посвященого написанию игр под DOS в формате COM файла

SK Hynix объявила о начале массового производства памяти HBM3

Опубликованы спецификации графического формата QOI, который в 20–50 раз быстрее PNG

Главное — скорость. Новый графический формат QOI в 20−50 раз быстрее PNG

Разработчик представил Quite OK Image, алгоритм сжатия без потерь со сложностью O(n)

Машинное обучение применили в звуке. Новый аудиокодек сжимает речь в 3 Кбита/с

Фабрис Беллар разработал эффективный архиватор текста с учётом вероятности появления следующего слова

Ближайшие события

Вклад авторов