Комментарии 40
Отдам все деньги тому, кто придумает такой алгоритм для бинарных данных :) Объёмы непакованного plain text — капля в море
+1
Отдайте их разработчикам AV1. Видео — основной трафик в интернете.
+4
НЛО прилетело и опубликовало эту надпись здесь
ZPAQ. Вот что тебе надо. Работает тоже на предсказании, но не через нейросети. Потенциально можно тюнинговать под любые данные.
0
В реальности надо сравнивать разные архиваторы, они могут заточены под конкретный тип файлов, остальные форматы они будет жать хуже. И проверять распаковку, могут и не распаковать.
0
Особенность этого архиватора в том, что в каждый блок архивированых данных записывается алгоритм распаковки. Т.е. для каждого вида данных потенциально может быть свой препроцессор. Создатель сего архиватора вышел на пенсию и больше активно не занимается им. Но и в текущем состоянии он более чем юзабелен и часть его кода находится в паблик домейн, а часть в GPL.
+1
интересно включает ли распаковщик в себя те самые 345 миллионов параметров
и если да то каков размер этого распаковщика
и если да то каков размер этого распаковщика
+6
Конечно включает.
221 мегабайт запакованный размер самой маленькой языковой модели с 117 миллионами параметров.
Вообще тема далеко не новая, для сжатия с потерями нейросети используются очень и очень давно. Здесь интересно, что сделано сжатие без потерь. Ну плюс трансформер, да, это очень мощная модель.
Меня больше смущает скорость работы, хоть автор и говорит что " is quite fast." — quite может быть весьма расплывчатым понятием для трансформера применяющегося на CPU
221 мегабайт запакованный размер самой маленькой языковой модели с 117 миллионами параметров.
Вообще тема далеко не новая, для сжатия с потерями нейросети используются очень и очень давно. Здесь интересно, что сделано сжатие без потерь. Ну плюс трансформер, да, это очень мощная модель.
Меня больше смущает скорость работы, хоть автор и говорит что " is quite fast." — quite может быть весьма расплывчатым понятием для трансформера применяющегося на CPU
+2
А что такого в сжатии без потерь? Если модель выдаёт вероятности следующего символа или слова, дальше просто включается в работу арифметический энкодер. Разновидность ppm алгоритма, я так понимаю.
Весь интерес – именно в качестве модели. Надо будет посмотреть статистику по архиваторам и сравнить (но в них обычно модель учится с нуля на входящем потоке).
По скорости – учитывая, что модель обучать на лету не надо, она может быть довольно высока.
0
Интересно, иероглифы азиатских стран не наследие неких предков, которые сжимали таким образом свой праязык?
0
Конечно, сжимали. Чтобы уместить побольше текста на маленькую глиняную табличку.
+7
Насколько помню — иероглифы азиатские это другая ветка развития традиционной пиктографической записи где использовали пиктограммы-образы. Если наши алфавиты в итоге пришли к фонетической записи, а пиктограммы преобразовались в знакомые нам простые символы, то у них наоборот, пиктограммы стали абстрагироваться от первоначального образа и количество их расти, значения множиться и усложняться связи между ними. Можно например в некоторых иероглифах китайских до сих пор увидеть первоначальные образы: гора(山), огонь(火), человек(人), дверь(門).
+1
И у нас можно. А это перевернутая голова быка (алеф — бык -> альфа -> А или A).
0
Ну вот в случае кириллицы и латиницы даже я, со своей больной фантазией, никак не смогу увидеть в А — быка, а в Е — человека. Тут уже нужна работа специалистов.
0
+1
Удивительный человек! Спасибо ему.
+4
Ffmpeg — вещь
+5
А можно просто переводить на китайский. Сжатие достаточное, и не нужно разархивировать
+3
Фабрис крутой! Сколько у него проектов, тут вот выше показали ссылку на QuickJS — последний релиз был четыре дня назад! Откуда у него столько эмоциональных и физических сил на всё это? Честь и хвала таким людям.
+3
Когда-то увлекался сравнением уровня сжатия архиваторов. Не самый шустрый и достаточно старый Nanozip сжимает текстовый файл до 15 %. Сразу возникает вопрос скорости сжатия архива? Обычно, чем лучше жмет — тем дольше работает архиватор.
Для теста использована модель enwik5, хотя сейчас принято тестировать enwik9 (на 4 порядка больше файл). Есть даже приз 500000 евро кто сожмет лучше всех.
Кстати, cmix v18 сжимает enwik9 до 11.6% (http://mattmahoney.net/dc/text.html — там большая таблица архиваторов приведена)
Для теста использована модель enwik5, хотя сейчас принято тестировать enwik9 (на 4 порядка больше файл). Есть даже приз 500000 евро кто сожмет лучше всех.
Кстати, cmix v18 сжимает enwik9 до 11.6% (http://mattmahoney.net/dc/text.html — там большая таблица архиваторов приведена)
0
Реинкарнация архиватора ha.com?
Помнится в свое время его в книжной файлэхе использовали потому что он лучше всего голый текст жал.
Помнится в свое время его в книжной файлэхе использовали потому что он лучше всего голый текст жал.
0
Очень крутой проект Фабриса — Amarisoft.com. Правда, коммерческий. Но крутой.
0
Уникум.
0
эффективный архиватор текста с учётом вероятности появления следующего слова
Варкалось. Хливкие шорьки пырялись по наве, и хрюкотали зелюки, как мюмзики в мове.
(Кажется, я сломал архиватор ;)
+1
сжимается всего в 10 символоввидимо, 4-хбайтовых, то есть 40 байт?
0
Интересно, а он делает аббревиатуры и сокращения, например вместо Федеральная Служба Безопасности написать в ФСБ, процент сжатия посчитайте сами.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Фабрис Беллар разработал эффективный архиватор текста с учётом вероятности появления следующего слова