ITSumma 9 июл 2020 в 12:01

Фабрис Беллар разработал эффективный архиватор текста с учётом вероятности появления следующего слова

3 мин

9.1K

Блог компании ITSummaПрограммирование*Сжатие данных*Машинное обучение*

+46

Комментарии 40

Cheater 9 июл 2020 в 12:49

Отдам все деньги тому, кто придумает такой алгоритм для бинарных данных :) Объёмы непакованного plain text — капля в море

Hardcoin 9 июл 2020 в 13:09

Отдайте их разработчикам AV1. Видео — основной трафик в интернете.

НЛО прилетело и опубликовало эту надпись здесь

Yaong 9 июл 2020 в 14:37

ZPAQ. Вот что тебе надо. Работает тоже на предсказании, но не через нейросети. Потенциально можно тюнинговать под любые данные.

borovichok13 9 июл 2020 в 18:18

В реальности надо сравнивать разные архиваторы, они могут заточены под конкретный тип файлов, остальные форматы они будет жать хуже. И проверять распаковку, могут и не распаковать.

Yaong 10 июл 2020 в 09:38

Особенность этого архиватора в том, что в каждый блок архивированых данных записывается алгоритм распаковки. Т.е. для каждого вида данных потенциально может быть свой препроцессор. Создатель сего архиватора вышел на пенсию и больше активно не занимается им. Но и в текущем состоянии он более чем юзабелен и часть его кода находится в паблик домейн, а часть в GPL.

AAbrosov 9 июл 2020 в 12:55

интересно включает ли распаковщик в себя те самые 345 миллионов параметров
и если да то каков размер этого распаковщика

shellenberg 9 июл 2020 в 13:19

Конечно включает.
221 мегабайт запакованный размер самой маленькой языковой модели с 117 миллионами параметров.
Вообще тема далеко не новая, для сжатия с потерями нейросети используются очень и очень давно. Здесь интересно, что сделано сжатие без потерь. Ну плюс трансформер, да, это очень мощная модель.
Меня больше смущает скорость работы, хоть автор и говорит что " is quite fast." — quite может быть весьма расплывчатым понятием для трансформера применяющегося на CPU

aamonster 10 июл 2020 в 08:27

А что такого в сжатии без потерь? Если модель выдаёт вероятности следующего символа или слова, дальше просто включается в работу арифметический энкодер. Разновидность ppm алгоритма, я так понимаю.

Весь интерес – именно в качестве модели. Надо будет посмотреть статистику по архиваторам и сравнить (но в них обычно модель учится с нуля на входящем потоке).

По скорости – учитывая, что модель обучать на лету не надо, она может быть довольно высока.

evr1ka 9 июл 2020 в 13:36

Интересно, иероглифы азиатских стран не наследие неких предков, которые сжимали таким образом свой праязык?

tester12 9 июл 2020 в 14:21

Конечно, сжимали. Чтобы уместить побольше текста на маленькую глиняную табличку.

Yaong 9 июл 2020 в 14:30

Насколько помню — иероглифы азиатские это другая ветка развития традиционной пиктографической записи где использовали пиктограммы-образы. Если наши алфавиты в итоге пришли к фонетической записи, а пиктограммы преобразовались в знакомые нам простые символы, то у них наоборот, пиктограммы стали абстрагироваться от первоначального образа и количество их расти, значения множиться и усложняться связи между ними. Можно например в некоторых иероглифах китайских до сих пор увидеть первоначальные образы: гора(山), огонь(火), человек(人), дверь(門).

Keyten 10 июл 2020 в 01:49

И у нас можно. А это перевернутая голова быка (алеф — бык -> альфа -> А или A).

Yaong 10 июл 2020 в 09:43

Ну вот в случае кириллицы и латиницы даже я, со своей больной фантазией, никак не смогу увидеть в А — быка, а в Е — человека. Тут уже нужна работа специалистов.

Wesha 10 июл 2020 в 23:57

даже я, со своей больной фантазией, никак не смогу увидеть в А — быка

Да ёктель! Кверху ногами переверните!

Вот так: --> ∀

Видите сужающуюся книзу морду и рога?

xeioex 9 июл 2020 в 14:07

ITSumma
Забыли упомянуть еще один проект bellard.org/quickjs

PlugIN 9 июл 2020 в 14:24

Удивительный человек! Спасибо ему.

Timursan 9 июл 2020 в 15:14

Ffmpeg — вещь

Nikobraz 9 июл 2020 в 16:09

А можно просто переводить на китайский. Сжатие достаточное, и не нужно разархивировать

НЛО прилетело и опубликовало эту надпись здесь

Nikobraz 9 июл 2020 в 16:33

а насколько устойчив к потерям данных алгоритм из сей статьи?

shiru8bit 9 июл 2020 в 16:43

Алгоритм из статьи работает без потерь.

namikiri 9 июл 2020 в 16:12

Фабрис крутой! Сколько у него проектов, тут вот выше показали ссылку на QuickJS — последний релиз был четыре дня назад! Откуда у него столько эмоциональных и физических сил на всё это? Честь и хвала таким людям.

perfect_genius 10 июл 2020 в 19:52

Видимо, ему не надо зарабатывать на еду.

WST 9 июл 2020 в 16:17

Из всего, что я пробовал, лучше всего сжимало тексты (впрочем, как и любые другие данные) оно, но, увы, достигнуто это доведённым до абсурда потреблением памяти и отсутствием распараллеливания.

borovichok13 9 июл 2020 в 17:11

Когда-то увлекался сравнением уровня сжатия архиваторов. Не самый шустрый и достаточно старый Nanozip сжимает текстовый файл до 15 %. Сразу возникает вопрос скорости сжатия архива? Обычно, чем лучше жмет — тем дольше работает архиватор.
Для теста использована модель enwik5, хотя сейчас принято тестировать enwik9 (на 4 порядка больше файл). Есть даже приз 500000 евро кто сожмет лучше всех.
Кстати, cmix v18 сжимает enwik9 до 11.6% (http://mattmahoney.net/dc/text.html — там большая таблица архиваторов приведена)