Comments / Profile of arelive / Habr

Всё таки закодировал. Пока что целым числом байт, то есть если, например, словарь состоит из 512 слов, на каждое слово в тексте будет отведено два байта, и у первого в начале присобачится нос из 7 нулей. Нерационально, но выигрыш уже есть. МиМ сократился с 1.4 МБ до 1.0 МБ. Сам текст программы (все исходники в одном файле) удалось сжать ещё лучше — с 11.7КБ до 7.7КБ. И это с огромными нулевыми носами. Пытался сжать VK_100M, но не дождался конца, комп слишком разогрелся. А жаль, там так много одинаковых имён и паролей типа qwerty.
Обновил гит github.com/2che/litback

Look

Литературный архиватор

arelive Apr 10 2018 at 20:03

Да я не лётчик, какие новые стандарты? Рынок IT вообще какая то оч рандомная вещь, кто взлетит — дело случая. До стандарта HTML каждая контора юзала свою разметку, тысячи их. Просто интересно, есть идеи, я и делаю.

Look

Литературный архиватор

arelive Apr 10 2018 at 09:51

Да, вот тоже думаю про бд с множеством одинаковых данных (имена, издательства, типы и т.п.)
А ещё коды на гитах: одинаковые операторы, названия функций… Серверам с миллионами проектов винчестеры то нужны не маленькие.

Look

Литературный архиватор

arelive Apr 10 2018 at 09:42

Если это можно назвать статьёй )
habrahabr.ru/post/349562

Look

Литературный архиватор

arelive Apr 10 2018 at 06:20

Единичные ошибки почти не влияют на размер. Скорее для поиска вставок на другом языке подойдёт.

Look

Литературный архиватор

arelive Apr 10 2018 at 06:15

А надо ли? Там нет программирования по сути.

Look

Литературный архиватор

arelive Apr 9 2018 at 22:44

Потому и оставил до лучших времён, когда будет время изучить префиксное кодирование. А насчёт
>Не таскать с собой персональный словарь
думаю об онлайн-архиваторе. Пусть огромные словари с общими словами хранятся на удалённом сервере. Что на этот счёт говорит статистика?

Look

Литературный архиватор

arelive Apr 9 2018 at 22:20

Алфавитом, смотри пример, цветом разметил.
— Красный — алфавит, единственный раздел, где буковки представлены в явном виде.
— Зелёный — закодированный алфавитом словарь. Здесь вместо индексов будет бит-код.
— Синий — раздел с данными заглавных, тут всё понятно вроде.
— Жёлтый — сам текст, закодированный словарём. Вместо индексов опять бит-код.

Look

Литературный архиватор

arelive Apr 9 2018 at 22:08

>от 2 до 10 крат уменьшение
это на вскидку или расчёты?

Look

Литературный архиватор

arelive Apr 9 2018 at 22:03

Сначала словоформы, затем оптимизация бит.

Look

Литературный архиватор

arelive Apr 9 2018 at 21:33

Это для словаря или для текста? В словаре сейчас вообще нет прописных букв.