Pull to refresh
3
0
Alexey Nekoi @arelive

Низкий уровень заряда

Send message
На самом деле, код сыроват, поэтому сразу не залил исходники. Если интересно, вот они.
Пробелы в HTML проглатывать нельзя, ведь есть тег <pre>.
Убрал носы. Теперь длина кодового слова не привязана к байтам, хотя всё ещё фиксирована.
Результаты:
  • Мастер&Маргарита: с 1.4МБ до 772.2КБ (в 1.85 раз)
  • Текст программы: с 11.7КБ до 7.0КБ (в 1.67 раз)
  • Преступление&наказание: с 2.2МБ до 1.2МБ (в 1.83 раз)
  • Рецепт жареного супа: с 1.4КБ до 940 байт (в 1.52 раз)
Всё таки закодировал. Пока что целым числом байт, то есть если, например, словарь состоит из 512 слов, на каждое слово в тексте будет отведено два байта, и у первого в начале присобачится нос из 7 нулей. Нерационально, но выигрыш уже есть. МиМ сократился с 1.4 МБ до 1.0 МБ. Сам текст программы (все исходники в одном файле) удалось сжать ещё лучше — с 11.7КБ до 7.7КБ. И это с огромными нулевыми носами. Пытался сжать VK_100M, но не дождался конца, комп слишком разогрелся. А жаль, там так много одинаковых имён и паролей типа qwerty.
Обновил гит github.com/2che/litback
Да я не лётчик, какие новые стандарты? Рынок IT вообще какая то оч рандомная вещь, кто взлетит — дело случая. До стандарта HTML каждая контора юзала свою разметку, тысячи их. Просто интересно, есть идеи, я и делаю.
Да, вот тоже думаю про бд с множеством одинаковых данных (имена, издательства, типы и т.п.)
А ещё коды на гитах: одинаковые операторы, названия функций… Серверам с миллионами проектов винчестеры то нужны не маленькие.
Если это можно назвать статьёй )
habrahabr.ru/post/349562
Единичные ошибки почти не влияют на размер. Скорее для поиска вставок на другом языке подойдёт.
А надо ли? Там нет программирования по сути.
Потому и оставил до лучших времён, когда будет время изучить префиксное кодирование. А насчёт
>Не таскать с собой персональный словарь
думаю об онлайн-архиваторе. Пусть огромные словари с общими словами хранятся на удалённом сервере. Что на этот счёт говорит статистика?
Алфавитом, смотри пример, цветом разметил.
— Красный — алфавит, единственный раздел, где буковки представлены в явном виде.
— Зелёный — закодированный алфавитом словарь. Здесь вместо индексов будет бит-код.
— Синий — раздел с данными заглавных, тут всё понятно вроде.
— Жёлтый — сам текст, закодированный словарём. Вместо индексов опять бит-код.
>от 2 до 10 крат уменьшение
это на вскидку или расчёты?
Сначала словоформы, затем оптимизация бит.
Это для словаря или для текста? В словаре сейчас вообще нет прописных букв.
>Наплодил лишние сущности разбиением
В вашем способе сильно увеличится блок заглавных. Нужно будет хранить данные о их размещении в словах.
Словарь тоже закодирован.
2

Information

Rating
Does not participate
Location
Бендеры, Молдова, Молдова
Registered
Activity