Pull to refresh

Comments 39

Это всё написано с точки зрения большой организации, которая «варится в собственном соку» и касается в основном внутреннего документооборота.
А вот с точки зрения простого обывателя я что-то «ожирения» не вижу. Есть, скажем так, «информационный шум», но не ожирение. Вот пример — eBay. Вроде большая организация, однако хранит мою историю покупок только за последние 60 дней. Я вот, скажем, хочу посмотреть, у кого я покупал набор цветной бумаги детям полгода назад — и не могу. В закладки бросить страничку забыл. Что, места не хватает? Ну так удалите картинки, а таблицу с историей покупок/продаж — оставьте. Или вот банк, в котором у меня счёт. Я могу посмотреть приход/расход в онлайне, но только за последние полгода. А если мне хочется посмотреть кое-какие платежи за прошлый год — фиг вам. Они типа не имеют права хранить у себя более долгую историю. Ещё пример — Paypal — туда же. Мне не жалко, если они будут хранить мою историю — мне это будет удобнее (до тех пор, пока это не влияет на мою безопасность). Делать «липоскацию» или нет — это вообще говоря должен пользователь решить, начиная от параноидального решения «не хранить данные вообще» и заканчивая «хранить данные пожизненно». Если компания предоставит конечному пользователю самому решать — жиреть или худеть, то количество лояльных пользователей только возрастёт, как мне кажется.
Согласен, в данном случае речь идет о хранении документов крупных организаций, где хранение лишней информации в системе порой действительно создает проблемы.
Делать «липоскацию» или нет — это вообще говоря должен пользователь решить, начиная от параноидального решения «не хранить данные вообще» и заканчивая «хранить данные пожизненно». Если компания предоставит конечному пользователю самому решать — жиреть или худеть, то количество лояльных пользователей только возрастёт, как мне кажется.


К сожалению далеко не всегда все пользователи адекватно оценивают свои потребности. Вы сделали одну покупку и забросили сервис, но хотите, чтобы данные о ней хранились вечно. Мне такая позиция кажется неверной. Решение — прописать сроки хранения в лицензионном соглашении и хранить данные определенный период с момента совершения сделки.
Как говорится «С миру по нитке». Так и набегают терабайты в хранилищах.
Тут можно находить разумные механизмы — резать историю например если нет покупок в течении полгода. Если человек делаеет одну покупку то может и закладку сделать или чек сохранить. А если трафик есть — так это же доход и тратиться на хранение есть за что.
Вот именно такой вариант (с разными отклонениями) и есть, на мой взгляд, оптимальным.
по хорошему если данные удаляются, то должен быть адекватный экспорт данных в какой-нибудь старндартный/общепринятый (в идеале — открытый) формат, чтоб пользователь мог хранить данные у себя. и предупреждать надо заранее, а не только в соглашении писать.
Как вариант можно автоматически делать копию истории и высылать ее в общепринятом формате на регистрационный адрес электронной почты перед удалением определенного периода истории.
Андрей, конечно речь идет об организациях и рассказывая об информационном «ожирении» студентам, показываю старую картинку от IDC о том как распухает мегабайтное письмо, посланное четверым коллегам.
<img src="image

С обывательскими данными все тоже не так гладко: перестало хватать HDD компа, покупаем внешний диск, забили его, дальше на очереди домашний RAID, ибо где хранить любимые фильмы? :)
Я думал почтовые системы занимаются дедупликацией например на основе контрольных сумм.
Не очень хорошо с ними знаком, это так?
Знаю EMCшные сторэджи, которые при записи файла проверяют его наличие дубликата, про почтовые сервера не слышал.
ну это иллюстрация касается только занимаемого места («симптомов ожирения» в терминологии автора), с ней бороться можно дедупликацией, сжатием и далее по списку. как верно отмечено, обычно борьба идет на уровне файлов, не на уровне структурирования данных. для реального решения проблемы в приведенном выше примере нужна четкая идентификация того, что сам документ, локальная копия имейла, бэкап и пр. содержат одну и ту же информацию, при этом имейл содержит дополнительные данные (комментарии по поводу документа), а бэкап дополнительные метаданные (дата архивирования).

с обывательскими данными несколько проще, потому что нет (или мало) дупликатов одного и того же докмента у разных людей, но остальное (документ-имайл-бэкап) остается. или еще пример: поддержка единого списка контактов. представте, что есть несколько учетных записей на разных сервисах (я пользуюсь gmail, hotmail, mail.ru — для разных целей), каждый содержит свою адресную книгу, контакты разных адресных книг частично пересекаются, название и количество полей для каждой записи не всегда совпадают у разных сервисов. плюс все это используется из-под windows, linux, mac os и iphone (еще недавно android присоединился), которые имеют свое представление о синхронизации и дедупликации, при этом не всегда могут обновлять данные на сервисах. в итоге получается большая каша из контактов, которую я так и не могу разгрести.
Нет, дальше полка для хранения внешних дисков. А лучше, тумбочка, чтобы диски на пол не падали. Следующим пунктом будет новая квартира для размещения тумбочек.
Еще можно вспомнить про base64-encoding для аттачментов, который увеличивает их размер вдвое
Только на треть — он три байта переводит в 4, судя по названию.
Зайтие в историю покупок и нажмите Archive — увидите что ни одна посылка за все года не пропала.
Данные о всех платёжных операциях должны храниться (банками) 10 лет, это урегулировано законодательно.
Из-за большого обилия неиспользуемой и ненужной информации движение информационных потоков внутри организации замедляется. Опираясь на устаревшую, утратившую актуальность информацию, можно принять неверное решение.


Автор оригинальной статьи по непонятным причинам связывает количество информации и ее актуальность. Почему он считает, что это одно и то же? Если информация корректно промаркирована, то можно одинакого успешно определить актуальность что двух документов, что двух миллионов. Если есть проблемы с актуальностью — то и при двух документах можно «опереться наустаревшую, устратившую актуальность информацию».

Если в организации слишком много несистематизированного контента, то его вряд ли можно будет классифицировать, разработать графики хранения и т. п. Проведение аудитов на соответствие нормам становится крайне затруднительной задачей, съедающей очень много времени.


Тут автор опять по непонятным причинам связывает количество информации и ее систематизацию. Если информация систематизируется при поступлении — то нет никакой разницы у нас один e-mail или миллион — мы точно знаем, на каких из них стоит тэг «приватная информация, хранить год» и что надо через год убить. Если информация не систематизирована — то и с десятком e-mail можно облажаться по всем нормативам.

Заявление о стоимости хранения без цифр выглядит необосновано. «Информация» — понятие растяжимое. Одно дело исходники пиксаровских мультиков хранить в RAW, другое дело — исходники документов в TeX. Как правило, «информация», если это не картинки и не звук, занимает не очень много места. А вот неправильный способ хранения, типа скриншоты отсканированных листочков в формате .bmp в высоком разрешении — могут сильно удивить системного администратора. Но это не проблемы количества — это проблемы формата хранения.
Чем больше разнообразной информации, тем сложнее отслеживать ее актуальность. И систематизировать ее гораздо сложнее.

В крупных организациях информация, как правило, занимает очень много места. Возьмем, например, строительные организации — там очень часто приходится иметь дело с чертежами, которые хранятся в виде довольно тяжелых графических файлов. Или возьмем учреждения здравоохранения, в которых хранятся истории болезни тысяч пациентов: отсканированные рентгеновские снимки, кардиограммы, томограммы и т.п. тоже занимают немало места. В библиотеках и музеях очень много документов хранятся в виде тяжелых pdf- и djvu-файлов. На обеспечение сохранности этой информации довольно много времени и средств уходит.

Количество, актуальность и формат тоже определенным образом связаны между собой: технологии и форматы ведь постоянно меняются. И важную, действительно значимую информацию необходимо переводить в актуальные форматы, чтобы она была доступной и в будущем. Чтобы облегчить эту работу, нужно грамотно отделять зерна от плевел и сохранять в первую очередь то, что действительно важно.
Помогу с информационным ожирением. Дорого. Не Гербалайф.
Два пальца в рот в комп после получения любой информации! Обертывания системника! БАДы!!!
Тогда уж ИАДы. Информационно Активные Добавки;)
Если верить тому, что количество информации увеличивается на 40% в год, то информация, которой больше двух лет, составляет примерно половину общего объема информации, а та, которой больше трех лет — немногим более трети. Так что если типичный «срок годности» составляет несколько лет, то уже нет особой разницы — удалять данные, которым три года, или не удалять — просто во втором случае новые диски придется закупать месяцев на 8-9 раньше, чем в первом. А так, разницы никто не заметит.
Еще раз отмечу, что в статье идет речь о хранении документов крупных организаций. Закупка новых дисков — это определенная нагрузка на бюджет. Обеспечение сохранности юридически и бизнес-значимой информации — это тоже отдельная статья расходов. Что дешевле обходится: фильтровать информацию и хранить то, что действительно нужно — или сохранять все подряд?
Думаю, что сохранять все подряд. Фильтрация информации требует человеческих ресурсов (в количестве, возрастающем по экспоненте), которые значительно дороже, чем лишние 30-40% дискового пространства.
>>>>. Фильтрация информации требует человеческих ресурсов (в количестве, возрастающем по экспоненте), которые значительно дороже, чем лишние 30-40% дискового пространства>>>>

Сказанное верно для домашней коллекции, но вряд ли верно для архивов крупных организаций. Зачем хранить информацию, которая утратила свою доказательственную ценность и лежит мертвым грузом? Не лучше ли использовать дисковое пространство под что-нибудь другое?

Если хранить дороже, чем удалять — тогда можно и удалить. Если хранить дешевле — то лучше не удалять. В конце концов, при экпоненциальном росте доля устаревшей информации не растет.
Кстати, спасибо, что напомнили. Давно хотел поискать игры для MSX-2 :)
Ничто не ново под Луной :) В чем-то ваши мысли сходны с традиционным архивным делом, когда документам присваиваются статьи и сроки хранения. Чем важнее информация, тем дольше она хранится, но какая бы она ни была, по истечении срока хранения, она уничтожается. Единственно, бумажные архивы нельзя сжимать для экономии места :)
Единственно, бумажные архивы нельзя сжимать для экономии места :)

Почему же нельзя сжимать? А мобильные (передвижные) архивные стеллажи на что?

image
ну это ж не сама бумага сжимается, а место между полками.
В серьёзных архивах раньше использовалось микрофильмирование. Как сейчас не знаю, но подозреваю что похожим образом. Вот это уже серьёзное сжатие. :)
да, это уже сурово :)
И сегодня микрофильмирование никуда не кануло. В Туле живет и развивается Научно-исследовательский институт репрографии. На него возложены функции головной организации по научно-техническому обеспечению создания, сохранения и использования единого российского страхового фонда документации (ЕРСФД) на объекты повышенного риска, на объекты национального достояния и объекты систем жизнеобеспечения населения, а также на документацию, являющуюся национальным научным, культурным и историческим наследием…

И с оборудованием там все нормально, никаких суровых раритетов
imageimageimageimage
Ух-ты-ж! Круто! А я уж думал что всё заглохло и по инерции либо совковыми образцами пользуются либо западными.
Сколько нужно времени, чтобы присвоить документу срок давности (при условии, что он не присваивется автоматически)? Если хотя бы человеко-секунда, то документы меньше 50 МБ удалять не нужно: дисковое пространство обойдется дешевле.
сроки давности присваиваются не каждому документу в отдельности, а типу документов. так что временные затраты на собственно присвоение срока хранения — небольшие.
Вроде «все doc-файлы удаляем 21 декабря 2012 года, а bmp — через месяц после создания»?
примерно да, только присвоение сроков хранения идет по темам. личные дела хранить столько-то, входящие письма — столько то, и т.д.
Sign up to leave a comment.