Как стать автором
Обновить

Комментарии 187

Не ясно как работает archive.org, он или каждый день заползает, или вообще ни разу за 6ти-летие существования сайта
Плохо он работает. Несколько раз пытался через него найти информацию и каждый раз натыкался, что дальше нескольких индексных страниц сайта — пустые ссылки. То есть сайт в архиве есть, списки статей есть, а вот самих статей нет…
Тем не менее без него вы бы и заголовков не увидели…
Какая-то ущербная логика. Ну давайте пилить сайты, которые виснут, глючат и тормозят. Не отдают 90% контента, но «тем не менее мы можем загрузить главную страницу». С тем же успехом где-то едят хлеб, вместо разнообразного питания мяса, рыбы, etc. Тем не менее мы можем есть. Просто чудо.
Нормальная логика. Как уже было сказано в статье: если бы Брюстер Кейн не открыл бы интернет-архив и не начал сохранять всё это – не спрашивая ни у кого разрешения – мы бы потеряли всё

Я понимаю если бы вы сделали альтернативу, которая не тормозит и глючит, а сохраняет все сайты со всем содержимым, так — это обыкновенная русская припадочная философия: либо всё, либо ничего. © Макаренко.
Я понял, возможно был излишне резок. Спасибо за ответ, я не ожидал.
Мировой налог на архив, отчисления зависят от объема веб-ресурса.
Да чёрт с ним, с отчислениями. Для начала сделать бы так, чтобы можно было вообще подобный архив легально делать.

Потому что archive.org существует исключительно за счёт того, что он успел стать слишком большим. Юридически ничего не стоит кому-нибудь его засудить — но поскольку это будет сопровождаться вонью такой, что внуки этих юристов будут вспомнить об том, как их дедов сделали «врагами всего человечества»… никто не решается.

Но второй такой же — создать будет уже проблематично: очень высока вероятность, что вас «собьют на взлёте».
В первые годы после своего создания веб-архив работал хорошо. Когда я о его существовании узнал и подивился на него, то был приятно удивлён тому, как аккуратно в него складывались страницы тогдашних сайтов — причём, не только их заглавные страницы, но и внутренние. Было интересно видеть историю изменения знакомых сайтов и приятно было вспоминать, что сайты были не всегда такими, какими они становились по мере своего роста и взросления. Глядя на разные версии сайтов, было интересно наблюдать как они развиваются. Это было в эпоху, когда страницы сайта ваяли (в основном) ручками в виде html-страниц, а не cgi-скриптами, которые тогда были ещё только уделом «каких-то навороченных программистов».

А потом этот веб-архив испортился. В него зачастую не только перестали поступать обновлённые версии сайтов, но даже исчезли уже ранее сохранённые копии! Это же уму нерастяжимо!

Хотя веб- этих наших, понимаете ли, -архивариусов понять немного можно. Интернет после ранне-романтичной и околонаучной фазы своего развития превратился в помойку спама, коммерции и прочей лабуды, после чего архивировать стало не просто менее интересно и полезно, но и (это даже важнее) технически более сложно из-за бесконечно разрастающихся объёмов информации.
Тоже заметил, что есть исчезновение ранее доступных сохранений.
Но и в нём сохраняются страницы по введённому адресу и это помогает при проблемах с доступом к содержимому страниц по их адресу. (т.е. сохранение нужных страниц, при их отсутствии, на усмотрение пользователя данного сервиса)

P.S. К тому же данный сервис распознаёт текст сохраняемых страниц с помощью Abby Finereader в автоматическом режиме и можно далее каким то трансляторам его дать для перевода.
Но также есть и archive.org для поиска разной информации
и можно сохранять «личные» архивы в публичном пространстве,
Кем курируется данный ресурс — это отдельный вопрос (не зря же делаются попытки сделать возможным автономный рунет)
А потом этот веб-архив испортился. В него зачастую не только перестали поступать обновлённые версии сайтов, но даже исчезли уже ранее сохранённые копии! Это же уму нерастяжимо!
Это из-за robots.txt, которые стали ретроактивно влиять на их политику архивирования. Т.е. был сайт, умер, доменное имя продали сквоттеру (гореть им в аду, кстати), он поставил туда свою заглушку с robots.txt, и всё. Архив прошлого сайта автоматом стирается.
Архив прошлого сайта автоматом стирается.
Насколько я знаю он становится недоступен, но не стирается. Именно поэтому когда сам владелец сайта просит восстановить данные — их восстанавливают.
когда сам владелец сайта просит восстановить данные — их восстанавливают.

По этому поводу есть какой-то FAQ?
Да, Интернет после ранне-романтичной и околонаучной фазы своего развития превратился в помойку спама, коммерции и прочей лабуды. Но несложно автоматизировать процесс отсеивания этой лабуды от того что (контент, креатив, события, связи, компромат и т.п.) что когда-нибудь можно будет использовать. И это делают. Куда это уходит? В Deep-web (Глубокий интернет). Есть ещё дарк-нет, но там, в основном, тусуются нехорошие дяди и ещё более нехорошие дяди и охотники за такими дядями и охотники за охотниками. Маловероятно, что это и туда идёт. И, когда-нибудь, кто-нибудь кое-что, якобы утраченное, из глубокого интернета достанет… Возможно там будет и на вас компромат-с! На меня — не будет. Я всегда был Патриотом.
С сайтами моего вуза — тоже самое. Полных снимков сайтов архиве.орг не сохраняет. Даже картинки часто на сохраненных там страницах отсутствуют.

Нужно создать архив на архив archivearchive.org

Сайта archivearchive.org, по-видимому, не существует.

Это была шутка :) Ну т.к. страницы на archive.org стали пропадать, то нужно создать сервис, которые бы хранил страницы с сервиса по сохранению страниц.

А ещё создать сервис, который выкинутые из архива страницы обратно в него наталкивает! :-)
Сайт моего вуза присутствовал в архиве.орг c 1996г. (можно сказать, почти с самого его появления — в октябре 1995г.) Но потом, когда праздновали 15-летие сетевого комплекса вуза в 2008г., обнаружили, что в архиве.орг пропали записи по нашему сайту до 2000г. Мы написали им, и через некот. время там появилась история нашего сайта с 1997г. Т.е. они удаленные сохраненки нашего сайта где-то нашли и восстановили! Но и с тех пор снимки сайта, как видно, постепенно прореживаются, хотя наш сайт постоянно динамично развивается.
Человечество постоянно находится в изменениях, постепенно но постоянно происходит смена того, что ценно. Позавчера ракушки и бусы, вчера фантики и желтый песок, сегодня пиксели, завтра воксели. Если у тебя вчера были ракушки — то это не значит, что ты богат, это значит, что ты держишь ценности, которые никому кроме тебя не нужны. И ты быстро от них избавляешься, либо от них избавятся твои потомки, выкидывая как ненужный мусор.
Это не только краткая суть биржевых игр, это как раз ответ на вопрос почему всего так мало. А потому что оно уже не нужно. Музеям хватит и десятитысячной доли оставшегося, ведь чего-чего а информации у нас было ну очень много. Полезна ли она вся сегодня? Видимо нет.

Можно было хранить, данных не так много. Не сравнить с хранением бессмысленных обрывков https протокола по закону Яровой

Справедливости ради, некоторые ценности, например золото и драгоценные камни, пока не обесценились за тысячелетия истории.
Появление индустрии создания драгоценных камней искуственным путем существенно снизило цены на настоящие камни, разве нет?
Насколько я знаю — нет, там есть свои юридические моменты. Природные драгоценные камни по прежнему очень дороги и ценятся.
Вот для примера можно посмотреть каталог бриллиантов — www.diamanters.ru
С драгоценными камнями всё вообще сложно. Это золото — оно золото и есть.

А цена драгоценных камней очень сильно зависит от массы разных факторов: чистоты, «качества цвета» и разного другого.

Главное: когда наступает «попа» — их очень сложно продать. Так как, способные оценить их качество — это ювелиры. А люди, способные их купить — не ювелиры, но пользуются их услугами. Соотвественно если в стране «попа», и покупателей не так много, то ювелирам и свои камни становится некуда девать, зачем им чьи-то ещё?
Четверть, а то и одна шестнадцатая поворота истории — и место золота и драгоценных камней в иерархии ценностей за минуты займут, как и ранее, соль, кремень глина и бронза.
Только если уж совсем кранты. А так, пока есть люди, делающие разные товары, и пока нет коммунизма (первобытного или финального по Марксу) — будет обмен, и нужно мерило обмена. Золото для это исключительно удобно, так что никуда оно не исчезнет
Ну давайте представим современную экономику, причем расчеты в ней будут происходить исключительно золотом. Сейчас в мире накоплено примерно 200 тыс. тонн золота. Мировой ВВП, нормированный по покупательной способности, составляет примерно 90 триллионов долларов. То есть на каждый грамм золота приходится 470$ произведенных в год товаров. Я не могу оценить скорость обращения денег в мировой экономике, глядя в потолок, представим, что все деньги в мире один раз в месяц оборачиваются. Хотя это чересчур оптимистическое предположение, реально, я думаю, деньги оборачиваются гораздо медленнее. Итого на грамм золота приходится примерно 40$ товаров. Я хочу посмотреть, как вы купите коробок спичек, когда золото будет мерилом обмена. С другой стороны, было бы интересно наблюдать процесс покупки крупной международной компании, какого-нибудь Амазона. ;)
PS И насчет «не исчезнет» я бы не обольщался, примерно 12% годового производства золота тратится в промышленности, в основном в микроэлектронике. Грубо говоря, на микропроцессоры мы потратили больше золота, чем было накоплено человечеством к началу промышленной революции.
Вы как-то внезапно перевели разговор с
место золота и драгоценных камней в иерархии ценностей за минуты займут, как и ранее, соль, кремень глина и бронза
на
представим современную экономику

Не надо так делать
Итого на грамм золота приходится примерно 40$ товаров.
Ну не так и страшно, на самом деле. Сейчас можно купить книжку с граммом золота на 60 страниц 91,5x91,5мм. При желании можно и поменьше листики сделать.

С другой стороны, было бы интересно наблюдать процесс покупки крупной международной компании, какого-нибудь Амазона. ;)
Ничего особенно зрелищного: бумаги подписываются сразу, золото подвозится через какое-то время кораблями и поездами. Как это делали 200-300 лет назад.

PS И насчет «не исчезнет» я бы не обольщался, примерно 12% годового производства золота тратится в промышленности, в основном в микроэлектронике. Грубо говоря, на микропроцессоры мы потратили больше золота, чем было накоплено человечеством к началу промышленной революции.
И оно таки возвращется оттуда. Поищите на eBay лоты «Pentium Pro for gold». Цена работающего экземпляра Pentium Pro сегодня отличается от цены неработающего примерно так процентов на 10.

Золото удобнее бриллантов как раз тем, что его достаточно несложно возвращать в оборот со свалок. И практически невозможно уничтожить. А с бриллиатами — всё ровно наоборот. Потому меня всегда удивляет, когда говорят в одной фразе «золото, бриллианты»… когда у них свойства чуть не на 100% отличаются…
это как раз ответ на вопрос почему всего так мало. А потому что оно уже не нужно.
Ага, не нужно, а потом на луну не знают как снова попасть habr.com/en/post/388699 и думают что пирамиды инопланетянами строились.
Вроде булат и дамасская сталь как раз и не нужны сейчас. Они были нужны в средние века, когда расплавить сталь в печах было невозможно, в итоге приходилось изворачиваться с хитрыми комбинациями сталей разного качества в оружии, чтобы получать и прочность, и затачиваемость. А сейчас обычный меч из рессоры будет по качеству не хуже тех легендарных булатов и тому подобного.

Могу ошибаться, пусть сведущие в металлургии поправят.
Могу ошибаться, пусть сведущие в металлургии поправят


У меня, конечно, очень старая инфа — но на 80-тые годы прошлого века аналога дамасской стали (такой, как она была описана в средневековых источниках) — еще не существовало.

(А «булатную» сталь использовали в 90х в стоматологии )
НЛО прилетело и опубликовало эту надпись здесь
В музеях и частных коллекциях хватает реальных изделий из дамасской стали, которые уже со всех сторон исследованы учеными.


Я постараюсь найти ту статью.
Википедия говорит что П.П. Аносов опубликовал свою работу «О булатах» еще в 1841 году. А к «средневековым источникам» нужно относиться критически — потому что зачастую они сильно преувеличивали боевую мощь сарацин чтобы скрыть собственные ошибки в тактике и отсутствие дисциплины.
А в качестве точки приложения усилий по реконструкции — я бы выбрал не булат а «путиловскую» сталь, из которой сделано спасательное судно «Коммуна». Оно уже 107 лет на плаву, все переделки сделанные за это время регулярно отгнивают — а корпус цел и невредим.
Википедия говорит что П.П. Аносов опубликовал свою работу «О булатах» еще в 1841 году.


Поскольку тема еще жива, даю ту ссылку на журнал, которую обещал

«Первая группа секретов относится к особенностям технологии получения слитка булатной стали с присущей ему неравновесной структурой, физической и химической неоднородностью. Эти секреты теперь расшифрованы, получен булатный слиток.
Вторая группа секретов относится к искусству ковки и получению булатных узоров. Многие приёмы ковки булата сегодня осмыслены и познаны, воспроизведены почти все известные булатные узоры. Но тут еще последнее слово не сказано, работы в этой области продолжаются.
Третья группа секретов касается чистоты исходных материалов, обеспечивавшей особый химический и физический состав углеродистой стали, вырабатываемый в древности. Эти секреты современная наука также постепенно раскрывает.
Четвертая группа секретов включает термическую и химико-термическую обработку стали. Многовековой опыт металлообрабатывающего ремесла позволил оружейникам найти оптимальные режим термомеханической обработки, цементации, закалки и отпуска стали, которые они держали в секрете. 3а время, прошедшее с тех пор, термическая обработка стали превратилась в стройную науку. Пользуясь современными теоретическими и экспериментальными методами анализа, можно раскрыть многие секреты, касающиеся термообработки древнего булата.
Наконец, пятая группа секретов касается отделки булатного оружия. Здесь следует решительно признать: воспроизведение методов шлифовки и полировки древних клинков — дело для нас чрезвычайно трудное. Поэтому пока ещё никому не удалось достичь легендарной упругости булатных клинков»

«В заключение скажу: мы подошли к такому рубежу, когда к работе по получению булата должны подключиться специалисты необходимого профиля — металлурги-плавильщики, кузнецы и прокатчики, термисты и металловеды, металлофизики, технологи и механики. С этой целью Институт проблем материаловедения Академии наук УССР заключил договор о социалистическом содружестве на разработку и внедрение промышленной технологии производства булатной стали.
Так что будут проведены не только лабораторные плавки, но и налажено её промышленное изготовление.
А параллельно будут идти дальнейшие исследования и изучение структуры и свойств искомого, как изящно назвал булат Е. Крючников»

Техника-Молодежи № 2 за 1986 г., с.46-51
НЛО прилетело и опубликовало эту надпись здесь
Ой, а расскажите как строились пирамиды!
НЛО прилетело и опубликовало эту надпись здесь
Всё относительно. Насколько неспешно?
Главное было — успеть до dead line. До Pharaoh’s death line.
успеть до dead line. До Pharaoh’s death line.


Как писал Геродот, фараоны, для которых предназначались три самых известных пирамиды — царствовали каждый по 40 лет.
Похоже, что эти ребята отчаянно оттягивали свой кон… death line
А вот Тутанхамон с его 9 годами правления — лузер, поэтому у него даже обычная гробница наспех сляпана:
сохранились следы переделки, которые свидетельствуют о том, что гробница строилась для другого высокопоставленного лица (возможно, женщины), но в ней спешно похоронили Тутанхамона.
> Всё относительно. Насколько неспешно?

Ну как неспешно? Долго ли цемент с песком да водой лопатами в корыте лопатами месить, чтобы потом вёдрами бетон таскать да заливать в опалубку для создания «многотонных блоков», которые якобы через Нил на лодках возили да потом ещё верёвками типа на пирамиды затаскивали! :-)
НЛО прилетело и опубликовало эту надпись здесь
> Вроде использование цемента для отливки
> блоков пирамид признали мифом

Ны там вроде остатки опалубки (ворсу или как оно там, волокна там всякие от древесины) надыбали. Или это уже объявили брехнёй?

Был такой сервис, где фото привязывались к картам. Забыл как назывался. Потом это выкупил гугл и показывал на Google Earth. А потом… Потом все это убил. Все эти фотографии пропали(

Panoramio

Точно! Спасибо

Сейчас есть его опенсорсная замена: mapillary. Правда больше ориентирован на точность привязки фоток, чем на оригинальность/худ.ценность.
Почему убил? Оно все влилось в Google street view, доступно и пополняется.

Какое street view? Там были, например, уникальные фото глухих мест карельского перешейка

НЛО прилетело и опубликовало эту надпись здесь

Фотографии с привязкой по координатам и сейчас доступны для тех мест, где нет дорожного покрытия. Photo Sphere в Street View называется. Но какая-то часть фотографий из Panoramino действительно потерялась.

Вряд ли пропали.
Какому нибудь АНБ перешли в архив. :)
Сам гугл с их помощью научил ИИ узнавать по фотографии место где снята произвольная фотография. Научную работу по моему выпустили и дальше тишина.

Panoramio. Часть фотографий перенесли в архив альбомов Google.

На гугл картах в правом нижнем углу есть иконка в виде двух стрелочек вверх. Фотографии там.
Плач Ярославны.
99.9… % интернет-контента никому не вперлось.
Вот кому из участвующих в обсуждении нужен будет его архив через месяц? А уж не участвующим — и подавно.
Мне вот было бы интересно сейчас перечитать свою переписку на форуме родного университета — только вот этот форум закрылся лет 10 назад без предупреждения.
Чаще всего такие попытки кончаются звонкими фейспалмами и желанием забыть о том, что когда-то я такое писал.
Осознание собственного личностного/профессионального роста крайне полезно. Вот вы что думаете, когда видите свой проект 5-10-15-летней давности, который тогда вам казался отличным? Если что-то вроде «вырвать бы эти ручки, да другим концом воткнуть» (как я обычно), значит, вы на верном пути. Заодно это даёт чёткое понимание того, что прямо сейчас вы с уверенным видом порете какую-то фигню, просто пока не знаете, в чём она заключается. Очень помогает от «звёздной болезни».
Я как-то несколько лет играл в пошаговую стратегию, в которой ходы игроков отсылались на сервер, и новые ходы рассылались раз в два-три дня. Времени хватало на дипломатию. Союзы, предательство. В одной партии до 16ти человек, часто со всего мира, партия могла длиться полгода-год. Лет через 10 мне попались эти письма, я помню ощущение после того, как перечитал несколько — «Неужели это _я_ писал? Вау, как я был крут!»
Да, я считаю, что нужно хранить архивы личных писем, сообщений. Они бессмысленны через год, забавны через десять и бесценны через 100. Надеюсь, что в течение ближаших лет 10-15 появится ресурс, куда можно будет передать для хранения личные архивы.
Да, я считаю, что нужно хранить архивы личных писем, сообщений.
Проблема не столько даже в хранении, сколько в поиске в огромных объемах накапливающегося текста. Найти в нем что-то конкретное нужное и ценное потом через годы мало реально, так как он тематически не структурирован, а ключевые фразы и точные временные периоды по которым искать нужный фрагмент подобрать крайне сложно.
Это будет та же археология, только вместо просеивания пластов земли — просеивание гор информации. А будет потребность — будут разработаны и способы просеивания.
При наличии информации её можно структурировать, просеивать, искать паттерны, бигдата, вот это вот всё. При отсутствии — пустота и забвение.
Вот сейчас — случилось какое-то громкое событие, оставлены тысячи самых разных комментов, по которым худо-бедно можно судить об отношении к событию, о настроениях в обществе и всё такое. Через 100 лет, когда нынешние соцсети, форумы, статьи с комментариями будут утеряны, как это узнать?
Разве что для спасения от деменции или лечения инсульта. При «исправных» мозге и памяти вся эта информация уже в нем переработана и усвоена для получения более ценного знания. Если вы его не чувствуете и по каким-то причинам не пользуетесь, это не значит, что его не существует.
Хранить слепки старого не умнее хранения всей посуды, на которой остались отпечатки ваших пальцев.
Я, например, часто выдёргиваю из старых бекапов вещи, которые я делал 5-7 лет назад и которые тогда были «отложены» и никуда не пошли.

Но да, наверное, это потому что я ущербный, а люди, стирающие всё через три дня, конечно, не порождают никогда ничего ценного… возможно.
Расшифрую.
Бессмысленны через год, забавны через десять — мне, и никому иному. Разумеется, при жизни я не хочу, чтобы в моей переписке кто-то копался.

Бесценны через 100 — для историков. Конечно, не потому, что я такой уникальный, а как отражение моего времени.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Многие подтверждающие статьи факты часто уже не найти «в свободном доступе»
Более того, могут предприниматься целенаправленные действия по уничтожению или изменению источников, подтверждающих информацию. По крайней мере, есть один прецедент (и таки закончилось удалением статьи).
А виртуальную реальность тоже сохранять?
Тут как посмотреть. Ценность контента часто очень разная.
Например, если взять блог-посты о настройке какого-нибудь софта, то часто эта информация довольно неактуальна.
Значит перед тем как сохранять, надо оценить «нужность» контента, а это может быть как объективно, так и субъективно.
Например, если взять блог-посты о настройке какого-нибудь софта, то часто эта информация довольно неактуальна.
Откуда такая уверенность? Вот решите вы писать поддержку какого-нибудь новейшего 5G строить — а она поверх 4G… а тот — развитие 3G, который расширение 2G… и вот вы уже ломаете мозг в попытке прочитать документ в формате MS Word for DOS… старые сайты и инструкции очень бы пригодились — но их нет…
Вот поэтому лучший формат для документации — text/plain.
У text/plain могут быть проблемы с кодировкой.
НЛО прилетело и опубликовало эту надпись здесь
У юникода тоже куча кодировок(контейнеров). В памяти например Windows Unicode держит в кодировке UTF-16. От этого могут возникать ошибки с участием суррогатных символов.

image
гифка отсюда
НЛО прилетело и опубликовало эту надпись здесь
Так в начале и конце и есть UTF-8. Только из за того что он автоматически конвертнулся в UTF-16 туда и обратно сурогатные символы слились в один.
Так тут просто ошибка перекодировки, причем перекодировки ненужной если бы все UTF-8 использовали, нет?
У text/plain могут быть проблемы с кодировкой.
Теоретически могут. На практике же существующие кодировки продолжают существовать; как двадцать лет назад были четыре кириллических кодировки (DOS, WIN, KOI, ISO), так они есть и сейчас. Форматов же за это время сменилось множество, причём порой бывают несовместимы существующие одновременно вариации одного формата (в мае 2003 года я столкнулся с неспособностью Microsoft Word'а открыть doc-файл, сохранённый WordPad'ом того же, с позволения сказать, разработчика).
Учитывая, что подавляющее большинство информации либо на английском, либо интересно только носителям языка, на котором она написана — подобрать кодировку можно без особых проблем.

Экзотические случаи «надо открыть файл 1990 года на китайском, не зная китайского» встречаются гораздо реже.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь

Мы не можем сохранять всё. Сэмплирование — это правильный выход.


А вот алгоритмы сэмплирования требуют большого внимания, потому что если не обеспечить рандомности, то будет фигня.

Если обеспечить «наивную» рандомность, то толку будет меньше, чем от «закона Яровой». Сохранятся одни котики… ну может ещё немного порнухи.

И это нормально. В нормальном сэмплировании показывается не "лучшее, что есть", а "как оно есть".

Вот только «нормальное сэмплирование» не позволяет вам узнать ньюансы, нужные для того, чтобы разобраться с артефактами давно минувшей эпохи.

Тут же вопрос не в том, чтобы «пропитаться духом» эпохи, а в том, чтобы не переизобретать по 100500му разу велосипед.

Вы не можете сохранять всю производимую информацию, потому что архив — это тоже производимая информация. Сэмплирование неизбежно, и лучшее, что мы можем сделать, это обеспечить его консистентность и гранулярность (на это как раз и жаловались — индекс есть, а статей нет — это плохая гранулярность архивирования).

Сохранится миллион сеошных сателлитов про натяжные потолки (и, конечно же, «как здать иге парускаму»), отличающихся между собой только порядком слов.
Во времена аськи у меня был архив всех переписок в .dat файле миранды. За 10 лет накопилось множество телефонов, контактов, компромата и просто воспоминаний. Это было очень удобно. Можно даже обучать чат-бота :)

С переходом на современные средства общения, контроль над переписками потерялся, и забрал с собой какую-то часть уверенности. Давно собираюсь исследовать более подробно, какие есть способы централизованного сохранения чатов из скайпа, вайбера, телеграмма, да не доходят руки.

Viber и whatsapp делают бэкапы на google drive, telegram позволяет сделать выгрузку всех чатов и прочего. С новым скайпом непонятно.

Кстати, а есть способ извлечь эти данные оттуда в сыром виде, не используя whatsapp?
Через веб-интерфейс я могу удалить этот файл, но не скачать его.
Хм, действительно, скачать эти бэкапы нельзя, неудобное ограничение. В самом приложении whatsapp не нашёл нормального бэкапа, только в драйв или во внутреннее хранилище, но там все базы сообщений зашифрованы. Есть ещё экспорт информации об аккаунте, но там нет сообщений.
Можно послать письмо самому себе, но это не база, скорее транскрипт.

Я вот подумывал сделать self-hosted сервис, который позволял бы импортировать в себя переписки из разных мест (но тоже не доходят руки)

Нужно пойти дальше, сделать единое решение для хранения важной информации: документы, личный фото и видео архив, переписки, различная метаинформация с датчиков (умный дом, умный браслет и прочее). Естественно с надёжным шифрованием и распределённым хранением (NAS, облако).
Мне кажется, решением стал бы клиент, запущенный в симуляторе андроида где-нибудь на сервере, а данные брать из его памяти через хуки в JVM.

Правда, проблема в том, что тот же whatsapp, например, обладает запланированным устареванием — в результате придётся или переписывать клиент, или делать автоматическое обнаружение точек перехвата (при условии, что они соответствуют)

Возможно, неплохим решением стало бы сохранение данных на google drive, но это только если нужно именно сохранение.
В плане архивации был был очень удобен QIP — он сохранял в отдельном подкаталоге все диалоги в отдельных файлах, где именем файла был ICQ-номер собеседника с расширением txt ) До сих пор лежит в архиве этот каталог… оказывается, в лучшие годы было 120 активных собеседников. )
Для Миранды тоже такой плагин был.
А еще можно было поменять драйвер БД, и тогда всё хранилось в sqlite.
В телеграме ручной экспорт чатов есть — может быть и как-то автоматизировать это можно.
Ну зато у нас появилась Википедия. Я помню интернет до Википедии и те же данные которые доступны сейчас на одной площадке, раньше были разбросаны по всей сети.
НЛО прилетело и опубликовало эту надпись здесь
Ладно там сайты виртуальное, но постоянно сталкиваюсь, что не найти документации на микросхемы если чуть более нескольких лет или/и «китай». Тоже и известных фирм, достаточно 1-2 раза продаться и всё :(
То что мы сейчас находим в древних свитках, не редко оказывается рассказами, как готовить похлебку в каменной печи и историями из жизни ярморочного старосты. Какую то ценность представляют эти знания в современном мире кроме как сказать «о как оно было»? Думаю нет. А вот чертежи Да Винчи и его изобретений имеют огромную ценность и никому в голову не придет никогда их уничтожить. Данные, если они представляют ценность, будут сохранены, остальное можно с чистой совестью удалять.
Данные, если они представляют ценность, будут сохранены, остальное можно с чистой совестью удалять.
Оно так не работает — иначе не шли бы судербные процессы по сто лет и не пытались бы судьи судить по составу похлёбки о мореходных качествах корабля, на которых похлёбка варилась.
> А вот чертежи Да Винчи и его изобретений имеют огромную ценность и никому в голову не придет никогда их уничтожить.

И какая именно у них ценность? Он придумал что-то, что мы не можем придумать с современным техническим уровнем? Ничего такого нет, всё или изобретено и реализовано, или было бы ну может на пару лет позже придумано, не имея прототипа.
Мы можем гордиться гениальным итальянским провидцем, но интерес тут чисто исторический и там, где история науки известна из десятков источников.

А вот каждое «как готовить похлебку в каменной печи» может представлять другой язык, которого ещё не знали, имена, про которые не слышали, легенды, и прочая и прочая. Да, ценность будут иметь 0.1% от всех находок, но, например, несколько раз одна-единственная двуязычная надпись помогала расшифровывать древние языки. Тоже история, да, но разнообразнее.
Ничего такого нет, всё или изобретено и реализовано

А изобретено не по тому ли, что братья Райт и им подобные смотрели на них, как на прототип, который можно усовершенствовать? Еще Ньютон говорил: «Я видел дальше других только потому, что стоял на плечах гигантов». Действительно полезная информация или сохраняется в чистом виде или в виде основанной этой информации дальнейшей деятельности. Если что-то утратилось, значит это никому не нужно было сохранять (пожары Александрийской и других библиотек не в счет).
А вот чертежи Да Винчи и его изобретений имеют огромную ценность и никому в голову не придет никогда их уничтожить.


Это только потому, что эти чертежи уцелели и стали известны.
(скольким другим да-винчи не повезло, когда их изобретения сгинули безвестно?)
Никто не утерял чертежи вилки или детской колыбели, потому что этим пользовались все. Так и сейчас мы уже не знаем всех конструкций ламп накаливания которые были, а пользуемся диодами и скоро эту информацию совсем забудем. Хорошо это или плохо? Я думаю, что нормально. Дамасская сталь, о которой все так горюют, не была прочнее углеродных нанотрубок. Это нормально, что мы для решения современных задач используем современые методы, а старые забываются. Конечно могли быть да-винчи сильно обгонявшие свое время, но не настолько, чтобы предложить нам, даже в фантазиях, способ межзвездных перелетов.
Конечно могли быть да-винчи сильно обгонявшие свое время, но не настолько, чтобы предложить нам, даже в фантазиях, способ межзвездных перелетов.


О межзвездных перелетах и речи нет.

Но велосипед Да Винчи таки изобрел )
Несохранение истории для людей вообще характерно.
Искали тут статью научную, наткнулись тоже на такую проблему. Причем статья за 2008 год, т.е. это не какой-то там советский период с которого могло уже тысячу раз все продолбаться, а сравнительно недавнее прошлое, уже во времена интернета.

Зашли на сайт издательства — на нем выложены выпуски журнала только с 2011 (вроде) года.
Позвонили в издательство — более старых архивов у них не сохранилось.
Зашли на сайт РНБ — там есть только пара номеров из нулевых годов, нужного нет.
В итоге единственную копию нашли в библиотеке им. Ленина в Москве. Пришлось срочно связываться с тамошним коллегой, он быстро сбегал себе оформил читательский билет и отснял статью.

И это, повторюсь, не какой-то древний манускрипт, а обычная статья 10-летней давности, причем из не самого мелкого (по российским меркам в этой области) журнала.

Была в ЖЖ в свое время увлекательная статья на эту же тему, про то как пытались вспомнить как работает какой-то завод, построенный полвека назад, найти документацию к нему и разораться: https://irrradem.livejournal.com/57904.html
Можно закачать всё в гипсовый кластер и он будет выдавать вашу переписку, сгенерённую ИИ. Не отличите от настоящей.
А можно создать алгоритм, который будет кодировать данные, как бы сжимая их, выбрасывая не существенное и программа, которая это все хозяйство будет декодировать, скажем в текстовый файл.
«Ответ — 42.»
(с) Автостопом…
Мне кажется, что авторы оригинальной статьи слегка преувеличивают проблему — ценная и интересная информация неизбежно дублируется в других источниках информации (да-да, те самые пресловутые «баяны»).
То, что действительно интересно и важно — сохранится.

Другое дело — целенаправленное искажение и уничтожение определенной части информации (вспоминаем Оруэлла с его «1984»)
Мы не всегда в моменте знаем что ценно, а что нет. То, что не кажется ценным сейчас возможно станет ценным в будущем.
То, что не кажется ценным сейчас возможно станет ценным в будущем.


Справедливо и обратное — то что ценно сейчас, может оказаться совершенно ненужным будущим поколениям.
И вероятность того, что подобная участь ждет практически всю информацию, доступную на данный момент через Интернет — достаточно велика.
Что не отменяет факта, что мы абсолютно не знаем, как долговременно хранить цифровую информацию. Вообще понятия не имеем.

В течение 3-5 лет сохранить можно что угодно в личном архиве за очень небольшие деньги. Ещё в течение десятка-другого лет — путём многократного дублирования в разных местах, уже дороже. А вот дальше уже гарантий никаких ни за какие деньги, особенно если единственное заинтересованное в сохранности информации лицо уже умерло и не может вносить ежемесячные платежи за хостинг.
как долговременно хранить цифровую информацию


В свое время я самостоятельно изобрел блокчейн-технологии )
Когда возникла необходимость хранить информацию, но при этом еще не было материальной базы для ее надежного хранения (в 1997 г.)- пришлось забэкапить ее на десятке компьютеров, находящихся в разных местах города и даже в других городах.
Благо ее уровень конфиденциальности позволял ограничится паролем на архивах.
Обновление выполнялось вручную, при помощи сменных носителей, и только тогда, когда я оказывался в том месте, где стоял очередной комп (т.е. в случайном порядке).
Как ни странно, эта система позволяла годами надежно сохранять информацию, несмотря на то, что, по разным причинам — время от времени происходила утрата не только носителей, но и компьютеров целиком.

(Сейчас используется примерно такая же схема, но уже с использованием различных облачных хранилищ)
эта система позволяла годами надежно сохранять информацию

Самый обычный альбомный лист и перьевая ручка дают, в худшем случае, сотни лет доступности информации, а при правильном хранении и тысяча не предел.
Виниловая пластинка, если её не воспроизводить и хранить при комнатной температуре, тоже практически вечна.
А вот с цифровыми технологиями пока что так сделать не получается.
Самый обычный альбомный лист и перьевая ручка дают, в худшем случае, сотни лет доступности информации,


К сожалению, рукописи горят, причем горят хорошо.
Сколько-то лет назад, но не очень давно — сгорели все подшивки газеты «Комсомольской правды», за все годы ее существования.

(насколько я помню — сгорели вместе с компьютерами, на которых хранились их сканы)

Единственный вариант что-то сохранить — это иметь множество копий в совершенно различных местах.

Апд., это 2006:
«У нас сгорела фотослужба, библиотека — там были подшивки газет, а также ценные документы — например, протоколы троцкистских процессов,— оценил нанесенный пожаром ущерб по горячим следам господин Дятлов.— Электронный архив газеты за 12 лет тоже сгорел.


www.kommersant.ru/doc/649436

Виниловые перфокарты? :)

Носитель-то информации, допустим, вечен. А вот технология извлечения информации — это тоже информация, т.е. может быть менее вечной. Если через тысячу лет откопают пластинку и откуда-то узнают — как собрать и запустить грамофон, то информацию с пластинки извлекут. Иначе… — в музей археологии эту пластинку отправят до лучших времён…
Если через тысячу лет откопают пластинку и откуда-то узнают — как собрать и запустить грамофон, то информацию с пластинки извлекут.


"… и покрыта золотом для предохранения от эрозии под действием космической пыли. Вместе с пластинкой в футляр упакованы фонографическая капсула и игла для воспроизведения записи. На футляре выгравирована схема, изображающая установку иглы на поверхности записи, скорость проигрывания и способ преобразования видеосигналов в изображение."
Ценность информации не измеряется в абсолютных величинах, она относительна. Для разных людей разная информация имеет разную ценность. Причем, иногда ценность становится понятна только тогда, когда ресурс с информацией перестал быть доступен.

Даже для одного человека ценность меняется со временем, причём часто немонотонно.

Причем, иногда ценность становится понятна только тогда, когда ресурс с информацией перестал быть доступен


Есть ли у вас какие -то конкретные примеры?
Мне определенно везло — после определенных усилий, но всегда — мне удавалось найти альтернативные источники с той же информацией.
Если информация текстовая, то есть большая вероятность, что она будет продублирована, но если информация — большой файл, то, как правило, хрен её найдешь.

Например, кастомные прошивки для старых телефонов. Как правило, их выкладывают на файлобменник с ограниченным сроком хранения файлов. Проходит несколько лет — файл перестает быть доступен. Проходит ещё несколько лет — всё вообще забывают об этом устройстве, и уже ни у кого не остается прошивки. Мало кому есть дело до этих прошивок, кроме самих владельцев устройств.

Или, например, с 2004 по ~2016 год работал сайт download-crack-serial.com, куда я загружал свои кряки для программ. Насколько могу судить, их больше нигде нет, они пропали. До них вообще никому нет дела, кроме меня.
Например, кастомные прошивки для старых телефонов.


У нас были в продаже CD-ROMы из серии «Все для мобильных телефонов».
Чего там только не было.
Скачивалось добрыми людьми с тех самых файлообменников, классифицировалось, упорядочивалось, записывалось и продавалось на базаре.
С учетом того, что есть люди, которые принципиально ничего не выбрасывают — вся эта инфа где-то по прежнему существует.

Наверняка такая же история происходила и с download-crack-serial.com )
С учетом того, что есть люди, которые принципиально ничего не выбрасывают — вся эта инфа где-то по прежнему существует.
Пока ещё существует. И то не факт. Пройдёт ещё лет 10-20-30 лет — и она исчезнет.

P.S. Будет как со всякими древними поэтами, о которых мы знаем только из пересказов пересказов пересказов их потомков… А жаль…
И то не факт. Пройдёт ещё лет 10-20-30 лет — и она исчезнет.


У меня есть знакомая, которая хранит фото, сделанные еще ее прадедом.
Информацию в компьютерной форме сохранять гораздо легче, время от времени переписывая ее на более современные носители.

Не исключено, что через 30 лет технология «вечного» хранения данных станет широко доступной (что-то такое есть и сейчас)
НЛО прилетело и опубликовало эту надпись здесь
Информацию в компьютерной форме сохранять гораздо легче, время от времени переписывая ее на более современные носители.
Потерять её, к сожалению, тоже гораздо легче.

Не исключено, что через 30 лет технология «вечного» хранения данных станет широко доступной (что-то такое есть и сейчас)
Пока что тенденция обратная: текст своего диплом я, недавно, случайно откпопал у себя в шкафу. И где-то в какой-то библиотеке он, наверняка, есть. А вот текста программы — нет ни у меня (умерла вместе с винтом), ни у Университета (она туда просто не сдавалась).

И так со всем: сохранность вещей на физических носителях — гораздо лучше. Одну из моих самых древних программ удалось извлечь с флопа, на котором я её давал знакомому, но ни на одном жёстком диске, ни «в облаке» — она не выжила.

Если речь о том, чтобы хранить информацию без надлежащего обслуживания (замена дисков в RAID, периодическая перезапись и т.п.), то, наверно, надо юзать что-то вроде этого https://habr.com/ru/post/390695/

Это же вопрос желания — цифровые данные можно легко копировать без потерь. Т.е. если никому не нужно, то аналоговые носители действительно легче сохранить, зато если нужно, то цифровые данные переживут пожары, наводнения, переезды и всё это без малейших потерь.
Пока что тенденция обратная


Лет через… цать появятся потомки Шурика, собирающие по городам и селам уцелевшую (и интересную) компьютерную информацию.
У старушек и стариков 80 лет )

image
Дык уже. Вот тут чувак пишет, как он искал Norton Utilities 2.01. Несколько лет потребовалось. И это, блин, не редкая научная диссертация, а программа, которая сделала Питера знаменитым, про которую писали журналы и которая продавалась тысячами экземпляров!

И было-то это всего 36 лет назад.
Вот тут чувак пишет, как он искал Norton Utilities 2.01.


Если что — у меня где-то завалялся диск с 7 версией )
… всего 26 лет назад.
Версии начиная с 3й были найдены и каталоизированы. Версия 2.01 есть в частных коллекциях. Версия 1, похоже, пропала с концами.
Напоминает работу с антиквариатом. Люди бережно хранят монеты и всякие прочие изделия прошлых десятков, а то и сотен лет…
У меня есть примеры и их множество: массовое закрытие сайтов в Иране несколько лет назад (есть высокая верятность ощутить это в ближайшем будущем в России) где мы общались об истории, выкладывали уникальные музыкальные записи, вели беседы которые время от времени хочется перечитать — это был не просто трёп. Большая часть информации была сохранена, чму поспособствовала моя паранойя и мои собеседники достаточно часто обращаются к моим архивам. Но масса информации бесследно была утеряна после конфискации серверов.
Закрытие what.cd, вафли и подобных — потеря уникальных музыкальных архивов, которые невозможно купить теперь, мы выкладываали записи найденные в путешествиях на кассетах, cd и иногда просто записываали на микрофоны уникальные вещи. Закрытие треккеров или отдельных раздач нанесло огромный вред, к примеру потеряна огромная галлерея картин третьяковской галлереи, был сделат уникальный труд одним из работников и качество было сумасшедшим — нынче на рутрекере жалкое подобие неполное; потеряна огромная библиотека педантично отсканрованных книг в разных странах мира по архитектуре и искусству моими коллегами и друзьями по клубу, что были размещены на demonoid. Опять же, мой сервер всё помнит.
Конечно они не востребованы такой гигантской аудиторией как поп музыка, НО!
Я давно наблюдаю за потерей данных и моя паранойя держит более 100 Tb архивов на личном серваке, пока я путешествую, пополняю коллекцию и видел я в гробу эти облака.
Закрытие треккеров или отдельных раздач нанесло огромный вред


Закрыли способ передачи, сами файлы остались у тех, кто их раздавал и скачивал.

Опять же, мой сервер всё помнит
Я давно наблюдаю за потерей данных и моя паранойя держит более 100 Tb архивов на личном серваке, пока я путешествую, пополняю коллекцию
Сервер с архивами существует в одном экземпляре?
Каталог-перечень Вашего архива можно где-то увидеть? :)
В этом и заключается основная проблема. Каталога нет и все находится в больших тематических раздлах, в основном не отсортировано, заниматься этим я не имею ни времени ни желания. Кроме того, я сейчас живу в путешествии и это как минимум неудобно.

Ценность это цена получения следующего экземпляра чего либо. Как и любая цена, эта величина определяется спросом и предложением на определенный момент времени. Ценность это предел изменений цены.

Ценность — не цена получения, а полезность, источник спроса. Пока цена ниже полезности, эту цену готовы люди платить.

Вы вместо равновесной цены указали указали индивидуальную цену предложения. Так же вы рассматриваете ценность относительно одного человека, а у разных людей разное представление о ценности (вспомните о коллекционерах). Как только преодолеваем рамки индивидуальности всё начинает измеряется по другому, в потоках.

Ценность — исключительно субъективная штука. Собственно вся торговля базируется на том, что для разных субъектов ценность одной вещи, товара, услуги — разная. Совершая сделку каждая сторона рассчитывает получить больше ценности чем отдаёт.

Дублируется, да, но не всегда и не всегда в публичных.
Скажем, был какой-нибудь чудак (именно через ч), ездил по полям и весям и собирал какие-нибудь факты. Там, песнопения записывал деревенские. Или резьбу по дереву фотографировал. Или еще чего делал. Нравилось ему. Далее выкладывал на свой сайт на народе и дополнял данные факты ОРИСС (оригинальным исследованием).
И вот проходит много лет, ты пытаешься найти однажды услышанную проездом песню, поисковик выводит ссылку на сайт, название песни, и сайт — мёртв.
Не так давно пытался отыскать ГОСТ о предоставлении даты и времени в 60х годах… что-то не нашел, хотя казалось бы…
что-то не нашел, хотя казалось бы…


А таковой вообще был?
у меня два вопроса.

Почему появились переводные статьи и второй: почему Интернет пишется в статье маленькими буквами?
Да, уже пора воспитывать первых интернет-археологов. Равно как и организовывать музей компакт дисков. Наверное не так уж сложно попросить мусороперерабатывающие компании отдавать выброшенные диски в специальный репозиторий.
Журнал «Новый Крокодил» имел прекрасный сайт с подборкой всех полных номеров. Когда журнала не стало через полгода и сайт закрылся. Очень жаль!
imouseR
На одном из торрент‐сайтов есть сканированная подшивка почти за всю историю журнала «Крокодил».
Если не найдёте, то у меня где‐то осталась.
В силу молодости интернета мы возможно это ещё не осознаём, но время жизни информации в интернете ограничено временем жизни одного человека, одной компании или одного проекта. Это может быть и лет 100, однако данные существуют только пока их поддерживают.

Я уже лет 20 держу один сайт, который мне уже давно не интересен, но сообщество которого поддерживает его жизнь без моего участия. Когда-нибудь мне надоест хостить его в минус и он исчезнет. Или меня собьёт автобус. И эта информация будет потеряна.

Один из самых важных романов 20 века, «Замок» Кафки, был издан после его смерти вопреки его воли. Если бы Кафка писал бы его сейчас — вряд ли у Макса Брода был бы доступ к тексту: сейчас повсеместно вводится шифрование на устройствах, без знания пароля доступ к информации не получить. Аналогично — сохранившаяся переписка писателей.

Стороннее копирование не решает проблемы, во-первых, мы не всегда с самого начала осознаём что будет ценным для будущих поколений, а что нет. С ростом количества данных, персонализации сайтов и т.д. парсить данные становится всё тяжелее.

Возможно в будущем, блокчейн и прочие вещи смогут сделать информацию чуть более долговечной, но пока вот так.
Я уже лет 20 держу один сайт, который мне уже давно не интересен, но сообщество которого поддерживает его жизнь без моего участия. Когда-нибудь мне надоест хостить его в минус и он исчезнет. Или меня собьёт автобус. И эта информация будет потеряна.
Не так давно умер bal, который вёл свои блоги в распределенной системе ZeroNet. Вот что он писал:
When I die, my ZeroNet blog will be the only digital trace of mine, that doesn't depend on any 3rd party services, companies or persons, and will have been surviving for many years. If my work is worthy of something, people will keep, read and use my zites.
Не знаю, но доступ к его доменам и, видимо, хостингу у кого-то остался. Сертификат его гейта ZeroNet периодически обновляют вручную.
Да, я упоминал блокчейн и подобные технологии в плане повышения долговечности информации. Но ZeroNet — это капля в море.
Возможно в будущем, блокчейн и прочие вещи смогут сделать информацию чуть более долговечной, но пока вот так.

Если спроектировать систему настолько дорогой, что боты, сеошники и мошенники не смогут её загадить, то она перестанет быть доступной обычным людям. Яркий пример — научные журналы.

В противном же случае настоящая информация растворится как капля в море спама.

Проблема ведь ещё и в том, что много информации уже сохранено (в чьих-то архивах, на задворках сайтов с нулём внешних ссылок, и т.п.), но мы это не сможем найти.
В противном же случае настоящая информация растворится как капля в море спама.

В этом огромном мире информация ползователя спает лишь поиск. Так что вся надежда на поисковые движки и их алгоритмы.

НЛО прилетело и опубликовало эту надпись здесь
Одна проблема — поисковики коммерческие предприятия, и их цели расходятся с целями пользователей. А содержать каждому свой поисковик слишком сложно.
Каждому одному — да. Однако представим поисковик, который предлагал бы по-настоящему качественный поиск без слежки и рекламы; подписка стоила бы один доллар в год. Неужели не нашлось бы несколько тысяч подписчиков? И неужели такой поисковик не смог бы существовать на несколько тысяч долларов в год?
НЛО прилетело и опубликовало эту надпись здесь
> А содержать каждому свой поисковик слишком сложно

О! А это идея! Мы же знаем, что с развитием технологий и увеличения доступности предметов, вещей многое из того, раньше было труднодоступным, становится общедоступным.

Вот раньше с мобилами (да ещё и с длинными антеннами) только новые русские бегали. Сейчас же мобилы есть даже у детей, а собакам вообще чипы уже в уши вживляют. Сайты раньше были только у университетов да провайдеров. Теперь любой может обзавестись сайтом. А в последние годы — и чуть ли не личной социальной сетью, хоть это и смешно звучит. Хотя хоть это и немного странно, но соц. сети по разным темам создавались — для медиков, для верующих и т.п.

Соответственно, может быть в совсем недалёком будущем каждый сможет обзавестись личным поисковиком по всему интернету типа гугла или яндекса. Да что там личный поисковик? Это я представить ещё могу. А вот личный веб-архив всего интернета — каждому! — это пока «уму нерастяжимо», но почему бы и нет? (только пока не очень понятнятно — как!)
Мы же знаем, что с развитием технологий и увеличения доступности предметов, вещей многое из того, раньше было труднодоступным, становится общедоступным.
К содалению в данном случае это невозможно. Более того: если в 80е-90е свой поисковик мог сделать один человек или там, пара студентов, то сегодня… это невозможно. Просто потому, что поисковик, по необходимости, должен хранить и обрабатывать не определённое, фактически фиксированное количество иформации (как телефон или видеокамера), а некоторый процент от всей информации, хранящейся на всех компьюерах в интернете. Закон Мура, пресловутый, тут никак не поможет — потому что скорость порождения информации растёт, фактически, с той же скоростью, что скорость роста ёмкостей, где поисковик хранит эту информацию…
А если поисковик будет состоять из всех компьютеров в интернете?
А ещё идея всех компьютеров мира наромнила мне о том, все компьютеры мира могут быть не просто искателями информации, но ещё и её источниками!

Обычные-то поисковые системы ищут информацию только на сайтах. Да ещё усугубляется эта проблема тем, что хорошие сайты с «нулевым» количеством ссылок на себя как бы вообще не существуют для поисковых систем.

А что, если представить себе новую информационную систему интернета, в которой информацию можно находить ещё и на компьютерах (да и других устройствах) обычных людей?

Выглядеть это может примерно так:

Сфотографировал любимую кошку Люську.
Мобила говорит — хочешь ли этой кошкой поделиться (присядьте!) с Интернетом?
Если да, то мобила делает эту кошку Люську доступной для поиска из этого самого «Интернета».

На обычных компьютерах можно так:
Нафотографировал этнограф узоры на одежде на Русском Севере, да ещё и прокомментировал их. Затем всё это богатство выкладывает на своём компе в спец-каталог «для Интернета» и дальше понятно — это можно находить из «Интернета».

Для защиты от копирастов придётся наверно и в этой новой системе поиска делать анонимность… — на случай попадания в общий доступ контента, который они любят объявлять пиратским.
Собственно вы же сами объяснили в чём проблема: кошка у Гугла, почти наверняка, есть. А прав её показать, почти наверняка, нет.

Без решения этой юридической проблемы технические средства обречены. Ровно потому что если в этом хранилище будет мизерный процент информации — то это никого не будет волновать, а если существенный — то найдут и обезвредит.
Де-факто он пока что как-то низковато летает. Идея богатая, но реализация пока увы.
То это не будет поисковиком. Создание графа и вычисление ранга — это тяжёлые вычислительные задачи. Вот реально тяжёлые. Вы вынуждены на это тратить несколько процентов ресурсов всей сети (да, вычислительная мощность Google сегодня — это что-то типа 5% мощности всех серверов Интернета).

Всё поделки, типа описанных вами — располагают ресурсами на порядки меньшими. И потому индексируют не интернет, а какое-то небольшое случайное подмножество.

Возможно в Китае, где можно всех заставить у себя на машине держать клиент подобной программы — что-то и получится… Но в этом случае для правительства дешевле и проще самому построить дата-центр.

Для исходного кода и текста юзаю локальный Git с сихнронизацией на GitHub и GitLab. Схема очень надежная: если что-то сломается, всегда будет копию в двух других местах. А на самих сервисах к тому же можно еще и форки делать.

НЛО прилетело и опубликовало эту надпись здесь
Если отбросить юридические вопросы, остается техническая проблема лавинного накопления объёмов.

В принципе, нужно чтобы плотность хранения росла темпами, опережающими рост генерации контента (причем с учетом не только сохранения текущего среза, но и пересохранения уже накопленного ранее объёма). Плюс всякие индексы и прочая метаинформация. Но для этого нужны регулярные научно-технические прорывы.

Этот фундаментальный вопрос неплохо обыгран в одном комиксе
image

image

image



Вот поэтому, я предпочитаю сохранять свои веб-страницы в *.MHTML.
Сохраняется как и информация, так и сайт, и то, каким он был на тот момент.
А расширение для FF не подскажете? Я так и не нашел замены для MHT Save, которое не пережило перехода на Quantum. Пользуюсь Save Page WE, оно как-то по-другому внедряет блобы в файл html. И оно испытывает проблемы с версткой на хабре.
Тогда уж лучше в PDF/A. Во всяком случае, решим проблему совместимости.
Было бы неплохо. А то у mhtml эти самые проблемы совместимости встречаются даже между разными браузерами на одной ОС.
Так произошло с Югославией. Доменом верхнего уровня был .yu, и после развала страны он исчез (ссылка на бомбежки 1999 года отсутствующая в первоисточнике)

Развал Югославии случился в 1991-92 году. Причем регистратор .yu оказался в Словении и лишь в 1994 контроль над TLD вернули в Сербию (номинально — в федеральную республику Югославия). В 2003 году «ФР Югославия» по собственной инициативе переименовала себя в «Сербия и Черногория». Соответственно TLD из .yu был превращен в .cs. В 2006 сие государство развалилось на «Сербию» и «Черногорию», каждая из которых получила свой TLD. Домен .yu закрыли в 2010. Бомбежки 1999 года ко всему этому не имеют вообще никакого отношения. Ни к развалу, ни к переименованию, ни к закрытию TLD.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории