1shaman Nov 3 2021 at 11:00

Создаём личный «Архив интернета»

7 min

25K

FirstVDS corporate blogHostingSearch engines*SoftwareData storaging

+39

Comments 44

NeoCode Nov 3 2021 at 11:59

Пока я просто сохраняю нужные мне странички средствами браузера в mhtml. Сайтов, целиком пригодных к скачиванию, не так уж и много (обычно это какие-то авторские работы типа книг или методичек на университетских сайтах). Но для таких есть телепорт про и другие подобные программы.

А идеальная система - просто некая кнопка типа "лайка", аналогичная добавлению в закладки, по нажатию на которую страница сохраняется в оффлайне, добавляется в какие-то оффлайновые базы для поиска, и - в идеале - ставится на раздачу в децентрализованной сети.

UFO just landed and posted this here

NeoCode Nov 3 2021 at 18:00

Спасибо, для Firefox пригодится, а то там нет встроенного сохранения в mhtml

AlexanderS Nov 4 2021 at 16:43

Сколько ни пробовал подобных решений — в результате отказывался от них, обнаруживая косяки. Лучше уж сохранить по старинке и запаковать в zip. Оно как-то надежнее получается и для беспроблемного открытия в будущем. Сейчас проверил — в SingleFile на сохранённых страницах спойлеры, например, не работают.

Mike-M Nov 4 2021 at 18:38

Снимите галочку в настройках SingleFile: Other resources => remove scripts.

AlexanderS Nov 4 2021 at 20:50

Ух ты! Это я просмотрел, спасибо! Я в «Содержимое HTML» это ожидал увидеть.

А вот ещё такой вопрос. Спойлеры перед сохранением нужно открыть, иначе их содержимое не попадает в локальную копию. Я это приноровился делать через скрипт Greasemonkey через кликание на элементах спойлера требуемых сайтов. На особо медленных компах после рендеринга странички можно даже заметить закрывающиеся спойлеры) А как-то более цивилизованно эту проблему решить можно?

Mike-M Nov 5 2021 at 00:07

Вот с этим, увы, не подскажу.
Знаю лишь, что для многих спойлеров достаточно отключить настройку remove scripts. При этом раскрывать спойлеры перед сохранением страницы не требуется: пример 1, пример 2.

UFO just landed and posted this here

Mike-M Nov 4 2021 at 17:58

До сего дня пользовался попеременно расширением Save Page WE и печатью на PDF принтер.
Теперь — только SingleFile. Спасибо за рекомендацию!

slavius Nov 3 2021 at 12:50

https://habr.com/ru/company/vdsina/blog/550180/

Персональный интернет-архив без боли

ArchiveBox — продвинутый архиватор сайтов с огромным количеством поддерживаемых форматов и интерфейсов.

Возможности

Список сайтов можно подать на вход кучей разных способов (TXT, RSS, XML, JSON, CSV, SQL, HTML, Markdown, и т.д.), но самое интересное это импорт из всех основных браузеров (закладки, история) и «закладочных» сервисов (Pocket, Pinboard, Instapaper, Reddit Saved, OneTab и другие).
Хранение данных в HTML, JSON, PDF, PNG, и WARC — без самописных, проприетарных или новомодных форматов. При этом доступны и необычные методы экспорта, вроде извлечения текста (как в режиме Reader в браузерах) или Git-репозитория для скачанного со страницы кода.
Взаимодействие через терминал, веб-интерфейс, Python API, REST API и десктопное приложение (последние два варианта пока в альфе) на всех основных ОС (на винде нужен Docker или WSL)
Архивирование по расписанию (в сочетании с использованием истории браузера получается цепочка автосохранения всех посещённых сайтов)
Опционально — отправка URL на archive.org (чтобы иметь бэкап не только локально, но и на проверенных серверах)
Проект полностью опенсорсный, все надстройки опциональны и доустанавливаются в виде модулей. При отключенном экспорте в Internet Archive вообще все данные остаются на локальной машине, а при использовании Headless Chromium вместо Chrome можно обеспечить себе полную приватность.
Запланировано: использование JS-скриптов во время архивирования, для вырезания рекламы/попапов/разворачивания веток комментариев прямо на лету.
Уже работает, но нестабильно: сохранение контента за логином/пейволлом по кукам.

Ну а для локального хранения небольшого количества нужных страниц FireFox + PrintEditWE + SavePageWE

-1

UFO just landed and posted this here

shovdmi Nov 3 2021 at 13:51

Я использую расширение для браузера Joplin Webclipper, который по сути часть Joplin app (https://joplinapp.org/) в которой веду базу знаний с заметками в формате markdown.

Что больше всего радует это работа и синхронизация баз между ПК и телефоном через Dropbox.

misharin Nov 4 2021 at 12:38

Тоже пользуюсь Joplin, однако для синхронизации использую Nextcloud － более приватно получается, когда на свой сервер сохраняешь.

dartraiden Nov 4 2021 at 20:41

более приватно получается

Я бы не сказал, что приватнее связки Dropbox+шифрование Joplin.

UFO just landed and posted this here

dartraiden Nov 4 2021 at 21:36

У меня 136 заметок. Из метаданных там видно только число файлов и дату их создания/изменения. Каким образом раскрытие этой информации ставит под угрозу мою приватность?

Эта информация ничего не даст атакующему. Какие-то заметки обновляются иногда, какие-то никогда, какие-то ежедневно. Можно даже предположить, что последняя это ToDo. Но что с того?

K0styan Nov 5 2021 at 11:14

У всех приличных заметочников есть клипперы: Evernote, OneNote, Notion. Есть и у Zotero, специализированного инструмента для хранения материалов.

Какие-то лучше работают, какие-то хуже, но в целом для персонального архива решений "из коробки" предостаточно.

shovdmi Nov 5 2021 at 18:17

всё так, но Joplin - opensource, бесплатные приложения для телефона, нет ограничений на объем или количество заметок. Облачная копия базы хранится не в облаке разработчика, и как следствие, бесплатные безлимитное хранилище в случае next cloud, либо объем вашего тарифного плана в случае dropbox.

За счет нет риска получить тыкву, если разработчик вдруг решит уменьшить количество бесплатных заметок, наложить санкции и т. д.

stargrave2 Nov 3 2021 at 16:22

В качестве WARC-прокси/просмотрщика может выступать http://www.tofuproxy.stargrave.org, сам который использую. Динамическое добавление, удаление, индексирование, поддержка сегментированных .warc.gz/.warc.zst.

Sergey-Aleksandrovich Nov 3 2021 at 17:48

Странно, что в браузеры не встраивают функцию "добавить в архив" (по аналогии с добавить в закладки) - жмакнул кнопку и вот тебе копия страницы в локальном хранилище

Zalechi Nov 4 2021 at 10:52

Кстати, чем архив отличается от сохранения страницы браузером по CTRL+S?

Содержание не скачивает, только ссылки и тамбы?

Sergey-Aleksandrovich Nov 4 2021 at 11:09

Скачивает, и это тоже вариант. Только вопросом управление хранилищем занимаетесь вы (в какую папку, с каким именем, как потом найти). А если на уровне браузера по аналогии с закладками реализовать, то сохраненное лежит в папках браузера, доступно по тегам/наименованию и (потенциально) может синхронизироваться на разных устройствах, где браузер авторизован вашим аккаунтом.

Zalechi Nov 4 2021 at 11:36

Угу...

Тут не понял:

А если на уровне браузера по аналогии с закладками реализовать,

А ctrl+s на уровне ядра или браузера реализовано?

Sergey-Aleksandrovich Nov 4 2021 at 11:40

Ctrl+S это просто сохранить копию страницы на диск, как сохранить документ в вроде или екселе. А я говорю про сервис/фичу от браузера. Т.е. не "я ж сам все могу", а "вот у нас удобный встроеный сервис"

Zalechi Nov 4 2021 at 11:45

Ктрл+С вызывает функцую браузера выполняющую сохранение страницы, однако я не понимаю о какой фиче Вы говорите?

Sergey-Aleksandrovich Nov 4 2021 at 12:03

я не хочу думать о месте и структуре хранения - пусть браузер (его разработчики) выберут где и как оно хранится;
если сохранить файл на диск, то поиск нужного надо делать по файловой системе, а браузер в адресной строке не покажет сохраненные страницы после перемещения файлов, переустановки браузера или ОС - пусть браузер хранит и индексирует сохраненное самостоятельно;
я хочу иметь доступ к сохраненным копиям страниц с разных устройств (домашний комп, рабочий ноут, смартфон) - пусть браузер синхронизирует сохраненные страницы между моими устройствами.

Вот такую фичу я хочу

Zalechi Nov 4 2021 at 12:07

Получается расширить функционал браузера при сохранении страниц

ComodoHacker Nov 8 2021 at 12:47

И все это, конечно же, бесплатно..

В Firefox это есть, называется Pocket.

Kirikekeks Nov 3 2021 at 20:44

elinx --dump "https://habr.com/ru/post" |gzip > o_web_archive.gz

zgrep 'шаман|buben|webarchive' /zabil/*. gz

Спасибо за статью. Просто есть еще вот такой способ, у которого тоже есть достоинства.

AlexanderS Nov 3 2021 at 23:07

Если у вас скачаны все голливудские фильмы за последние 50 лет в разрешении 4K, то не остаётся вариантов, кроме магнитной ленты. Современные картриджи формата LTO-9 объёмом 45 терабайт стоят не очень дорого.

Боюсь вы несколько ошибаетесь. 45 Тб — это с сжатием. А в реальности может получиться и все 18 Тб. Тоже немало, но цифра всё же уже не так впечатляет. Плюс LTO, тем более 9-ка, всё же технология уже достаточно тонкая и есть там некоторые проблемы с поиском привода, который бы нормально всё прочитал через много лет.

QuAzI Nov 5 2021 at 09:16

А что бы вы посоветовали не сильно дорогое для SOHO? Именно с заделом "чтобы потом было проще прочитать"

AlexanderS Nov 5 2021 at 12:30

У меня нет такого опыта, чтобы советовать. Просто ко мне пару раз обращались именно с такой проблемой. А насколько она проблемная статистически я даже и не знаю, может это не так и страшно и всего у 0,001% встречается. В энтерпрайзе всё же пленка-то используется. С другой стороны в энтерпрайзе без проблем и в запас приводы покупают, да и могут денег отвалить за архивные модули. А в личных целях это будет непланируемое разорение. Я в своё время сделал ставку на обычные диски + Blu-Ray. Для операционного материала используется зеркальный RAID, для архивного — всё остальное, особо важное ещё и закатывается на 100 Гб болванки. Но тут всё зависит от объёмов. Да и 5 лет назад цены на диски-то были более гуманные.

Dee3 Nov 3 2021 at 23:15

Добавил страничку в закладки.
У хабра же есть политика долговременного сохранения информации?

Sergey-Aleksandrovich Nov 4 2021 at 11:21

Eсть такое понятие как "контрагентский риск" - все эти политики не более, чем "обещание".

dartraiden Nov 4 2021 at 20:44

Хабр даёт автору возможность убрать пост в черновики в любое время.

MagisterAlexandr Nov 11 2022 at 07:06

Время от времени пропадают аккаунты вместе со всеми статьями.

Есть инструмент SaveHabr, где можно выполнять команды:

./save_post 433806
./save_post https://habr.com/ru/company/first/blog/584838/
./save_user Dee3

aik Nov 4 2021 at 10:39

Формат warc лично я не особо понимаю, чем он лучше простого архива?
Всё равно приходится распаковывать для удобного использования.

Browning Nov 4 2021 at 11:42

Не устаю призывать: дамы и господа, пожалуйста, сохраняйте важные страницы не только себе, но и в Архив интернета. Кто-то в будущем скажет вам спасибо.

sakontwist Nov 4 2021 at 15:39

Сайты прекрасно сохраняются в Joplin с помощью его же плагина для браузеров.

Mike-M Nov 4 2021 at 18:56

Чтобы уменьшить количество битых ссылок в статьях на Хабре, хорошо бы разрешать сохранение в них дополнительных материалов, тех же *.docx например.
Сейчас, насколько я знаю, Хабр сохраняет у себя только картинки из статей.
Что на это скажет уважаемый boomburum?

QuAzI Nov 5 2021 at 09:11

archivebox выглядит интересно. А то сильно неудобно в FF каждый раз переключаться в Reader mode и оттуда в PDF "печатать" удобочитаемый контент (без смузистилей, баннеров и прочего).

Сохранность контента, конечно, печалит. Даже для контента который остался опубликован на хабре часто можно увидеть что скрины потеряны безвозвратно.

И отдельные вопросики с форматами хранения, чтобы это потом ещё и прочесть можно было нормально на любом подручном, в т.ч. на телефоне или е-книжке. Тут, мне кажется, не хватает возможности выгонять контент в Markdown или epub. У Instapaper есть возможность группу статей экспортнуть в epub - вот что-то такое же хочется видеть для хабра в формате "еженедельный дайджест"

up: что-то попробовал archivebox натравить на эту статью и с лёту обломался(

rvs2016 Mar 24 2022 at 02:35

> ArchiveBox -... (официально поддерживаются ... и BSD)

А BSD оффициально поддерживается в каком смысле?

pkg search archivebox мне результатов не дал.

В портах я этот ArchiveBox тоже не нашёл.

Какие для BSD есть ещё официальные варианты поддержки?

Как его в FreeBSD установить? Брать исходники и компилировать самому?

MagisterAlexandr Nov 11 2022 at 07:02

По этой теме есть RatBrowser.com.

Inoriol Apr 3 2023 at 10:58

Попробовал после этой статьи ArchiveBox и не остался особо доволен. Сохранять страницы кучей разных методов это, наверное(?), хорошо, но во многих случаях хочется сохранение полной копии сайта, а не просто одной странички. И это он не умеет. Как и не умеет менять ссылки на локальные, в случае если глубину сохранения поставить в единичку (кстати в этом случае он в том числе и сохраняет внешние ссылки). Работает медленно и не слишком удобно.

Причём судя по всему разрабов активно просят этот функционал ещё c 2019 года (они говорят что это одна из самых частых просьб к ним), но они упорно игнорируют эту просьбу. А жаль, иметь удобный локальный веб-сервис для сохранения целых вебсайтов локально, подобно выводу HTTrack, было бы удобно.