Comments 44
Пока я просто сохраняю нужные мне странички средствами браузера в mhtml. Сайтов, целиком пригодных к скачиванию, не так уж и много (обычно это какие-то авторские работы типа книг или методичек на университетских сайтах). Но для таких есть телепорт про и другие подобные программы.
А идеальная система - просто некая кнопка типа "лайка", аналогичная добавлению в закладки, по нажатию на которую страница сохраняется в оффлайне, добавляется в какие-то оффлайновые базы для поиска, и - в идеале - ставится на раздачу в децентрализованной сети.
А вот ещё такой вопрос. Спойлеры перед сохранением нужно открыть, иначе их содержимое не попадает в локальную копию. Я это приноровился делать через скрипт Greasemonkey через кликание на элементах спойлера требуемых сайтов. На особо медленных компах после рендеринга странички можно даже заметить закрывающиеся спойлеры) А как-то более цивилизованно эту проблему решить можно?
Теперь — только SingleFile. Спасибо за рекомендацию!
https://habr.com/ru/company/vdsina/blog/550180/
Персональный интернет-архив без боли
ArchiveBox — продвинутый архиватор сайтов с огромным количеством поддерживаемых форматов и интерфейсов.
Возможности
Список сайтов можно подать на вход кучей разных способов (TXT, RSS, XML, JSON, CSV, SQL, HTML, Markdown, и т.д.), но самое интересное это импорт из всех основных браузеров (закладки, история) и «закладочных» сервисов (Pocket, Pinboard, Instapaper, Reddit Saved, OneTab и другие).
Хранение данных в HTML, JSON, PDF, PNG, и WARC — без самописных, проприетарных или новомодных форматов. При этом доступны и необычные методы экспорта, вроде извлечения текста (как в режиме Reader в браузерах) или Git-репозитория для скачанного со страницы кода.
Взаимодействие через терминал, веб-интерфейс, Python API, REST API и десктопное приложение (последние два варианта пока в альфе) на всех основных ОС (на винде нужен Docker или WSL)
Архивирование по расписанию (в сочетании с использованием истории браузера получается цепочка автосохранения всех посещённых сайтов)
Опционально — отправка URL на archive.org (чтобы иметь бэкап не только локально, но и на проверенных серверах)
Проект полностью опенсорсный, все надстройки опциональны и доустанавливаются в виде модулей. При отключенном экспорте в Internet Archive вообще все данные остаются на локальной машине, а при использовании Headless Chromium вместо Chrome можно обеспечить себе полную приватность.
Запланировано: использование JS-скриптов во время архивирования, для вырезания рекламы/попапов/разворачивания веток комментариев прямо на лету.
Уже работает, но нестабильно: сохранение контента за логином/пейволлом по кукам.
Ну а для локального хранения небольшого количества нужных страниц FireFox + PrintEditWE + SavePageWE
Я использую расширение для браузера Joplin Webclipper, который по сути часть Joplin app (https://joplinapp.org/) в которой веду базу знаний с заметками в формате markdown.
Что больше всего радует это работа и синхронизация баз между ПК и телефоном через Dropbox.
Тоже пользуюсь Joplin, однако для синхронизации использую Nextcloud - более приватно получается, когда на свой сервер сохраняешь.
более приватно получаетсяЯ бы не сказал, что приватнее связки Dropbox+шифрование Joplin.
Эта информация ничего не даст атакующему. Какие-то заметки обновляются иногда, какие-то никогда, какие-то ежедневно. Можно даже предположить, что последняя это ToDo. Но что с того?
У всех приличных заметочников есть клипперы: Evernote, OneNote, Notion. Есть и у Zotero, специализированного инструмента для хранения материалов.
Какие-то лучше работают, какие-то хуже, но в целом для персонального архива решений "из коробки" предостаточно.
всё так, но Joplin - opensource, бесплатные приложения для телефона, нет ограничений на объем или количество заметок. Облачная копия базы хранится не в облаке разработчика, и как следствие, бесплатные безлимитное хранилище в случае next cloud, либо объем вашего тарифного плана в случае dropbox.
За счет нет риска получить тыкву, если разработчик вдруг решит уменьшить количество бесплатных заметок, наложить санкции и т. д.
В качестве WARC-прокси/просмотрщика может выступать http://www.tofuproxy.stargrave.org, сам который использую. Динамическое добавление, удаление, индексирование, поддержка сегментированных .warc.gz/.warc.zst.
Странно, что в браузеры не встраивают функцию "добавить в архив" (по аналогии с добавить в закладки) - жмакнул кнопку и вот тебе копия страницы в локальном хранилище
Кстати, чем архив отличается от сохранения страницы браузером по CTRL+S?
Содержание не скачивает, только ссылки и тамбы?
Скачивает, и это тоже вариант. Только вопросом управление хранилищем занимаетесь вы (в какую папку, с каким именем, как потом найти). А если на уровне браузера по аналогии с закладками реализовать, то сохраненное лежит в папках браузера, доступно по тегам/наименованию и (потенциально) может синхронизироваться на разных устройствах, где браузер авторизован вашим аккаунтом.
Угу...
Тут не понял:
А если на уровне браузера по аналогии с закладками реализовать,
А ctrl+s на уровне ядра или браузера реализовано?
Ctrl+S это просто сохранить копию страницы на диск, как сохранить документ в вроде или екселе. А я говорю про сервис/фичу от браузера. Т.е. не "я ж сам все могу", а "вот у нас удобный встроеный сервис"
Ктрл+С вызывает функцую браузера выполняющую сохранение страницы, однако я не понимаю о какой фиче Вы говорите?
я не хочу думать о месте и структуре хранения - пусть браузер (его разработчики) выберут где и как оно хранится;
если сохранить файл на диск, то поиск нужного надо делать по файловой системе, а браузер в адресной строке не покажет сохраненные страницы после перемещения файлов, переустановки браузера или ОС - пусть браузер хранит и индексирует сохраненное самостоятельно;
я хочу иметь доступ к сохраненным копиям страниц с разных устройств (домашний комп, рабочий ноут, смартфон) - пусть браузер синхронизирует сохраненные страницы между моими устройствами.
Вот такую фичу я хочу
elinx --dump "https://habr.com/ru/post" |gzip > o_web_archive.gz
zgrep 'шаман|buben|webarchive' /zabil/*. gz
Спасибо за статью. Просто есть еще вот такой способ, у которого тоже есть достоинства.
Если у вас скачаны все голливудские фильмы за последние 50 лет в разрешении 4K, то не остаётся вариантов, кроме магнитной ленты. Современные картриджи формата LTO-9 объёмом 45 терабайт стоят не очень дорого.
Боюсь вы несколько ошибаетесь. 45 Тб — это с сжатием. А в реальности может получиться и все 18 Тб. Тоже немало, но цифра всё же уже не так впечатляет. Плюс LTO, тем более 9-ка, всё же технология уже достаточно тонкая и есть там некоторые проблемы с поиском привода, который бы нормально всё прочитал через много лет.
А что бы вы посоветовали не сильно дорогое для SOHO? Именно с заделом "чтобы потом было проще прочитать"
Добавил страничку в закладки.
У хабра же есть политика долговременного сохранения информации?
Eсть такое понятие как "контрагентский риск" - все эти политики не более, чем "обещание".
Время от времени пропадают аккаунты вместе со всеми статьями.
Есть инструмент SaveHabr, где можно выполнять команды:
./save_post 433806
./save_post https://habr.com/ru/company/first/blog/584838/
./save_user Dee3
Всё равно приходится распаковывать для удобного использования.
Не устаю призывать: дамы и господа, пожалуйста, сохраняйте важные страницы не только себе, но и в Архив интернета. Кто-то в будущем скажет вам спасибо.
Сайты прекрасно сохраняются в Joplin с помощью его же плагина для браузеров.
archivebox выглядит интересно. А то сильно неудобно в FF каждый раз переключаться в Reader mode и оттуда в PDF "печатать" удобочитаемый контент (без смузистилей, баннеров и прочего).
Сохранность контента, конечно, печалит. Даже для контента который остался опубликован на хабре часто можно увидеть что скрины потеряны безвозвратно.
И отдельные вопросики с форматами хранения, чтобы это потом ещё и прочесть можно было нормально на любом подручном, в т.ч. на телефоне или е-книжке. Тут, мне кажется, не хватает возможности выгонять контент в Markdown или epub. У Instapaper есть возможность группу статей экспортнуть в epub - вот что-то такое же хочется видеть для хабра в формате "еженедельный дайджест"
up: что-то попробовал archivebox натравить на эту статью и с лёту обломался(
> ArchiveBox -... (официально поддерживаются ... и BSD)
А BSD оффициально поддерживается в каком смысле?
pkg search archivebox мне результатов не дал.
В портах я этот ArchiveBox тоже не нашёл.
Какие для BSD есть ещё официальные варианты поддержки?
Как его в FreeBSD установить? Брать исходники и компилировать самому?
По этой теме есть RatBrowser.com.
Попробовал после этой статьи ArchiveBox и не остался особо доволен. Сохранять страницы кучей разных методов это, наверное(?), хорошо, но во многих случаях хочется сохранение полной копии сайта, а не просто одной странички. И это он не умеет. Как и не умеет менять ссылки на локальные, в случае если глубину сохранения поставить в единичку (кстати в этом случае он в том числе и сохраняет внешние ссылки). Работает медленно и не слишком удобно.
Причём судя по всему разрабов активно просят этот функционал ещё c 2019 года (они говорят что это одна из самых частых просьб к ним), но они упорно игнорируют эту просьбу. А жаль, иметь удобный локальный веб-сервис для сохранения целых вебсайтов локально, подобно выводу HTTrack, было бы удобно.
Создаём личный «Архив интернета»