1shaman 3 ноя 2021 в 08:00

Создаём личный «Архив интернета»

7 мин

31K

Блог компании FirstVDSНакопителиПоисковые технологии * СофтХостинг

+38

Комментарии 44

NeoCode 3 ноя 2021 в 08:59

Пока я просто сохраняю нужные мне странички средствами браузера в mhtml. Сайтов, целиком пригодных к скачиванию, не так уж и много (обычно это какие-то авторские работы типа книг или методичек на университетских сайтах). Но для таких есть телепорт про и другие подобные программы.

А идеальная система - просто некая кнопка типа "лайка", аналогичная добавлению в закладки, по нажатию на которую страница сохраняется в оффлайне, добавляется в какие-то оффлайновые базы для поиска, и - в идеале - ставится на раздачу в децентрализованной сети.

НЛО прилетело и опубликовало эту надпись здесь

NeoCode 3 ноя 2021 в 15:00

Спасибо, для Firefox пригодится, а то там нет встроенного сохранения в mhtml

AlexanderS 4 ноя 2021 в 13:43

Сколько ни пробовал подобных решений — в результате отказывался от них, обнаруживая косяки. Лучше уж сохранить по старинке и запаковать в zip. Оно как-то надежнее получается и для беспроблемного открытия в будущем. Сейчас проверил — в SingleFile на сохранённых страницах спойлеры, например, не работают.

Mike-M 4 ноя 2021 в 15:38

Снимите галочку в настройках SingleFile: Other resources => remove scripts.

AlexanderS 4 ноя 2021 в 17:50

Ух ты! Это я просмотрел, спасибо! Я в «Содержимое HTML» это ожидал увидеть.

А вот ещё такой вопрос. Спойлеры перед сохранением нужно открыть, иначе их содержимое не попадает в локальную копию. Я это приноровился делать через скрипт Greasemonkey через кликание на элементах спойлера требуемых сайтов. На особо медленных компах после рендеринга странички можно даже заметить закрывающиеся спойлеры) А как-то более цивилизованно эту проблему решить можно?

Mike-M 4 ноя 2021 в 21:07

Вот с этим, увы, не подскажу.
Знаю лишь, что для многих спойлеров достаточно отключить настройку remove scripts. При этом раскрывать спойлеры перед сохранением страницы не требуется: пример 1, пример 2.

НЛО прилетело и опубликовало эту надпись здесь

Mike-M 4 ноя 2021 в 14:58

До сего дня пользовался попеременно расширением Save Page WE и печатью на PDF принтер.
Теперь — только SingleFile. Спасибо за рекомендацию!

slavius 3 ноя 2021 в 09:50

https://habr.com/ru/company/vdsina/blog/550180/

Персональный интернет-архив без боли

ArchiveBox — продвинутый архиватор сайтов с огромным количеством поддерживаемых форматов и интерфейсов.

Возможности

Список сайтов можно подать на вход кучей разных способов (TXT, RSS, XML, JSON, CSV, SQL, HTML, Markdown, и т.д.), но самое интересное это импорт из всех основных браузеров (закладки, история) и «закладочных» сервисов (Pocket, Pinboard, Instapaper, Reddit Saved, OneTab и другие).
Хранение данных в HTML, JSON, PDF, PNG, и WARC — без самописных, проприетарных или новомодных форматов. При этом доступны и необычные методы экспорта, вроде извлечения текста (как в режиме Reader в браузерах) или Git-репозитория для скачанного со страницы кода.
Взаимодействие через терминал, веб-интерфейс, Python API, REST API и десктопное приложение (последние два варианта пока в альфе) на всех основных ОС (на винде нужен Docker или WSL)
Архивирование по расписанию (в сочетании с использованием истории браузера получается цепочка автосохранения всех посещённых сайтов)
Опционально — отправка URL на archive.org (чтобы иметь бэкап не только локально, но и на проверенных серверах)
Проект полностью опенсорсный, все надстройки опциональны и доустанавливаются в виде модулей. При отключенном экспорте в Internet Archive вообще все данные остаются на локальной машине, а при использовании Headless Chromium вместо Chrome можно обеспечить себе полную приватность.
Запланировано: использование JS-скриптов во время архивирования, для вырезания рекламы/попапов/разворачивания веток комментариев прямо на лету.
Уже работает, но нестабильно: сохранение контента за логином/пейволлом по кукам.

Ну а для локального хранения небольшого количества нужных страниц FireFox + PrintEditWE + SavePageWE

НЛО прилетело и опубликовало эту надпись здесь

shovdmi 3 ноя 2021 в 10:51

Я использую расширение для браузера Joplin Webclipper, который по сути часть Joplin app (https://joplinapp.org/) в которой веду базу знаний с заметками в формате markdown.

Что больше всего радует это работа и синхронизация баз между ПК и телефоном через Dropbox.

misharin 4 ноя 2021 в 09:38

Тоже пользуюсь Joplin, однако для синхронизации использую Nextcloud － более приватно получается, когда на свой сервер сохраняешь.

dartraiden 4 ноя 2021 в 17:41

более приватно получается

Я бы не сказал, что приватнее связки Dropbox+шифрование Joplin.

НЛО прилетело и опубликовало эту надпись здесь

dartraiden 4 ноя 2021 в 18:36

У меня 136 заметок. Из метаданных там видно только число файлов и дату их создания/изменения. Каким образом раскрытие этой информации ставит под угрозу мою приватность?

Эта информация ничего не даст атакующему. Какие-то заметки обновляются иногда, какие-то никогда, какие-то ежедневно. Можно даже предположить, что последняя это ToDo. Но что с того?

K0styan 5 ноя 2021 в 08:14

У всех приличных заметочников есть клипперы: Evernote, OneNote, Notion. Есть и у Zotero, специализированного инструмента для хранения материалов.

Какие-то лучше работают, какие-то хуже, но в целом для персонального архива решений "из коробки" предостаточно.

shovdmi 5 ноя 2021 в 15:17

всё так, но Joplin - opensource, бесплатные приложения для телефона, нет ограничений на объем или количество заметок. Облачная копия базы хранится не в облаке разработчика, и как следствие, бесплатные безлимитное хранилище в случае next cloud, либо объем вашего тарифного плана в случае dropbox.

За счет нет риска получить тыкву, если разработчик вдруг решит уменьшить количество бесплатных заметок, наложить санкции и т. д.

stargrave2 3 ноя 2021 в 13:22

В качестве WARC-прокси/просмотрщика может выступать http://www.tofuproxy.stargrave.org, сам который использую. Динамическое добавление, удаление, индексирование, поддержка сегментированных .warc.gz/.warc.zst.

Sergey-Aleksandrovich 3 ноя 2021 в 14:48

Странно, что в браузеры не встраивают функцию "добавить в архив" (по аналогии с добавить в закладки) - жмакнул кнопку и вот тебе копия страницы в локальном хранилище

Zalechi 4 ноя 2021 в 07:52

Кстати, чем архив отличается от сохранения страницы браузером по CTRL+S?

Содержание не скачивает, только ссылки и тамбы?

Sergey-Aleksandrovich 4 ноя 2021 в 08:09

Скачивает, и это тоже вариант. Только вопросом управление хранилищем занимаетесь вы (в какую папку, с каким именем, как потом найти). А если на уровне браузера по аналогии с закладками реализовать, то сохраненное лежит в папках браузера, доступно по тегам/наименованию и (потенциально) может синхронизироваться на разных устройствах, где браузер авторизован вашим аккаунтом.

Zalechi 4 ноя 2021 в 08:36

Угу...

Тут не понял:

А если на уровне браузера по аналогии с закладками реализовать,

А ctrl+s на уровне ядра или браузера реализовано?

Sergey-Aleksandrovich 4 ноя 2021 в 08:40

Ctrl+S это просто сохранить копию страницы на диск, как сохранить документ в вроде или екселе. А я говорю про сервис/фичу от браузера. Т.е. не "я ж сам все могу", а "вот у нас удобный встроеный сервис"

Zalechi 4 ноя 2021 в 08:45

Ктрл+С вызывает функцую браузера выполняющую сохранение страницы, однако я не понимаю о какой фиче Вы говорите?

Sergey-Aleksandrovich 4 ноя 2021 в 09:03

я не хочу думать о месте и структуре хранения - пусть браузер (его разработчики) выберут где и как оно хранится;
если сохранить файл на диск, то поиск нужного надо делать по файловой системе, а браузер в адресной строке не покажет сохраненные страницы после перемещения файлов, переустановки браузера или ОС - пусть браузер хранит и индексирует сохраненное самостоятельно;
я хочу иметь доступ к сохраненным копиям страниц с разных устройств (домашний комп, рабочий ноут, смартфон) - пусть браузер синхронизирует сохраненные страницы между моими устройствами.

Вот такую фичу я хочу

Zalechi 4 ноя 2021 в 09:07

Получается расширить функционал браузера при сохранении страниц

ComodoHacker 8 ноя 2021 в 09:47

И все это, конечно же, бесплатно..

В Firefox это есть, называется Pocket.

Kirikekeks 3 ноя 2021 в 17:44

elinx --dump "https://habr.com/ru/post" |gzip > o_web_archive.gz

zgrep 'шаман|buben|webarchive' /zabil/*. gz

Спасибо за статью. Просто есть еще вот такой способ, у которого тоже есть достоинства.

AlexanderS 3 ноя 2021 в 20:07

Если у вас скачаны все голливудские фильмы за последние 50 лет в разрешении 4K, то не остаётся вариантов, кроме магнитной ленты. Современные картриджи формата LTO-9 объёмом 45 терабайт стоят не очень дорого.

Боюсь вы несколько ошибаетесь. 45 Тб — это с сжатием. А в реальности может получиться и все 18 Тб. Тоже немало, но цифра всё же уже не так впечатляет. Плюс LTO, тем более 9-ка, всё же технология уже достаточно тонкая и есть там некоторые проблемы с поиском привода, который бы нормально всё прочитал через много лет.

QuAzI 5 ноя 2021 в 06:16

А что бы вы посоветовали не сильно дорогое для SOHO? Именно с заделом "чтобы потом было проще прочитать"

AlexanderS 5 ноя 2021 в 09:30

У меня нет такого опыта, чтобы советовать. Просто ко мне пару раз обращались именно с такой проблемой. А насколько она проблемная статистически я даже и не знаю, может это не так и страшно и всего у 0,001% встречается. В энтерпрайзе всё же пленка-то используется. С другой стороны в энтерпрайзе без проблем и в запас приводы покупают, да и могут денег отвалить за архивные модули. А в личных целях это будет непланируемое разорение. Я в своё время сделал ставку на обычные диски + Blu-Ray. Для операционного материала используется зеркальный RAID, для архивного — всё остальное, особо важное ещё и закатывается на 100 Гб болванки. Но тут всё зависит от объёмов. Да и 5 лет назад цены на диски-то были более гуманные.

Dee3 3 ноя 2021 в 20:15

Добавил страничку в закладки.
У хабра же есть политика долговременного сохранения информации?

Sergey-Aleksandrovich 4 ноя 2021 в 08:21

Eсть такое понятие как "контрагентский риск" - все эти политики не более, чем "обещание".

dartraiden 4 ноя 2021 в 17:44

Хабр даёт автору возможность убрать пост в черновики в любое время.

MagisterAlexandr 11 ноя 2022 в 04:06

Время от времени пропадают аккаунты вместе со всеми статьями.

Есть инструмент SaveHabr, где можно выполнять команды:

./save_post 433806
./save_post https://habr.com/ru/company/first/blog/584838/
./save_user Dee3

aik 4 ноя 2021 в 07:39

Формат warc лично я не особо понимаю, чем он лучше простого архива?
Всё равно приходится распаковывать для удобного использования.

Browning 4 ноя 2021 в 08:42

Не устаю призывать: дамы и господа, пожалуйста, сохраняйте важные страницы не только себе, но и в Архив интернета. Кто-то в будущем скажет вам спасибо.

sakontwist 4 ноя 2021 в 12:39

Сайты прекрасно сохраняются в Joplin с помощью его же плагина для браузеров.

Mike-M 4 ноя 2021 в 15:56

Чтобы уменьшить количество битых ссылок в статьях на Хабре, хорошо бы разрешать сохранение в них дополнительных материалов, тех же *.docx например.
Сейчас, насколько я знаю, Хабр сохраняет у себя только картинки из статей.
Что на это скажет уважаемый boomburum?

QuAzI 5 ноя 2021 в 06:11

archivebox выглядит интересно. А то сильно неудобно в FF каждый раз переключаться в Reader mode и оттуда в PDF "печатать" удобочитаемый контент (без смузистилей, баннеров и прочего).

Сохранность контента, конечно, печалит. Даже для контента который остался опубликован на хабре часто можно увидеть что скрины потеряны безвозвратно.

И отдельные вопросики с форматами хранения, чтобы это потом ещё и прочесть можно было нормально на любом подручном, в т.ч. на телефоне или е-книжке. Тут, мне кажется, не хватает возможности выгонять контент в Markdown или epub. У Instapaper есть возможность группу статей экспортнуть в epub - вот что-то такое же хочется видеть для хабра в формате "еженедельный дайджест"

up: что-то попробовал archivebox натравить на эту статью и с лёту обломался(

rvs2016 23 мар 2022 в 23:35

> ArchiveBox -... (официально поддерживаются ... и BSD)

А BSD оффициально поддерживается в каком смысле?

pkg search archivebox мне результатов не дал.

В портах я этот ArchiveBox тоже не нашёл.

Какие для BSD есть ещё официальные варианты поддержки?

Как его в FreeBSD установить? Брать исходники и компилировать самому?

MagisterAlexandr 11 ноя 2022 в 04:02

По этой теме есть RatBrowser.com.

Inoriol 3 апр 2023 в 07:58

Попробовал после этой статьи ArchiveBox и не остался особо доволен. Сохранять страницы кучей разных методов это, наверное(?), хорошо, но во многих случаях хочется сохранение полной копии сайта, а не просто одной странички. И это он не умеет. Как и не умеет менять ссылки на локальные, в случае если глубину сохранения поставить в единичку (кстати в этом случае он в том числе и сохраняет внешние ссылки). Работает медленно и не слишком удобно.

Причём судя по всему разрабов активно просят этот функционал ещё c 2019 года (они говорят что это одна из самых частых просьб к ним), но они упорно игнорируют эту просьбу. А жаль, иметь удобный локальный веб-сервис для сохранения целых вебсайтов локально, подобно выводу HTTrack, было бы удобно.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий