revoitic Sep 6 2023 at 07:25

Как скачать весь интернет? Становимся датахордерами. Начинаем с SingleFileZ и yt-dlp

Easy

3 min

20K

Open source * Backup * Browser extensionsData storage *

From sandbox

+31

Comments 26

ritorichesky_echpochmak Sep 6 2023 at 07:53

Концепт интересный, но что-то я скачал эту статью, а она весит как не в себя - 1.4Мб против 9кб файл скачанный через MarkDownload, без баннеров и прочих отвлекаторов, при том что картинок тут как бы и нет. Единственный минус у MarkDownload - нужно посматривать, что скрытый под спойлеры контент раскрылся нормально.

Ожидал что будет zip, но нет, там html который в себе где-то под капотом что-то может и распаковывает, но крайне не очевидным для стандартных архиваторов образом.

Посмотреть контент, судя по всему, можно только прям полноценным браузером, потому что Lister от Total Commander и PocketBook 740 подавились. Поиск по контенту работать не будет никогда.

С моей точки зрения лучше по максимуму всё приземлять как Markdown, а если нужны картинки и прочее медиа прям в странице, то в PDF (Firefox -> Toggle Reader View -> Print to PDF), но тоже с контролем спойлеров. Markdown вообще топ, можно потом процессить чем угодно и конвертировать во что угодно, в отличие от этой пепяки.

Ютубы же да, через yt-dlp - лучший на сегодня вариант. Для поддержки старого планшета, ещё не умевшего все эти новые модные форматы и 4к использую youtube.cmd следующего вида

yt-dlp -S "res:1920,fps" -S "codec:h264" %*

Плюс он не скачивает дубли, а если файлы качаются не в одну директорию (например сортируются по категориям после скачивания), то дубли можно выкосить добавив

--download-archive downloaded.list

revoitic Sep 6 2023 at 09:15

Согласен, преобразовывать содержимое в другие форматы будет полезным.

Я вот пока использую auto-editor для скачанных видео с youtube и Twitch, он позволяет делать авто монтаж видео по простым правилам, например, он позволяет обрезать тишину (особенно полезно для прямых эфиров и стримов). Есть плагины для mpv, которе делают монтаж в реальном времени.

Markdown( и pdf) был бы ультимативным решение, если бы чуть ли не на каждой второй веб-странице была вставка с webg и всяки таким подобным)

h264 весит в разы больше av1. Так же Youtube сильно режет качество для h264 и в меньшей степени для vp9. Тут нужно выбирать между совместимость и качеством.

SingleFileZ создаёт расширение .zip.html, но на самом деле там просто zip. Это можно настроить. Предпологаю, что это сделанно для автоматического открытия браузером такого файла. Приоткрытии такого файла расширение распаковывает.

Для поиска по таким файлом утилиты дылжны уметь работать zip архивами. А вот, например, с tar.xx были бы такие проблемы.

ritorichesky_echpochmak Sep 6 2023 at 09:53

обрезать тишину

yt-dlp умеет через ffmpeg делать что-то типа

--external-downloader ffmpeg --external-downloader-args "ffmpeg_i:-ss %2 -to %3"

возможно и тишину можно аналогично выкашивать

webg

Немного не понял. Имеется в виду WebGL? Как бы при печати в PDF там уже всё порендерено и не важно, если вас не интересует, конечно, именно лютейший интерактив, веб-игры и т.д.

создаёт расширение .zip.html, но на самом деле там просто zip

По умолчанию там html-страница, в которую впилен энкодированный во что-то zip (подозреваю, что в base64), в итоге ни браузеры попроще, ни TotalCommander (который у меня прожёвывает всё!), ни поиск любым инструментом не работают. С tar.xx у тотала и 7-zip никаких проблем.

Dart55 Sep 6 2023 at 18:40

yt-dlp умеет вырезать фрагменты SponsorBlock

fifonik Sep 6 2023 at 08:58

Некоторые видео-плееры (например MPC HC) умеют проигрывать/скачивать видео, пользуясь упомянутыми youtube-dl/yt-dlp: скачиваете yt-dlp.exe, сохраняете его в каталог с exe-плеера и потом "Ctrl+O | Paste URL | Enter". Потом "File | Save a Copy".

P.S Основные параметры yt-dlp задаются прямо в настройках плеера

LaserPro Sep 6 2023 at 09:17

Есть еще такой проект: https://archivebox.io/
"ставишь плагин в свой Firefox и он автоматически сохраняет тебе на сервер всё, что ты смотрел в интернете."
сам пока еще не пробовал)

NutsUnderline Sep 6 2023 at 09:34

оно похоже могет работать с упомянутым SingleFile в качестве плагина

revoitic Sep 7 2023 at 12:42

Был одно время у меня настроен archivebox, но захотелось что-то более примитивное)

NutsUnderline Sep 6 2023 at 09:21

скачиваю с хабара страницы в PDF при помощи Opera - потом можно открывать на любом тапке. В отличие от firefox.chrome.vivaldi opera не режет веб на бумажные страницы а сохраняет длинную простыню. Не весь pdf софт это хорошо понимает но в целом смотреть есть чем. Длинные горизонтальные скроллы командных строк нельзя прокутить, но можно скопировать целиком.

Раньше сохранял опять же в Opera в формат .MHT - в принципе тоже нормально было, но формат мало где поддержан

ru1z Sep 6 2023 at 09:58

Zotero вроде сейчас умеет сохранять в SingleFile и еще есть плагины для сохранения в архив интернета https://github.com/leonkt/zotero-memento.
В Zotero бы еще добавить опцию сохранять статью в маркдаун (да уж и видео, раз про это вспомнили), будет неплохо. По крайней мере, с зотеро проще решить задачу еще и про

не можешь вспомнить где он находится или не можешь его найти

Обычно проблема в том, что в результате — хаос из накаченных файлов (парадокс папки «загрузки»).

ritorichesky_echpochmak Sep 6 2023 at 10:22

Про хаос - это верно. Порядок на ФС обязан быть, если инструмент сохраняет файлы как фаршик из файлов, из которого вручную, без однойединственноправильнойпрограммы не посмотреть - выкидываю такой инструмент. Аналогичная проблема в скаченных книгах, медиаконтенте и даже в фото которые сам сделал. Иногда трудно понять, к какой категории в первую очередь отнести данный файл чтобы разместить в соответствующую директорию (теги - это весело, но вторично и не всем удобно).

Тут нужен какой-то софт, который будет пробовать какой-то из вариантов:

Сходить в публичную библиотеку (например IMDB для видео) и спросить там к какой категории относится данный файл
Спросить у какого-нибудь убертренированного цифрофильтра типа ChatGPT "как думаешь, к какой категории из (список) относится этот контент"
Пытаться найти категорию основываясь на том, что её название написано в имени файла или даже в самом файле. Например статьи в которых содержится Python в названии можно автоматически двигать в поддиректорию Python, внутри которой повторно выполнять аналогичную сортировку. Получим по итогу, что все статьи по Django будут лежать в Python/Django. Ну, почти все, учитывая любовь авторов к странным заголовкам)

Разумеется ни один из вариантов не даст 100% результат, но как первое решето для отсеивания должно сгодиться

Ко всей этой круговерти добавляются вопросы с оценкой качества материала, его уникальности и актуальности. Очень жду, когда какой-нибудь ChatGPT сможет сделать такую оценку за меня, помгая откинуть устаревшие и неактуальные дубликаты, чтобы не приходилось тратить время на чтение одного и того же под разным соусом

ru1z Sep 6 2023 at 10:42

Ну вот зотеро что-то такое предлагает, правда не все из коробки и без ChatGPT (хотя наверняка можно такой плагин написать, может кто-то уже и написал). Метаинформацию с популярных сайтов может вытягивать (правда с imdb транслятор похоже сломался, раньше работал, но с ютуба и других вроде работает). А дальше можно настроить, чтобы файлы по метаинформации правильно раскладывались по папкам с ZotFile.
Оценка качества материала с ChatGPT — это как-то слишком, имхо. Обычно предполагается, что сохраняется важный материал, допустим книга к прочтению, а оценку ставят после прочтения. Если оценку ставит ChatGPT, то наверное и хранить материал на диске не явно необходимо.

ritorichesky_echpochmak Sep 6 2023 at 10:54

В интернете оценки разные бывают, от накрученных не соответствующих даже реальному контенту, до полного их отсутствия. Максимум от IMDB что нужно - это категория, может быть теги, иногда краткое описание от самого автора. От AI же я хочу чтобы он мог мне сгенерить что-то аля "чел, всё что тут написано уже есть вон в той, ранее отложенной на почитать тобой статье и тех трёх книжках, только в этом варианте ещё половина пропущена, а вот эти два типа новых абзаца вообще выдумки и отсебятина, не нужно их читать". Разумеется это более важно для всякого рода технической литературы, потому что сложное чтиво плохо усваивается чтением по диагонали, а значит на него автоматически тратится куда больше времени и мыслетоплива. Ну или чтобы AI мог выделить из этой статьи автоматом что-то новое, чего ещё не было отложено в мою библиотеку. Ну или хотя бы сказать что "это вторая редакция этой книги, а у тебя уже куплена PDF'ка в питерпресс с новой редакцией"

Я устал искать ошмётки нового среди кучи всплывающих баннеров в этих вот поломанных интернетах и прихранивать на "потом перечитать, потому что завтра сайт сдохнет, санкции, интернет по карточкам"

ru1z Sep 6 2023 at 12:05

Тогда это наверное нужно смотреть куда-то в сторону обсидиана, где пишут кучки плагинов с ChatGPT API. По описанию Auto Classifier похож, который добавляет теги, ну и добавить плагин, который по тегу раскладывает в подпапки (Auto Note Mover?). В принципе можно и виспер настроить, чтобы видео транскрибировал.
Правда с ChatGPT куда-то информация отправляется, что тоже наверное не очень хорошо.

ritorichesky_echpochmak Sep 6 2023 at 12:59

Спасибо, посмотрю. Я активно пользуюсь обсидианом для своих записок сумасшедшего, трекинга что я делаю по работе (Daily notes чтобы потом трекать время, в помощь к репорту который git готовит по коммитам) и даже приспособил для микробложика (статья пишется в Obsidian, коммитается на гитхаб и оттуда через GitHub Actions её в сайтик раскатывает Hugo), но мозги в кучку собрать всё равно не могу)

hurtavy Sep 6 2023 at 13:46

Интересный проект. Я пока пользуюсь WebScrapBook, там хоть редактировать страницы можно, вырезая всё ненужное

Dart55 Sep 6 2023 at 19:17

В SingleFile тоже есть возможность редактировать и вырезать, только спрятана под названием "Аннотировать и сохранить страницу..."

cry_san Sep 7 2023 at 07:13

Если бы еще запоминал шаблон для домена, то цены бы ему не было.

UFO landed and left these words here

engine9 Sep 7 2023 at 05:12

У yt-dlp есть классная возможность скачивать видео с разным качеством, а то и напрямую видеодорожку с ютуба, без конвертации на локалхосте. Пригодится тем у кого слабые интернеты или дорогой трафик.

Например, есть лекция на час которую вы хотите послушать оффлайн.
Пишем:

yt-dlp -F https://youtu.be/Seac3PMt6N0

Получаем список форматов, доступных для скачивания в виде удобной таблицы:

yt-dlp -f 600 https://youtu.be/Seac3PMt6N0

Предположим, что я захотел скачать только звук закодированным Opus в ultra-low качестве (на деле оно оказывается отличным). Используем ключ -f и пишем после него код.

Если утилита ругнётся что "filename too long", после кода "600" пишем ключ --restrict-filenames и вуаля, файл в 16 Мб быстро скачивается. Проиграть его потом можно в браузере, что на десктопе что на андроиде.

NutsUnderline Sep 7 2023 at 08:29

Захотелось мне поглядеть на SingleFile, провел свои тесты, на одной и той же странице: просто SingleFile - 1.1M , SingleFileZ - 0.7M, PDF - 2.5M - т.е на обычную дискету уже не влезет :)

revoitic Sep 7 2023 at 12:39

Да, жалко)

Но, кстати, в SingleFileZ можно настроить оптимизирование ресурсов. Например, можно удалять невидимые фрагменты страниц.

slavius Sep 7 2023 at 11:17

Странно, что не вспомнили про дополнения к браузерам Save Page WE и Print Edit WE - позволяют сохранять страницы и редактировать при необходимости.

SanekZhitnik Sep 13 2023 at 06:11

Тоже задумывался про "сохранение" всего интересного.
Раньше я использовал Notion.
Преимущества были очевидны: сохраняет и ссылку и пытается сохранить веб контент.

Однако с течением времени у меня появилась задача "анализа и группировки" веб контента.
Сейчас у меня пайплайн такой:
RSS > Notion > Obsidian.

Для автоматизации пишу собственный мини проект
Внутри Python и SQLite

на вход список ссылок в формате csv из Notion
Стягивает текстовые данные в формате md: для сайтов использую trafilatura для youtube использую yt-dlp. Он отлично может стягивать субтитры на разных языках
На вход список заметок с ключевыми словами из Obsidian
Анализ (по регуляркам) где было встречено то или иное слово.
Экспорт в CSV в хранилище обсидиана

Выглядит вот так:

Работы еще много,
Дубликаты там находить по ссылкам, итд.
Но работа кипит.

MagisterAlexandr Apr 15 2024 at 04:53

RatBrowser.com — рецепт, как приготовить браузер, сохраняющий посещённые страницы.