Pull to refresh

Comments 75

Похоже, что он только стили инлайнит и конвертирует img src в base64.
Картинки указанные в css background не инлайнит, js не инлайнит.
За такое - сотка баксов минимум должна быть.

Как тут не вспомнить TeleportPro и начало 2000-х 🥲

Да, это была вещь... 1990-ые, интернет нахаляву в университе, Teleport Pro и чтение дома. Или wget -r...

Копирование целых сайтов на халявном интернете. iXBT тогда со всеми потрохами на обычный компакт-диск умещался.

ixbt тогда был в виде фидо-эхи 10XX.COMPUTERNEWS или что-то рядом.

1072 если память не изменяет

Начало 2000-х

В 2013 таможня требовала ссылки на сайт производителя для обоснования указанных в накладной цен, а китайский оптовый поставщик цены на сайте не указывал. С помощью Teleport Pro по-быстрому скопировал китайский сайт и добавил нужные цены. Справился за вечер, заработал 500$ :)

Teleport Pro небось и сейчас неплохо сработает с большинством сайтов.

Https не поддерживает.

У меня работает offline explorer. Всё выкачивает

Как думаете гос ву хватит мозгов клонировать ютуб) но когда они его запустят, их железо и жопппы взлетят на татуин)))?!

О каких мозгах речь? Там давно и надежды на них нет..

"Клонировать" - не совсем тот термин. Клон ютуба уже есть - "Платформа", интерфейс один-в-один.

Чисто технически сделать аналог youtube легко. Главная проблема заключается в убыточной бизнес модели, т.е. видеохостинг себя не окупает по затратам и требует постоянных денежных вливаний из вне.

youtube живёт на деньги, полученные с продажи рекламы в поисковике google.com, а rutube живёт за счёт денежных вливаний от Газпром Медиа.

Пользуясь случаем: есть ли способ сохранить веб-страницу не в смысле исходного HTML-кода, как он получен с сервера по HTTP(S), а в виде состояния в процессе работы, со всеми промежуточными данными джаваскрипта и вот эти всем? Буквально законсервировать вкладку. Думаю, что нет, но Хабр - такое удивительное место...

Смею предположить, что в общем случае с этим могут возникнуть сложности из-за огромного разнообразия динамических веб-страниц. А вот "моментальный снимок" (snapshot) обычно сделать можно, для этого существуют браузерные расширения (например, Save Page WE для Chrome).

Вот бы браузеры научились это сохранять. Заходишь по ссылкам в избранном - половина уже не открывается...

Чтобы было "страница недоступна, вот её состояние на момент последнего сохранения"

интернет архив?

Станица интернет архив недоступна, вот её состояние на момент последнего сохранения...

не совсем понял, что вы имеете ввиду под недоступностью

Я пишу такое. Сборка Ultimatum, пока умеет только кеши и hsts, favicons на подходе. Прям заморозки таба и его дальнейшей разморозки нет но вообще планирую. Статьи можно в профиле моем глянуть.

А ещё было бы не плохо в markdown сохранять страницу по кнопке.

Такое уже есть.
Такое уже есть.

Такое делается при помощи веб-драйвера, который прогоняет страницу через настоящий браузер (можно в headless режиме) и сохраняет результат на диск.

А можно про это подробнее узнать, пожалуйста, если статья, какая-нибудь?

Об этом можно почитать в спецификации вебрайвера, например здесь
https://www.w3.org/TR/webdriver2/#dfn-get-page-source

Если коротко, то у драйвера есть апшика, чтобы получить текущий код страницы. Именно текущий, а не исходный, то есть с учетом рендера всех реактов и скриптов.

Вопрос как дальше организовать рекурсию, чтобы сохранить именно сайт, а не одну страничку (хотя так и не понял, делает ли это скрипт из статьи).

Давным-давно, в далёкой галактике, существовали форматы .maff и .mht

Увы, смузихлёбы с подворотами сказали что "этонинужно" и превратили всё в тыкву.

О-о, да, .mht жалко, я его ещё застал в нулевых.

Plugin в Firefox для .maff тоже был хорош :-( Потом в Firefox решили старую систему плагинов похерить и разработчик тоже на это дело забил.

В смысле? Постоянно нажимаю в MS Edge CTRL+S и сохраняю в .mhtml. Только что проверил в Chrome 128, тоже работает. Windows 10.

В браузере Яндекса тоже есть, но он же написал .mht - это то же самое?

Да, это всё MIME HTML.

Увы, смузихлёбы с подворотами сказали что "этонинужно" и превратили всё в тыкву.

Расширения типа singlefile делают примерно тоже самое.

Спасибо за наводку, по первому впечатлению действительно полный аналог.

Как давний пользователь SingleFile, не советую полагаться на эту штуку. Часто сталкиваюсь с тем, что сохраненный год-два назад .html файл не открывается либо открывается криво, если нет доступа к первоначальной ссылке. Пробовал разные настройки — бесполезно. Да и обновлять надо регулярно, ведь стандарты на месте не стоят...

Пришел к выводу, что сохранять в PDF всё-таки надежнее. Хотя и там есть свои нюансы...

Запустить браузер под виртуалкой и сделать снапшот )

Или CRIU на пингвиниксе.

Eсть ли способ сохранить веб-страницу не в смысле исходного HTML-кода [...], а в виде состояния в процессе работы, со всеми промежуточными данными джаваскрипта и вот эти всем?

Есть отличное расширение SingleFile, которое, буквально, сохраняет загруженную страницу в один файл: дампит DOM, встраивает стили, шрифты и картинки. Сохранённый файл потом можно открыть оффлайн и он выглядит один в один как страница, со всей вёрсткой и дизайном, обычно даже ресайзится корректно, но вся динамическая функциональность, ожидаемо, отваливается. Работает практически идеально, я пока что столкнулся только с одним недостатком — почему-то не сохранилось состояние чекбоксов и пользовательский ввод в поля формы.

Работает в Firefox (в каталоге расширений оно даже с плашкой «рекомендованное»), Chrome-браузерах и Safari (но в сафари я не сам тестировал).

Чем это отличается от "Сохранить как" или любых других аналогов, типа webscrapbook расширения или сайта Save2zip? Не пойму почему оно так распиарено

Странный наверное вопрос, но как им пользоваться? Что с этим одним файлом делать?

Копируете скрипт, вставляете в консоль браузера и нажимаете Enter. Результат (файл index.html) сохраняется в директории загрузок.

В своё время хотел написать скрипт для сохранения всего сайта в веб архив.

На юникс-based системах можно просто сделать wget -r [domain] и сайт у тебя на локалке :)

Современный сайт, который чуть более чем полностью состоит из js? Ну-ну.

И в чем проблема? Скачаются все скрипты и также будет работать. Бывают конечно исключения, но в основном норм.

Скачайте facebook ;)

Я ж говорю есть исключения. Да и фейсбук скорее уже не сайт, а веб приложение.

Так это сейчас типичный случай - на первой странице просто <script> и никаких явных ссылок.

Скачаются минифицированные скрипты, рассчитанные на бэк и юрлы сайта. Что ты будешь делать с этим всем?

А этот скрипт ReplicateUI скачает всё в оригинальном виде?

Тут обсуждалось что нельзя скачать сайт который с js, не вебприложение, не абсолютно любой, а дефолтный сайт с помощь wget – но это сделать можно и в большинстве случаев на локалке потом его можно открыть и даже чем-то попользоваться.

Что ты будешь делать я не знаю, я ничего не собираюсь с этим делать) я предложил простое решение которое может подойди для многих сайтов. И в wget кстати сконвертит многие урлы для того чтобы можно было на локалке переходить по ссылкам.

А с inMemory состоянием, как производным предыдущих событий и запросов что будете делать. Максимум что получите, статику и css.

Ответил выше.

Надо окно открыть...

Какой смысл в скачивании условного facebook-a? С подавляющим числом сайтов wget отлично справится. Сайты которые состоят полностью из js скорее исключение если сравнивать со всей массой сайтов.

Скажем, хочется скачать текущие предложения на mvideo.ru...

А простое сохранение в хроме не сохраняет нормально такое?

Сохраняет часть первой странички, да и то часть картинок - просто оставлены ссылки на оригинальный сайт. На рекурсию, как в wget, оно и не замахивается.

wget вроде хорошо работает:

wget -r -k -l 7 -p -E -nc http://site.com/

где 7 – глубина вложенности

Ух, запускаю свой ВК, да стену туда верну!

Старый дизайн, плюс вся начинка по апи, плюс функционал старой же стены - куда все хотелки отправлять?)))))

если Вас не затруднит, верните, пожалуйста и 2007-й

Интересно, есть ли какой способ сохранять из браузера векторный контент, например с issuu.com ? Можно даже в svg и по одной странице за раз, но как -- непонятно.

Если нужно сохранить html-элемент svg, то всё довольно просто. На issuu как я вижу используется canvas, тут уже сложнее, но выглядит тоже решаемым (а greasemonkey думаю сможет помочь с хуком).

Погодите, я может чего не понимаю, а чем это отличается от стандартного браузерного "Save as"?

Save as сохраняет конкретную страницу, скрипт - всё дерево вроде как.

Ну теперь то у меня точно появится свой собственный google.com с шахматами и поэтессами. Как тебе такое Сергей Брин? /sarcasm

Sign up to leave a comment.

Other news