denis-19 Sep 24 2024 at 13:29

На GitHub опубликован скрипт ReplicateUI для копирования любого веб-сайта со всем кодом и картинками

1 min

59K

Web design * Website development * Open source * Web services testing * Web services monetization *

+21

Comments 78

Jirabus Sep 24 2024 at 13:37

lazy_val Sep 24 2024 at 14:25

DevFx Sep 24 2024 at 13:49

Похоже, что он только стили инлайнит и конвертирует img src в base64.
Картинки указанные в css background не инлайнит, js не инлайнит.
За такое - сотка баксов минимум должна быть.

fivlabor Sep 24 2024 at 13:55

Как тут не вспомнить TeleportPro и начало 2000-х 🥲

salnicoff Sep 24 2024 at 16:31

Да, это была вещь... 1990-ые, интернет нахаляву в университе, Teleport Pro и чтение дома. Или wget -r...

GennPen Sep 24 2024 at 19:40

Копирование целых сайтов на халявном интернете. iXBT тогда со всеми потрохами на обычный компакт-диск умещался.

arcenic Sep 26 2024 at 07:57

ixbt тогда был в виде фидо-эхи 10XX.COMPUTERNEWS или что-то рядом.

dvglab Sep 26 2024 at 15:45

1072 если память не изменяет

AcckiyGerman Sep 25 2024 at 07:58

Начало 2000-х

В 2013 таможня требовала ссылки на сайт производителя для обоснования указанных в накладной цен, а китайский оптовый поставщик цены на сайте не указывал. С помощью Teleport Pro по-быстрому скопировал китайский сайт и добавил нужные цены. Справился за вечер, заработал 500$ :)

Teleport Pro небось и сейчас неплохо сработает с большинством сайтов.

Flyingfolds Sep 25 2024 at 12:48

Https не поддерживает.

У меня работает offline explorer. Всё выкачивает

orbion Sep 25 2024 at 11:34

О да, HTTrack ещё пользовался

pae174 Sep 24 2024 at 14:00

скрипт ReplicateUI

Комменты там жгут, конечно :-)

Very_Bad_Guy_666 Sep 24 2024 at 21:52

Как думаете гос ву хватит мозгов клонировать ютуб) но когда они его запустят, их железо и жопппы взлетят на татуин)))?!

rambee Sep 25 2024 at 02:07

О каких мозгах речь? Там давно и надежды на них нет..

ExternalWayfarer Sep 25 2024 at 13:24

"Клонировать" - не совсем тот термин. Клон ютуба уже есть - "Платформа", интерфейс один-в-один.

Thomas_Hanniball Sep 25 2024 at 19:38

Чисто технически сделать аналог youtube легко. Главная проблема заключается в убыточной бизнес модели, т.е. видеохостинг себя не окупает по затратам и требует постоянных денежных вливаний из вне.

youtube живёт на деньги, полученные с продажи рекламы в поисковике google.com, а rutube живёт за счёт денежных вливаний от Газпром Медиа.

NickKolok Sep 24 2024 at 23:45

Пользуясь случаем: есть ли способ сохранить веб-страницу не в смысле исходного HTML-кода, как он получен с сервера по HTTP(S), а в виде состояния в процессе работы, со всеми промежуточными данными джаваскрипта и вот эти всем? Буквально законсервировать вкладку. Думаю, что нет, но Хабр - такое удивительное место...

Lazytech Sep 25 2024 at 01:57

Смею предположить, что в общем случае с этим могут возникнуть сложности из-за огромного разнообразия динамических веб-страниц. А вот "моментальный снимок" (snapshot) обычно сделать можно, для этого существуют браузерные расширения (например, Save Page WE для Chrome).

Didimus Sep 26 2024 at 07:47

Вот бы браузеры научились это сохранять. Заходишь по ссылкам в избранном - половина уже не открывается...

Чтобы было "страница недоступна, вот её состояние на момент последнего сохранения"

VasiliyLiGHT Sep 26 2024 at 12:04

интернет архив?

Didimus Sep 26 2024 at 17:08

Станица интернет архив недоступна, вот её состояние на момент последнего сохранения...

VasiliyLiGHT Sep 26 2024 at 20:10

не совсем понял, что вы имеете ввиду под недоступностью

gonzazoid Sep 25 2024 at 04:42

Я пишу такое. Сборка Ultimatum, пока умеет только кеши и hsts, favicons на подходе. Прям заморозки таба и его дальнейшей разморозки нет но вообще планирую. Статьи можно в профиле моем глянуть.

kirillzak Sep 25 2024 at 06:30

А ещё было бы не плохо в markdown сохранять страницу по кнопке.

AptRoApt Sep 25 2024 at 07:46

igrishaev Sep 25 2024 at 08:16

Такое делается при помощи веб-драйвера, который прогоняет страницу через настоящий браузер (можно в headless режиме) и сохраняет результат на диск.

TailsMan Sep 26 2024 at 06:53

А можно про это подробнее узнать, пожалуйста, если статья, какая-нибудь?

igrishaev Sep 26 2024 at 07:06

Об этом можно почитать в спецификации вебрайвера, например здесь
https://www.w3.org/TR/webdriver2/#dfn-get-page-source

Если коротко, то у драйвера есть апшика, чтобы получить текущий код страницы. Именно текущий, а не исходный, то есть с учетом рендера всех реактов и скриптов.

unreal_undead2 Sep 26 2024 at 07:25

Вопрос как дальше организовать рекурсию, чтобы сохранить именно сайт, а не одну страничку (хотя так и не понял, делает ли это скрипт из статьи).

splitfire Sep 25 2024 at 09:21

Давным-давно, в далёкой галактике, существовали форматы .maff и .mht

Увы, смузихлёбы с подворотами сказали что "этонинужно" и превратили всё в тыкву.

NickKolok Sep 25 2024 at 09:26

О-о, да, .mht жалко, я его ещё застал в нулевых.

Nikeware Sep 25 2024 at 12:06

Plugin в Firefox для .maff тоже был хорош :-( Потом в Firefox решили старую систему плагинов похерить и разработчик тоже на это дело забил.

Gutt Sep 25 2024 at 13:24

В смысле? Постоянно нажимаю в MS Edge CTRL+S и сохраняю в .mhtml. Только что проверил в Chrome 128, тоже работает. Windows 10.

perfect_genius Sep 25 2024 at 21:14

В браузере Яндекса тоже есть, но он же написал .mht - это то же самое?

Gutt Sep 26 2024 at 12:57

Да, это всё MIME HTML.

vvzvlad Sep 25 2024 at 14:07

Увы, смузихлёбы с подворотами сказали что "этонинужно" и превратили всё в тыкву.

Расширения типа singlefile делают примерно тоже самое.

splitfire Sep 25 2024 at 14:21

Спасибо за наводку, по первому впечатлению действительно полный аналог.

Mike-M Sep 26 2024 at 01:58

Как давний пользователь SingleFile, не советую полагаться на эту штуку. Часто сталкиваюсь с тем, что сохраненный год-два назад .html файл не открывается либо открывается криво, если нет доступа к первоначальной ссылке. Пробовал разные настройки — бесполезно. Да и обновлять надо регулярно, ведь стандарты на месте не стоят...

Пришел к выводу, что сохранять в PDF всё-таки надежнее. Хотя и там есть свои нюансы...

LucasP Sep 28 2024 at 16:59

Иногда странички в нем сохранял, когда инета не было, приходилось возвращаться и перечитывать xD

splitfire Sep 28 2024 at 19:42

Я до сих пор всё хоть немного потенциально полезное сохраняю. Тут вот на Хабре даже, ткнёшся в таб — а там что-то про НЛО. Лучше сохранять)

unreal_undead2 Sep 25 2024 at 11:06

Запустить браузер под виртуалкой и сделать снапшот )

Gutt Sep 25 2024 at 13:25

Или CRIU на пингвиниксе.

firegurafiku Sep 25 2024 at 13:12

Eсть ли способ сохранить веб-страницу не в смысле исходного HTML-кода [...], а в виде состояния в процессе работы, со всеми промежуточными данными джаваскрипта и вот эти всем?

Есть отличное расширение SingleFile, которое, буквально, сохраняет загруженную страницу в один файл: дампит DOM, встраивает стили, шрифты и картинки. Сохранённый файл потом можно открыть оффлайн и он выглядит один в один как страница, со всей вёрсткой и дизайном, обычно даже ресайзится корректно, но вся динамическая функциональность, ожидаемо, отваливается. Работает практически идеально, я пока что столкнулся только с одним недостатком — почему-то не сохранилось состояние чекбоксов и пользовательский ввод в поля формы.

Работает в Firefox (в каталоге расширений оно даже с плашкой «рекомендованное»), Chrome-браузерах и Safari (но в сафари я не сам тестировал).

wladoxa Sep 25 2024 at 02:07

Чем это отличается от "Сохранить как" или любых других аналогов, типа webscrapbook расширения или сайта Save2zip? Не пойму почему оно так распиарено

perfect_genius Sep 25 2024 at 21:15

+wget.

xronelx Sep 25 2024 at 02:07

Странный наверное вопрос, но как им пользоваться? Что с этим одним файлом делать?

Quarc Sep 25 2024 at 02:41

Копируете скрипт, вставляете в консоль браузера и нажимаете Enter. Результат (файл index.html) сохраняется в директории загрузок.

Drukinchi Sep 25 2024 at 03:41

Чем плох архиварикс?

qeeveex Sep 25 2024 at 04:54

В своё время хотел написать скрипт для сохранения всего сайта в веб архив.

thekingoftheworld Sep 25 2024 at 06:12

"Зумеры" изобрели wget?

fojia Sep 25 2024 at 06:27

На юникс-based системах можно просто сделать wget -r [domain] и сайт у тебя на локалке :)

kuzzdra Sep 25 2024 at 06:40

Современный сайт, который чуть более чем полностью состоит из js? Ну-ну.

mopsicus Sep 25 2024 at 06:53

И в чем проблема? Скачаются все скрипты и также будет работать. Бывают конечно исключения, но в основном норм.

kuzzdra Sep 25 2024 at 07:00

Скачайте facebook ;)

mopsicus Sep 25 2024 at 07:06

Я ж говорю есть исключения. Да и фейсбук скорее уже не сайт, а веб приложение.

unreal_undead2 Sep 25 2024 at 07:11

Так это сейчас типичный случай - на первой странице просто <script> и никаких явных ссылок.

adminNiochen Sep 25 2024 at 07:06

Скачаются минифицированные скрипты, рассчитанные на бэк и юрлы сайта. Что ты будешь делать с этим всем?

mopsicus Sep 25 2024 at 07:14

А этот скрипт ReplicateUI скачает всё в оригинальном виде?

Тут обсуждалось что нельзя скачать сайт который с js, не вебприложение, не абсолютно любой, а дефолтный сайт с помощь wget – но это сделать можно и в большинстве случаев на локалке потом его можно открыть и даже чем-то попользоваться.

Что ты будешь делать я не знаю, я ничего не собираюсь с этим делать) я предложил простое решение которое может подойди для многих сайтов. И в wget кстати сконвертит многие урлы для того чтобы можно было на локалке переходить по ссылкам.

sogarkov Sep 25 2024 at 07:09

А с inMemory состоянием, как производным предыдущих событий и запросов что будете делать. Максимум что получите, статику и css.

mopsicus Sep 25 2024 at 07:16

Ответил выше.

Надо окно открыть...

fojia Sep 25 2024 at 11:12

Какой смысл в скачивании условного facebook-a? С подавляющим числом сайтов wget отлично справится. Сайты которые состоят полностью из js скорее исключение если сравнивать со всей массой сайтов.

unreal_undead2 Sep 25 2024 at 11:45

Скажем, хочется скачать текущие предложения на mvideo.ru...

popov654 Sep 25 2024 at 14:09

А простое сохранение в хроме не сохраняет нормально такое?

unreal_undead2 Sep 26 2024 at 05:40

Сохраняет часть первой странички, да и то часть картинок - просто оставлены ссылки на оригинальный сайт. На рекурсию, как в wget, оно и не замахивается.

mopsicus Sep 25 2024 at 06:52

wget вроде хорошо работает:

wget -r -k -l 7 -p -E -nc http://site.com/

где 7 – глубина вложенности

KirillBelovTest Sep 25 2024 at 08:23

Пошел скачивать google.com

DrMagic Sep 25 2024 at 09:12

Ух, запускаю свой ВК, да стену туда верну!

aleksandr_el Sep 25 2024 at 10:11

Старый дизайн, плюс вся начинка по апи, плюс функционал старой же стены - куда все хотелки отправлять?)))))

usiqwerty Sep 25 2024 at 16:21

https://ovk.to/

vtal007 Sep 25 2024 at 14:01

если Вас не затруднит, верните, пожалуйста и 2007-й

mpa4b Sep 25 2024 at 09:41

Интересно, есть ли какой способ сохранять из браузера векторный контент, например с issuu.com ? Можно даже в svg и по одной странице за раз, но как -- непонятно.

litalen Sep 25 2024 at 10:53

Если нужно сохранить html-элемент svg, то всё довольно просто. На issuu как я вижу используется canvas, тут уже сложнее, но выглядит тоже решаемым (а greasemonkey думаю сможет помочь с хуком).

output4 Sep 25 2024 at 10:59

Погодите, я может чего не понимаю, а чем это отличается от стандартного браузерного "Save as"?

Gremlinquisitor Sep 25 2024 at 12:02

Save as сохраняет конкретную страницу, скрипт - всё дерево вроде как.

Lazytech Sep 26 2024 at 07:53

Увы, "Save as" не сохраняет ту часть страницы, которая рендерится на клиенте (Генерация содержимого на стороне клиента). А на современных сайтах сплошь и рядом React, Angular, Vue и иже с ними.

keireira Sep 25 2024 at 13:26

Зумеры придумали ~~WinHTTrack~~ ~~Teleport Pro~~ wget

Thomas_Hanniball Sep 25 2024 at 19:31

Ну теперь то у меня точно появится свой собственный google.com с шахматами и поэтессами. Как тебе такое Сергей Брин? /sarcasm

Draku1a Oct 2 2024 at 06:36

И кому это упрощает жизнь? Создателям фишинговых клонов сайтов для кражи паролей?..