Metimol6 июн 2022 в 09:28

Скачивание любого сайта с помощью Python себе на компьютер

3 мин

23K

Python *

Туториал

Комментарии 11

Voldemarius 6 июн 2022 в 09:46

Обычным wget также можно скачать сайт....

iig 6 июн 2022 в 09:48

Обычным wget также можно скачать сайт....

Даже youtube?

LiauchukIvan 8 июн 2022 в 17:36

Даже google

igand 6 июн 2022 в 09:49

Что-то параметров маловато. Например, в HTTrack, Teleport и т.п. можно указывать маску файлов для скачивания, глубину перехода по ссылкам и кучу всего ещё.

romaJMG 6 июн 2022 в 10:17

Наверное это и не позиционируется как замена софту и может быть использовано в консоли, в отличие от ГУИшного софта. В каких то случаях может пригодится, вероятно.

berez 6 июн 2022 в 10:21

save_website() — позволяет копировать сайт целиком

Да-да, но только если сайт статический и не блокирует массовое скачивание. А вот если у него контент динамически в браузере формируется всякими jquery — тады ой.

MAXH0 6 июн 2022 в 11:19

Интересно, а ЯндексДзен скачать получится? С комментариями...
И можно ли задавать только определенного пользователя?

Metimol 6 июн 2022 в 11:56

В большинстве случаев для доступа к определенной странице требуется аутентификация. Это легко сделать, потому что pywebcopy использует requests.Session объект для базовой http-активности, доступ к которому можно получить через WebPage.session атрибут. И, как вы знаете, существует множество руководств по настройке аутентификации с помощью requests.Session.

Вот пример заполнения форм:

from pywebcopy.configs import get_config

config = get_config('http://httpbin.org/')
wp = config.create_page()
wp.get(config['project_url'])
form = wp.get_forms()[0]
form.inputs['email'].value = 'bar' # etc
form.inputs['password'].value = 'baz' # etc
wp.submit_form(form)
wp.get_links()

MAXH0 6 июн 2022 в 15:26

Спасибо. В общем - надо попробовать в деле.

DX28 12 июн 2022 в 16:39

Внутри стандартный request, то есть только текст получится в архиве, никакого вам js и тп.

MDiMaI666 13 июн 2022 в 00:56

wget -rkpNc -e robots=off http://example.com

Зарегистрируйтесь на Хабре, чтобы оставить комментарий