Metimol Jun 6 2022 at 09:28

Скачивание любого сайта с помощью Python себе на компьютер

3 min

20K

Python *

Tutorial

Comments 11

Voldemarius Jun 6 2022 at 09:46

Обычным wget также можно скачать сайт....

iig Jun 6 2022 at 09:48

Обычным wget также можно скачать сайт....

Даже youtube?

LiauchukIvan Jun 8 2022 at 17:36

Даже google

igand Jun 6 2022 at 09:49

Что-то параметров маловато. Например, в HTTrack, Teleport и т.п. можно указывать маску файлов для скачивания, глубину перехода по ссылкам и кучу всего ещё.

romaJMG Jun 6 2022 at 10:17

Наверное это и не позиционируется как замена софту и может быть использовано в консоли, в отличие от ГУИшного софта. В каких то случаях может пригодится, вероятно.

berez Jun 6 2022 at 10:21

save_website() — позволяет копировать сайт целиком

Да-да, но только если сайт статический и не блокирует массовое скачивание. А вот если у него контент динамически в браузере формируется всякими jquery — тады ой.

MAXH0 Jun 6 2022 at 11:19

Интересно, а ЯндексДзен скачать получится? С комментариями...
И можно ли задавать только определенного пользователя?

Metimol Jun 6 2022 at 11:56

В большинстве случаев для доступа к определенной странице требуется аутентификация. Это легко сделать, потому что pywebcopy использует requests.Session объект для базовой http-активности, доступ к которому можно получить через WebPage.session атрибут. И, как вы знаете, существует множество руководств по настройке аутентификации с помощью requests.Session.

Вот пример заполнения форм:

from pywebcopy.configs import get_config

config = get_config('http://httpbin.org/')
wp = config.create_page()
wp.get(config['project_url'])
form = wp.get_forms()[0]
form.inputs['email'].value = 'bar' # etc
form.inputs['password'].value = 'baz' # etc
wp.submit_form(form)
wp.get_links()

MAXH0 Jun 6 2022 at 15:26

Спасибо. В общем - надо попробовать в деле.

DX28 Jun 12 2022 at 16:39

Внутри стандартный request, то есть только текст получится в архиве, никакого вам js и тп.

MDiMaI666 Jun 13 2022 at 00:56

wget -rkpNc -e robots=off http://example.com