dchizhikov Jan 23 2022 at 12:31

Как получить контент веб-страницы, если по ссылке с именем хоста не получилось

6 min

14K

JavaScript * PHP * Content-marketing *

From sandbox

-19

Comments 32

TheRikipm Jan 23 2022 at 12:41

Но для решения задач по парсингу одной-двух ссылок, а не многопоточного скачивания всего сайта это не подходило.

А зачем скачивать весь сайт если можно скачать только контент этих одной-двух ссылок?

В вашем случае самым "правильным" решением будет как раз селениум с безголовым браузером. По крайней мере домофонду защититься от него будет куда сложнее чем от вашего итогового решения.

dchizhikov Jan 23 2022 at 13:44

Не хотелось лишнего ПО.

amarao Jan 23 2022 at 20:26

Так что вы написали ещё ПО. Л - логика.

dchizhikov Jan 24 2022 at 06:30

Скрипт уже был и прекрасно работает.

Потребовалось лишь минимально модернизировать.

amarao Jan 24 2022 at 11:29

Но вы же не хотели лишнего ПО, но вместо этого написали ещё ПО!

dchizhikov Jan 24 2022 at 11:34

Скрипт не лишнее ПО, а работающий под задачу функционал.

amarao Jan 24 2022 at 13:08

А всё остальное ПО, которое решало поставленную задачу классом лучше, лишнее?

Поздравляю, у вас NIH-синдром. Гуглябельно.

dchizhikov Jan 24 2022 at 13:27

Микроскопом тоже можно гвозди заколачивать)))

amarao Jan 24 2022 at 15:04

Да. Но вместо этого это изобретаете микроскоп из трубочки для туалетной бумаги и двух полиэтиленовых пакетиков с водой.

А потом всё равно им забиваете гвозди.

dchizhikov Jan 24 2022 at 15:15

я-то как раз с молотком просто, юморист))

amarao Jan 24 2022 at 15:26

Нет, вы не с инструментом пришли, а со средством разработки, и написали ещё одно ПО. Лишнее.

dchizhikov Jan 24 2022 at 15:42

Нет - см. выше))

UFO landed and left these words here

dchizhikov Jan 23 2022 at 13:45

Не хотелось лишнего ПО.

В роботс.тхт действительно стоит много запретов для ботов, но не на новостные статьи.

По имени и по айпи хоста - отдается одинаковый контент.

UFO landed and left these words here

dchizhikov Jan 23 2022 at 14:00

Например, какие проблемы? С другими сайтами проблем по сбору нет.

Хотел дополнить в статье, но напишу в комменте, что с авито - примерно та же ситуация возникла. Решено этим же подходом - успешно.

UFO landed and left these words here

dchizhikov Jan 23 2022 at 15:00

Можете скрин ответа привести - что именно отдает, какой контент?

UFO landed and left these words here

dchizhikov Jan 23 2022 at 15:42

какая-то защита там есть по-любому - видимо, от парсинга предложений о жилье. проверю тогда сам в постмане, спасибо.

dchizhikov Jan 24 2022 at 11:41

постман гетом по ссылке отдает контент - вообще без каких-либо заголовков.

koreychenko Jan 23 2022 at 13:30

Дичь лютейшую прочитал сейчас я.
Коллега, для ваших целей замечательно зайдёт вот такая штука:
https://splash.readthedocs.io/en/stable/
Он очень просто ставится. У него даже docker image готовый есть.
А дальше вы делаете к нему http запрос хоть тем же курлом с указанием урла сайта, который нужно спарсить - и он возвращает вам html.
Более того, можно писать свои скрипты парсинга на Lua, если нужно парсить по какому-то сценарию. Например, если сайты с AJAX подгрузкой контента, постраничником и т.п.
Из минусов:
- разработчики на него немного подзабили, походу
- падает на сложных Angular приложениях

dchizhikov Jan 23 2022 at 13:45

Не хотелось лишнего ПО.

cry_san Jan 24 2022 at 00:23

Только ради этого комментария стоило зайти на эту статью.

Спасибо!

zzzzzzzzzzzz Jan 23 2022 at 13:44

В решении дополнил скрипт методом gethostbyname, чтобы получать IPv4-адрес, соответствующий переданному имени хоста.

Плохая идея, т.к., начиная с HTTP/1.1, на одном IP может висеть несколько сайтов. Соответственно, скачиваться будет что-нибудь не то.

dchizhikov Jan 23 2022 at 14:06

В этом случае (домофонд, авито) было как раз наоборот (изначально использовал gethostbynamel - для списка айпи). Думаю, что для крупных сайтов так и будет.

Но спасибо за коммент.

satoo Jan 23 2022 at 22:30

?‍♂️ как одним комментом показать непонимание работы http (а также того, что помогает ему: балансировщиков, проксей, cdn и пр)

dchizhikov Jan 24 2022 at 06:36

Стояла задача работоспособности скрипта для 1 сайта с защитой - она решена.

О чем вкратце рассказано в статье.

NickyX3 Jan 24 2022 at 07:39

Я тут намедни столкнулся с дригой забавной ситуацией.

cURL из под PHP на двух "одинаковых" версиях PHP на разных машинах при запросе одного и того же урла выдавал на одной машине заголовки как есть, а на другой в нижнем регистре. Так и не понял почему, тупо добавил в regexp case independed.

UFO landed and left these words here

NickyX3 Jan 25 2022 at 07:54

а зачем вебсерверу отдавать заголовки то в нормальном виде, то в нижнем регистре?
Тем более страница одна и таже, и по факту оно проявлялось именно на разных машинах, которые делают запрос. Я подозреваю, что "проблема" в версии cURL extension/OpenSSL. Ибо хоть версия php7.4 и там и там одна, но одна тачка Debian 10, другая Debian 11

apirk Jan 25 2022 at 06:10

О чём статья вообще? За 5 минут накидал скрипт, никакой защиты на веб-сервере нет.

$wc = New-Object system.Net.WebClient;
($wc.downloadString("https://www.domofond.ru/statya/kolichestvo_dolgostroev_uvelichilos_v_vosemnadtsati_regionah_rf_za_2021_god/102082") -split '\r?\n')[60].Replace('</script>','').Replace('                <script>window.__INITIAL_DATA__ = ', '') | ConvertFrom-Json

На выходе готовый JSON, дёргайте оттуда любые данные. В чём проблема-то? )