Комментарии / Профиль volody00 / Хабр

@volody00

Пользователь

ПрофильСтатьи1ПостыНовостиКомментарии5

Парсинг сайтов на Python: изучаем BeautifulSoup

volody00 20 янв в 15:12

спасибо за развернутый ответ. я изучу этот вопрос глубже.

Парсинг сайтов на Python: изучаем BeautifulSoup

volody00 20 янв в 15:09

Это хорошая идея, вот только админы тут такое не одобряют. Не пересчитать, сколько статей уже было удалено и по парсингу упомянутого вами озона, и по парсингу авито, по парсингу ютуба и это только то, что я заметил лично (т.е. статьи не мои). Это во-первых.

Во-вторых, вы ведь не ждете парсинг с помощью Selenium, не так ли? Это не ваш уровень, это каждый школьник знает. И плевать, что даже в компаниях им активно пользуются (см. видео Максима Кульгина). Тогда чего вы ждете? Реверс JS скриптов? И много людей осилят эту статью (среди тех, кто интересуется парсингом)? Или мне начинать опять с алфавита "изучаем JS с нуля".

P.S. Ладно, сообщение получилось чуть эмоциональным, прошу простить, надеюсь сильно не задел. В целом я с вами согласен, спасибо за приведенные сайты, я их поизучаю. Было бы неплохо также скинуть и "сложный" уровень.

Парсинг сайтов на Python: изучаем BeautifulSoup

volody00 20 янв в 04:56

для того, чтобы можно было скопировать кусок кода в редактор и сразу запустить. например, если вы возвращаетесь к статье спустя время, дабы заново не искать импорты. А так соглашусь, что можно было и опустить это. Не думал, что это для некоторых это проблема (здесь должен быть смайл "рука лицо")

Парсинг сайтов на Python: изучаем BeautifulSoup

volody00 20 янв в 04:54

чем selectolax лучше, не пойму? Вы можете дать конкретные кейсы, где soup не справился ,а selectolax справился, без абстрактного "он быстрее и типа лучше справляется с грязным html"?

Парсинг сайтов на Python: изучаем BeautifulSoup

volody00 18 янв в 21:38

вы написали "с помощью расширений хром". Можете описать чуть подробнее (возможно я не знаком с этим) или кинуть название расширения? Ведь чтобы скачать сайт, вам всё равно придется посетить все страницы. И если это делать обычным браузером, то всё равно будут вылезать капчи.