Pull to refresh

Comments 4

Было бы неплохо написать, чем 2-е издание отличается от первого.
В части I основное внимание уделено механике веб-скрапинга: как с помощью Python запрашивать информацию с веб-сервера, производить базовую обработку серверного отклика и организовать автоматизированное взаимодействие с сайтами.

Ну, этой информации как бы достаточно в Сети, зачем тогда нужна книга?

В части II исследованы более специфичные инструменты и приложения, которые пригодятся при любом сценарии веб-скрапинга.
— Разбирайте сложные HTML-страницы.

Да, это интересно, но что конкретно имеется в виду?

— Разрабатывайте поисковые роботы с помощью фреймворка Scrapy.

Зачем мне поисковый робот? Сайт уже найден, нужно только одноразовое извлечение данных.

— Изучайте методы хранения данных, полученных с помощью скрапинга.

Вы это серьезно? Человек, который смог извлечь сложные иерархические данные с html-страницы, с плавающей структурой, не знает, как ему сохранять полученные данные?

— Считывайте и извлекайте данные из документов.

Зачем повторяться?

— Очищайте и нормализуйте плохо отформатированные данные.

Если вы уже смогли их извлечь, то, думаю, хватить ума, самостоятельно довести их до кондиции.

— Читайте и пишите информацию на естественных языках.

А это, вообще, о чем?

— Освойте поиск по формам и логинам.

Опять поиск! Интересно извлекать данные сложной структуры с элементами неопределенности (поскольку никто вам спецификацию формата серверных данных давать не намерен) из конкретных html-страниц. Для поиска есть Гугл и иже с ним.

— Изучите скрапинг JavaScript и работу с API.

А почему книга называется: «Современный скрапинг веб-сайтов с помощью Python»?

— Используйте и пишите программы для преобразования изображений в текст.

А что тема извлечения сложных данных из статических html-страниц уже закрыта? Зачем сразу перескакивать на другую неисчерпаемую тему «компьютерного зрения»?

— Учитесь обходить скрапинговые ловушки и блокаторы ботов.

Типа, это главная проблема? Важнее это вычисление динамической структуры данных и собственно само извлечение данных полученной структуры.

— Протестируйте собственный сайт с помощью скрапинга.

Думаю, это уже лишнее для рассматриваемой темы. Или вы еще рассматриваете вопрос защиты своих данных от скрапинга? Как в рекламе, три в одном.

Опыт показывает, что для извлечения конкретных данных вполне удобны инструменты Питона lxml / etree / xpath (примеры использования можно найти в Интернете). Однако для получения всех, слабо структурированных, данных нужно повозиться. Скажем, нас интересует база данных какого-нибудь онлайнового словаря, у которого, как мы знаем, может быть достаточно сложная и неоднозначная структура.

В этом случае, проще скачать сайт целиком, а потом уже разбираться со страницами. При этом сторонние средства мало помогают, опять же, в силу не всегда очевидной структуры данных. Вот и приходится сначала определять нужную структуру, и потом уже в соответствии с ней извлекать данные. А для хранения удобен формат *.json и ему подобные.

Ничего подобного я, в этой книге, скорее всего, не найду, судя по писанию…
Ну, этой информации как бы достаточно в Сети, зачем тогда нужна книга?
Какая угодно информация есть в Сети, по такой логике вообще никакие книги не нужны.
Книга это, прежде всего, опыт автора. Его взгляд на тот или другой инструмент, api. Возможно, кому-то достаточно и справочника на сайте, но в целом, по книгам информация усваивается лучше. По крайней мере, у меня так.
Какая угодно информация есть в Сети, по такой логике вообще никакие книги не нужны.
Книга это, прежде всего, опыт автора. Его взгляд на тот или другой инструмент, api. Возможно, кому-то достаточно и справочника на сайте, но в целом, по книгам информация усваивается лучше. По крайней мере, у меня так.

Книги нужны, только хороших книг мало. Даже приобретенные книги не всегда читаются до конца. Избыток информации, как бы. Поэтому читатель привередливый. Хотя, говорят, любая, даже самая плохая книга, всегда найдет своего читателя. Поэтому, в любом случае, автору унывать не нужно, тем более, что «критики бояться, в Интернет не ходить!» :)
Sign up to leave a comment.