Поскольку большинство книг я читаю с наладонника, книги для чтения нужно где-то брать. Как правило, интересующие меня книги я нахожу в сетевых библиотеках в текстовом формате (txt, html, fb2). Вместе с тем, бывают случаи, когда хочется прочитать книгу, которая выложена на сайте, где скачивание в принципе не предусмотрено, да ещё и разделена на несколько html-страниц (как
эта, например). В таком случае можно сохранить каждую html страницу вручную, но такой способ имеет два важных недостатка. Во-первых, если книга разделена на 15-20 страниц, сохранение вручную займёт много времени и будет раздражать. Во-вторых, вместе с текстом книги мы получим кучу всякого мусора — текст, не относящийся к книге, таблицы, скрипты, ссылки на другие сайты и прочую муть.
Чтобы упростить себе жизнь, мы напишем программу, которая скачает книгу для нас. Из сказанного выше следует, что нам нужна программа, которая: а) скачает в нужном порядке все страницы, по которым разбросана книга; б) с каждой страницы возьмёт только тест и ничего лишнего и в) сохранит весь текст книги в одном html-файле.
В качестве примера мы возьмём книгу Владимира Плунгяна
«Почему языки такие разные. Популярная лингвистика». Я нашёл только одну сетевую бибилотеку, где её можно скачать в текстовом формате, да и там требуется регистрация, поэтому мы скачаем её по указанной ссылке с помощью программы, о которой речь пойдёт дальше. Для написания программы мы используем язык программирования Python. Я использовал Python версии 2.6. Эту или более новую версию можно скачать бесплатно
на официальном сайте.