sancheus14 сен 2011 в 07:03

LXML — проблемы с кодировкой при парсинге HTML

2 мин

15K

Веб-разработка *

Из песочницы

Комментарии 9

niksite 14 сен 2011 в 10:38

Да, приходится свежеполученные данные принудительно превращать в unicode, нередко при этом пользуясь тормозным chardet. Увы, пока лучше вариантов не нашел.

qrick 14 сен 2011 в 12:01

Вам просили передать, что по RFC 2616 (HTTP 1.1) кодировка контента по умолчанию — ISO8859-1 a.k.a. Latin1. Так что библиотечка всё делает правильно, и питон всё делает правильно, а виноваты вебмастеры, не объявляющие кодировку своих страниц. И частично писатели стандарта, выбравшие «плохую» кодировку.

itforge 14 сен 2011 в 15:51

Или вы Александр Кошелев или я ничего не понимаю.
Вот та же самая статья, датированная аж 2009 годом: webnewage.org/2009/11/04/be-ware-lxml-html/

guyfawkes 14 сен 2011 в 16:54

seriyPS 14 сен 2011 в 17:45

во-во… То же самое хотел написать. Копипейст, да еще и старинный. Хотя мне в свое время эта статья помогла!

А вообще я уже сто лет вот так пишу:

etree.HTML(body, parser=etree.HTMLParser(encoding='utf-8')

itforge 15 сен 2011 в 03:43

А я grab юзаю, он сам определяет кодировку по Content-Type из мета-тэга или из http-заголовка. Ну и utf-8, если ничего не нашлось.

seriyPS 15 сен 2011 в 09:16

lxml насколько помню тоже в meta — теги смотрит. Но не уверен. Предпочитаю всегда сам указывать.

Utter_step 14 сен 2011 в 20:20

Ждём комментарий автора.

daevaorn 10 окт 2011 в 21:06

Нет, это не я. Это наглое воровство:-(

Зарегистрируйтесь на Хабре, чтобы оставить комментарий