Потратив уйму времени на борьбу с правильным парсингом html документа (а именно DomDocument::loadHTML) в кодировке cp1251, хочу дополнить хороший пост о кодировке, парсинге и meta-тэге
ненадёжный вариант — мета-тэг идёт после тэга title
ненадёжный вариант — мета-тэг идёт после тэга title
<html>
<head>
<title>заголовок</title>
<meta http-equiv="Content-type" content="text/html; charset=window-1251">
</head>
<body>
<div>текст</div>
</body>
</html>
* This source code was highlighted with Source Code Highlighter.
более надёжный вариант — мета-тэг идёт перед тэгом title, DomDocument правильно определяет кодировку
<html>
<head>
<meta http-equiv="Content-type" content="text/html; charset=window-1251">
<title>заголовок</title>
</head>
<body>
<div>текст</div>
</body>
</html>
* This source code was highlighted with Source Code Highlighter.
надеюсь кому-то сэкономит время эта неявная особенность