m00t Sep 3 2011 at 13:50

Определение кодировки текста в PHP, часть 2 — биграммы

3 min

8.2K

PHP*

+60

Comments 30

Aquilae Sep 3 2011 at 14:32

Давно искал подобное для реализация парсинга входных данных в вебе. Спасибо большое!

nikita2206 Sep 3 2011 at 18:04

Изиняюсь, а что значит входные данные в вебе?

m00t Sep 3 2011 at 18:10

Наверное имелись ввиду сграбленные веб-страницы, из которых потом нужно полезный контент как-то выдрать

nikita2206 Sep 3 2011 at 18:11

Ага, ну я думаю тут все-таки Content-type поприоритетней будет

Aquilae Sep 3 2011 at 23:23

Увы, некоторые недобраузеры игнорируют Content-Type при определенных условиях.

alekciy Oct 27 2011 at 08:40

При каких? Мои опыты показывают, что не игнорируют таки.

Aquilae Oct 27 2011 at 09:57

Ну и вопросец… сейчас не вспомню — год уже прошел.
Ваши опыты немного не в той степи — глюки с кодировками возникают в передаваемых браузером POST- и GET-данных, а не в выводе страницы с заданной кодировкой.

alekciy Oct 27 2011 at 18:30

Да нет, он именно о том. Могу авторитетно заявить. Опыт именно про Content-Type и я пока еще не встречал ни одного браузера который бы этот заголовок игнорировал. Если конечно заголовок сформирован корректно (привет IE и utf8 vs utf-8).

Aquilae Sep 3 2011 at 18:57

Нет, все проще — GET/POST/Cookies. Там иногда белиберда приходит вместо UTF-8, не будем уточнять от кого.

zibada Sep 4 2011 at 07:43

у этого «от кого» обычно два варианта — utf-8 и 1251, различить их и исправить неправильный вариант несложно — редкий осмысленный текст в 1251 случайно окажется валидным utf-8.

Aquilae Sep 4 2011 at 16:15

А если вы находитесь в Индии, к примеру?

Priest Sep 3 2011 at 15:24

Одобрямс, а давай так каждую вторую субботу по статейке и корпоративный блог будет =)

datacompboy Sep 3 2011 at 15:30

А ничего, что вероятность «яЯ» нужно считать нулевой?! :)
По-хорошему, частоты регистров надо смотреть фактические, как и были.
Единственное, что «оба капсом» допустимы частоты, а разномиксовые — надо смотреть только на началах слов.

symbix Sep 3 2011 at 15:47

Кстати, да. Что-то местами по частотам больше похоже на дамп базы лирушечки, чем на «Войну и мир» :)

m00t Sep 3 2011 at 16:00

Может быть лучше вообще убрать из дампа Аа и аА, а оставить только маленькими и капсом? Сразу так не скажешь, но вполне возможно, что вы и правы. Просто я когда это писал, руководствовался тем, что нам вообще какбы неважен регистр, поэтому и вставил все вариации. Ну И МоЖНо ПРиДумАть ПрИМер, когда анализатор, как мне кажется, обломается, если убрать варианты аА.

Doktor_Gradus Sep 3 2011 at 20:00

Что тут думать? «сказалаАня».

kibizoidus Sep 3 2011 at 15:56

Прошу прощения, но может изпользование mb_detect_encoding() все-таки лучше? Или был чисто профессиональный интерес реализовать алгоритм?

m00t Sep 3 2011 at 16:02

В прошлой статье (ссылка вверху этой) писал об этом. К сожалению, использовать mb_detect_encoding() не получится в этих целях — она не работает )

Assargin Sep 3 2011 at 21:20

Мне как-то раз надо было определить кодировку текста сграбленных страниц в вебе, тоже на PHP. Все, что я в инете находил на эту тему — было какое-то босяцкое, с множеством условий каких-то и ограничений. Самое дельное, что я находил, было для питона, сейчас уж не вспомню, что это было…
Я че-то голову сломал, и начал думать, ну почему нету какой-нибудь нормальной библиотеки/модуля, как в браузерах, они ж хорошо определяют кодировку… И тут в буквальном смысле над моей, уже наверно дымящейся, головой, загорелась лампочка озарения :)
Я, одухотворенный, пошел и скачал исходники фокса, выдернул оттуда модуль определения кодировок, написал строк в 15-20 main.cpp и скомпилировал это все в исполняемый файл linux) Работает супер)

m00t Sep 4 2011 at 07:26

Поделитесь принципом работы этого модуля в Фаерфоксе в двух словах

toxa Sep 3 2011 at 21:51

freshmeat.net/projects/enca/ вам в помощь :-)

VladX Sep 4 2011 at 07:35

А каким алгоритмом PCRE распознаёт кодировку UTF-8? Т.е. меня интересует эта строчка

preg_match('#.#u', $str_utf8);

Что происходит внутри этого вызова? Проверяются начальные биты в каждом байте?

m00t Sep 4 2011 at 07:43

Судя по всему проверяются начальный байт в каждой паре байтов. И если нашли хоть один UTF8-символ — возвращаем TRUE. Ну это как мне кажется.

VladX Sep 4 2011 at 11:44

Ну да, это самый очевидный способ. А почему в паре? В utf8 символ может состоять из 1-4 байт.

m00t Sep 4 2011 at 12:51

Насколько я знаю, те символы, что из 1 байта никак не отличаются от обычной ASCII.

VladX Sep 4 2011 at 13:21

Если пара = «больше одного», то да, верно) <зануда mode on>Только зачем пары находить? Не проще ли просто проверять каждый байт до тех пор, пока не найдёшь нужные биты в начале?

m00t Sep 4 2011 at 14:50

Да я примерно сказал. Чего вы занудничаете) Кто ж его знает, во что скомпилится в конечном счете регулярка '#.#u'

linker Dec 19 2013 at 20:58

Обернул в класс и добавил вашу же проверку на utf-8, форк вашего кода — github.com/cnpait/detect_encoding

m00t Dec 20 2013 at 08:16

Супер! Может сразу тогда уже и к composer прикрутить его?

linker Dec 20 2013 at 23:05

Готово :)