dfuse Dec 1 2008 at 13:46

PHP, PREG и UTF-8

6 min

16K

В этом посте речь пойдет о работе РНР5 с multibyte строками посредством preg_*() функций.

Заметил интересное положение дел, вобщем-то давным давно описанное в интернете, но актуальное и по сей день (вопрос всплыл всвязи с недавним постом про trim()).

Для примера приведу небольшой скрипт:

<? print "Локаль: " . setLocale(LC_ALL, 0) . "\n"; /** * Выводит результаты функции preg_match_all * @param string $comment Комментарий * @param string $pattern Паттерн для preg_match_all * @param bool $usePatch Использовать ли патч * @return void */ function preg_test($comment, $pattern, $usePatch = false) { $test = "one два два three"; print "\n{$comment}: {$pattern}\n"; if ($usePatch) mb_preg_match_all($pattern, $test, $matches, PREG_OFFSET_CAPTURE); else preg_match_all($pattern, $test, $matches, PREG_OFFSET_CAPTURE); foreach ($matches[0] as $v) print " Подстрока: «{$v[0]}», смещение: {$v[1]}\n"; } /** * Патч для устранения проблемы с оффсетами, осуществляет только их пересчет */ function mb_preg_match_all( $ps_pattern, $ps_subject, &$pa_matches, $pn_flags = PREG_PATTERN_ORDER, $pn_offset = 0, $ps_encoding = NULL ) { // WARNING! - All this function does is to correct offsets, nothing else: //(code is independent of PREG_PATTER_ORDER / PREG_SET_ORDER) if (is_null($ps_encoding)) $ps_encoding = mb_internal_encoding(); $pn_offset = strlen(mb_substr($ps_subject, 0, $pn_offset, $ps_encoding)); $ret = preg_match_all($ps_pattern, $ps_subject, $pa_matches, $pn_flags, $pn_offset); if ($ret && ($pn_flags & PREG_OFFSET_CAPTURE)) foreach($pa_matches as &$ha_match) foreach($ha_match as &$ha_match) $ha_match[1] = mb_strlen(substr($ps_subject, 0, $ha_match[1]), $ps_encoding); return $ret; } preg_test("«В лоб»", "/[\w]+/i"); preg_test("Character range", "/[а-яa-z]+/i"); preg_test("«В лоб» с ключем «/u»", "/[\w]+/ui"); preg_test("Character range с ключем «/u»", "/[а-яa-z]+/ui"); preg_test("Модификатор «\pL», можно даже без «/u»", "/[\pL]+/i"); preg_test("Модификатор «\p{Cyrillic}», можно тоже без «/u»", "/[\p{Cyrillic}]+/i"); preg_test("(!) Модификатор «\pL» с патчем", "/[\pL]+/i", true); $source = highlight_file(__FILE__, true); ?>

Рабочий пример лежит по адресу http://test.dis.dj/utf/.

Какие выводы следует сделать из увиденного:

Смещение относительно начала строки считается всегда в байтах:
3 байта «one» +
1 байт пробел +
3×2 байта «два» +
1 байт пробел +
3×2 байта «два» +
1 байт пробел =
18 байт,
а должно быть
3 + 1 + 3 + 1 + 3 + 1 = 12 символов.
Правильно распознает кириллицу только «Character range» с ключем «/u» и модификатор «\pL», означающий «Unicode letter»
Модификатор «\w» с кириллицей не работает вообще, даже ключ «/u» не помогает
На сервере под управлением Windows Server 2008 по неизвестной мне причине отработала самая первая конструкция, а с ключем «/u» уже нет :)

Полезные ссылки:

Ветка форума Codenet.
Подробнее про движок PCRE и про модификаторы можно прочитать в официальной документации.
В другой ветке на ixbt было неплохо написано про «/u».
В комментариях к preg_match_all есть функция mb_preg_match_all, которая конвертирует отступы в правильные (она как раз и используется в данном посте).

Ну чтож, ждем PHP6, где обещается нормальная поддержка строк в UTF, включая BOM, который завалит наш сценарий, выведя 3 байта перед header(). Собственно в РНР6 вообще будет много бонусов…

P.S. Пост ни в коем случае не претендует на «открытие Америки» — я лишь собрал известную мне инфу.

UPD. В процессе обсуждения пришли к следующей замене «\w»: либо рекомендованный конгломерат «(?:\p{L}|\p{M}|\p{D}|\p{Pc})», либо «[\p{L}\p{Nd}]» (если хочется покороче). Спасибо khim.

Hubs: