Кодировки must die / Habr

йНДХПНБЙХ ОПЕДЯРЮБКЧР ЯНАНИ НДМН ХГ МЮХЛЕПГЕИЬХУ НПСФХИ АНПЭАШ Я ПСМЕРНЛ.

«KOI8», — подумал Штирлиц.

Как подсказал Яндекс, в самом полном словаре иероглифов корейского языка, подготовленном около тысячи лет назад, было учтено около 53 тысяч знаков. Тяжело им, наверно, корейцам. В русском же языке другая проблема: всего 33 буквы, но зато кодировок… кто-то их считал? Я нет. В опере 4, файерфокс предлагает на выбор 7.

Не буду вдаваться в историю вопроса и копать, какой катаклизм породил какую из русских кодировок, скажу лишь только основной вывод, который я сделал для себя из этого безобразия: национальные кодировки — это зло. Рудимент, который Интернету (а в данном случае именно с большой буквы) следует отбросить за ненадобностью. Так и хочется ляпнуть «Да здравствует Великое Перекодирование Интернета в UTF-8!» :-)

Где же искать корень зла? Взглянем на протокол HTTP. Итак, что мы видим? Заголовки, строка запроса GET и данные POST кодируются в формате «url-encoded», который, в свою очередь, базируется на символах US-ASCII.

Легко представить, насколько приятнее было бы видеть адреса страниц вида habrahabr.ru/blog/Хабраблог, закодированные в UTF-8.