Как стать автором
Обновить

Кодировки must die

Время на прочтение 1 мин
Количество просмотров 1.4K
Чулан
йНДХПНБЙХ ОПЕДЯРЮБКЧР ЯНАНИ НДМН ХГ МЮХЛЕПГЕИЬХУ НПСФХИ АНПЭАШ Я ПСМЕРНЛ.

«KOI8», — подумал Штирлиц.

Как подсказал Яндекс, в самом полном словаре иероглифов корейского языка, подготовленном около тысячи лет назад, было учтено около 53 тысяч знаков. Тяжело им, наверно, корейцам. В русском же языке другая проблема: всего 33 буквы, но зато кодировок… кто-то их считал? Я нет. В опере 4, файерфокс предлагает на выбор 7.

Не буду вдаваться в историю вопроса и копать, какой катаклизм породил какую из русских кодировок, скажу лишь только основной вывод, который я сделал для себя из этого безобразия: национальные кодировки — это зло. Рудимент, который Интернету (а в данном случае именно с большой буквы) следует отбросить за ненадобностью. Так и хочется ляпнуть «Да здравствует Великое Перекодирование Интернета в UTF-8!» :-)

Где же искать корень зла? Взглянем на протокол HTTP. Итак, что мы видим? Заголовки, строка запроса GET и данные POST кодируются в формате «url-encoded», который, в свою очередь, базируется на символах US-ASCII.

Легко представить, насколько приятнее было бы видеть адреса страниц вида habrahabr.ru/blog/Хабраблог, закодированные в UTF-8.
Теги:
Хабы:
Всего голосов 27: ↑22 и ↓5 +17
Комментарии 123
Комментарии Комментарии 123

Публикации

Истории