Pull to refresh
  • by relevance
  • by date
  • by rating

Вышла 14 версия Unicode

Graphic design *IT-companies

Консорциум Unicode утвердил 14 ревизию списка эмодзи, сообщает сайт организации. В новой версии набора добавится 37 символов с 75 дополнительными цветовыми решениями эмодзи. Всего Unicode 14.0 представил 838 изменений разного характера. 

Среди новых эмодзи Unicode презентовал тролля, прикушенную губу, диско-шар, жест сердца из сложенных пальцев, пользующийся популярностью среди фандома K-Pop, воинское приветствие и расплавленное лицо. 

Эмодзи беременного мужчины, появление которого в Unicode анонсировали прошедшим летом во Всемирный день смайликов и который поднял много споров в соцсетях, также увидел свет в новом релизе.

Читать далее
Total votes 14: ↑13 and ↓1 +12
Views 2.6K
Comments 16

Поддержка Unicode давно назрела

Habr
Становится всё утомительнее набирать конструкции типа:
  • Müller чтобы получить Müller
    Gómez чтобы получить Gómez
    日本 чтобы получить 日本
    Glāžšķūnis чтобы получить Glāžšķūnis (милая моему сердцу деревушка недалеко от Риги)

    …и даже в своё собственное имя вставлять амперсанды и октоторпы (о, троеточие удалось не кодировать)

    Понятно, что большая часть текста на сайте использует только русскую кириллицу, но например, при переводах
Читать дальше →
Total votes 38: ↑37 and ↓1 +36
Views 652
Comments 36

Всяких значков можно затолкнуть в юникод…

Lumber room
Вам этот знак что-нибудь напоминает, если вы его видите? ;) (Если вы видите знак вопроса, то вы не видите то, что надо.)

Подумалось, что все микрографические элементы интерфейса могли бы быть текстовыми, если поискать по-хорошему, и все бы имели более-менее богатые стандартные шрифты. И тогда всё можно было бы набрать с -ы.

При наборе этого сообщения не пострадал ни один байт, и не было использовано ни одного тэга IMG.
Total votes 15: ↑14 and ↓1 +13
Views 293
Comments 12

Даёшь UTF-8!

Habr
Мне кажется, что использование CP1251 для сайта — это прошлый век. Очень бы хотелось UTF-8, чтобы можно было беспроблемно пользоваться всеми возможностями юникода.
Total votes 47: ↑40 and ↓7 +33
Views 1K
Comments 69

Шпаргалка по переходу на UTF-8

Lumber room
Узелок по UTF-8: есть сайт в кодировке X, нужно перевести в UTF-8
Излогаю краткий список того, что нада переводить в UTF-8, чтоб сайт работал корректно.
  1. База MySQL в часности
  2. Инсталляция mbstring
  3. Конфигурация mbstring
  4. Дело с небезопасными мультибайтовыми функциями в PHP
  5. htmlentities() для мультибайтных строк
  6. Проверка content-type хэдэров
  7. Проверте бинарные файлы и строки

Читать дальше →
Rating 0
Views 1.2K
Comments 0

Unicode наконец-то обогнал ASCII

Website development *
Согласно статистике от Google, Unicode опередил ASCII и теперь стал самой популярной системой кодирования символов в интернете. Как видно на графике, за последние два года число сайтов на UTF-8 резко выросло, так что в течение всего десяти дней в декабре Unicode опередил сразу двух прежних лидеров: ASCII и западноевропейскую кодировку 8859-1/1252 (это та же ASCII с добавлением нескольких символов).

Специалисты Google отмечают, что это вполне закономерный процесс, хотя, по их словам, вызывает удивление та ошеломляющая скорость, с которой произошла «революция кодировок» в интернете.


Читать дальше →
Total votes 61: ↑59 and ↓2 +57
Views 1.6K
Comments 86

Apple в UTF

Lumber room


Этот логотип Apple виден только в Firefox. Вопрос в том, сколько стоит внести свой логотип в unicode? Места то ещё на 60 тыс знаков хватит… Логотип под номером 10080 входит в группу «Linear B Ideograms», и изображаться должен совершенно по другому.

Возможно Apple-софт вручную прописывает этот символ в шрифты — отпишитесь если видите. Т.е. по крайней мере у меня картина такая:
Total votes 28: ↑17 and ↓11 +6
Views 224
Comments 37

Решение проблемы с русскими символами в URL

CodeIgniter *
Известно, что по умолчанию в Code Igniter русские буквы в адресах запрещены.
Однако даже при изменении в файле system/application/config/config.php строки
$config['permitted_uri_chars'] = 'a-z 0-9~%.:_\-';
на
$config['permitted_uri_chars'] = 'a-zа-яё 0-9~%.:_\-';
проблема не решилась.
Читать дальше →
Total votes 4: ↑3 and ↓1 +2
Views 5.9K
Comments 4

Нормализация Unicode

Website development *
Однажды мне пришлось наблюдать, как спамеры очень интересным образом обходят спам-фильтр. Вместо традиционного URL типа «example.com», ссылка выглядела так:
http://example.com
Ссылка с подобной изощрённой точкой работает в IE7, FF3, Opera 9.5, Safari 3, Google Chrome и не работает в IE6.
Читать дальше →
Total votes 126: ↑125 and ↓1 +124
Views 15K
Comments 27

Про букву ё

Lumber room
Так, на всякий случай, вдруг кому где пригодится.

Средствами юникода существует четыре способа написать букву «ё».

Во-первых, по-русски: ё. В юникоде символ обзывается U+0451 CYRILLIC SMALL LETTER IO.

Во-вторых, не по-русски: ë. В юникоде: U+00EB LATIN SMALL LETTER E WITH DIAERESIS

Ну, и в-третьих, можно использовать комби-символ на русской (е) или латинской (e) буквах: ё ë. Выглядит малость неряшливо, но иногда способно прокатить.
Total votes 20: ↑9 and ↓11 -2
Views 295
Comments 16

SQLite и полноценный UNICODE

SQL *SQLite *
Наверно многим известна embed база данных SQLite. SQLite полностью поддерживает кодировки UTF-8 и UTF-16. Но есть один нюанс, для строковых и текстовых полей, символы которых выходят за пределы ASCII таблицы, не работает нечувствительный к регистру LIKE и ORDER BY.
Например:
sqlite> SELECT "ы" LIKE "Ы";
0
в то время как
sqlite> SELECT "s" LIKE "S";
1
Давайте разберемся как же это исправить.
Читать дальше →
Total votes 23: ↑23 and ↓0 +23
Views 28K
Comments 22

Как подружить MD5 в Java и PHP для UTF8 строк

Lumber room

Преамбула


Решила как-то моя фирма интегрировать форум, написанный на PHP с нашей системой управления сотрудниками, написанной на Java. Интегрировать в данном случае — это обновлять аккаунт сотрудника на форуме в случае изменения его данных в нашей системе. И поручили это дело мне (PHP часть) и моем коллеге Ивану (Java часть).  Я создаю небольшое веб API, он пишет функцию, которая в случае изменений данных сотрудника в нашей системе обращается к API и обновляет аккаунт сотрудника на форуме. Задание небольшое, дня на 3 от силы чтобы все написать и отладить. Возиться с кодированием нам естественно не хотелось — ничего секретного в фамилии, должности, рабочем телефоне и прочих данных сотрудника нет. Но как-то защититься от того, что кто-то чужой мог обратиться к API и изменить данные сотрудника было необходимо. Решено было подписывать сообщение с помощью magic phrase.  В качестве magic phrase решено было взять MD5(логин + должность + соль), где соль (salt) — некая константная строка. Реализовали мы все это, начали тестировать — и оказалось, что MD5, вычисленный для некоторого сотрудника в PHP и не совпадает с тем, который был вычислен для того же сотрудника в нашей системе, написанной на Java. Данные у нас на обеих стронах были в UTF8. И я решил разобраться, в чем же дело.
Читать дальше →
Total votes 30: ↑17 and ↓13 +4
Views 1.2K
Comments 17

Доля Unicode в сети приближается к 50%

Website development *
image

Этот график был сегодня опубликован в официальном гуглоблоге. Данные, соответственно, берутся из индексируемых поисковой системой Google веб-страниц.

А какую кодировку используешь ты, %username%?

Total votes 93: ↑73 and ↓20 +53
Views 788
Comments 170

Национальные доменные имена: из ASCII-формата в IDN и обратно

Lumber room
Если встанет необходимость работать с национальными доменными именами, то для большинства случаев приходящий от клиента формат «xn—abrakatabra.com» будет достаточным. Но бывают случаи, когда необходимо работать с доменными именами в их национальном представлении, т.е. «пример.com».

В данной статье рассмотрены программные реализации кодировки национальных доменных имен из ASCII- формата в IDN и обратно средствами MS VisualStudio и библиотеки ICU.

Читать дальше →
Total votes 11: ↑7 and ↓4 +3
Views 1.2K
Comments 4

Поиск символа по части названия

Lumber room
У вас никогда не возникало необходимости найти символ по его частичному названию? У меня такое порой бывает, например найти никогда не используемую мной букву «ѣ», найти символы греческого алфавита (σ, ε, μ) и т.п. Достаточно удобное средство для этого — kcharselect из KDE4, но ради единственной утилиты ставить здоровый кусок KDE неохота. Поэтому появилась мысль написать скрипт, который бы искал символ по описанию.

Решение относительно простое...
Total votes 8: ↑8 and ↓0 +8
Views 226
Comments 12

Выпущен стандарт Unicode 6, более 2000 дополнительных символов

Typography *
Translation
Сегодня стала доступна новая версия Unicode. Версия 6.0.0 промышленного стандарта кодирования, обработки и представления текста, так же является первой версией выпущенной исключительно онлайн.

Новый стандарт привносит множество изменений, включая свыше 2000 новых символов, новые свойства и файлы данных, некоторые корректировки в существующие символы и некоторые изменения в самом тексте стандарта. Новые литеры включают в себя: более 1000 специальных символов; знак индийской рупии – новый официальный символ валюты; более 200 объединенных идеограмм используемых на территории Китая, Тайваня и Японии; три новых начертания – Mandiac (классический язык Иранского региона), Batak (Суматра и Индонезия) и Brahmi (северная Индия), а так же улучшенную поддержку африканских языков.

Частью этого огромного числа новых символов являются так называемые символы Emoji. Похожие на смайлики, они ведут свое происхождение из японских мобильных коммуникаций и на сегодняшний момент получили большое распространение в регионе Восточной Азии. Набор Emoji включенный в Unicode 6 был взят из набора символов используемых тремя самыми популярными мобильными операторами в Японии. Этот набор включает в себя такие эмоции как “Улыбка с рогами” (“Smiling face with horns”), “Сбитый столку”, “Поцелуй кошки с закрытыми глазами”. Все их можно найти по этой ссылке (.pdf).

Вы можете ознакомиться со стандартом Unicode по этой ссылке. Или узнать про Emoji на официальной странице Unicode.

Под катом таблица с символами Emoji.

Читать дальше →
Total votes 65: ↑62 and ↓3 +59
Views 8.5K
Comments 94

Кодировки

C++ *

Всем рано или поздно приходится работать с различными кодировками. Заметив в коде своей команды различные, порой странные, подходы к решению этих проблем, пришлось провести разъяснительную беседу. Ниже поделюсь своим видением правильной работы с не-ASCII символами в коде. Буду рад конструктивной критике.

Читать дальше
Total votes 76: ↑73 and ↓3 +70
Views 54K
Comments 61