Как добавить новые символы в Unicode: опыт обывателя

    Все знают про общепринятый стандарт Unicode. Его (UTF-8) использует абсолютное большинство веб-ресурсов. А Unicode Consortium под управлением Марка Дэвиса — одного из ключевых контрибьюторов оригинальной спецификации 1987 года — периодически вносит обновления.

    На днях к апдейтам вроде китайского письма нюй-шу или горизонтальной квадратной письменности монголов добавили кучу эмодзи. Но мало кто знает, что иногда в плановые обновления попадают и более привычные нам символы из повседневной жизни, а инициаторами таких изменений становятся обыкновенные энтузиасты. Подобный случай произошел несколько лет назад, когда Unicode пополнился символами рабочих режимов электроприборов.


    Фото — Debby Hudson — Unsplash

    С чего все началось


    В 2013 году британский IT-специалист Теренс Иден (Terence Eden) обратился к сообществу Hacker News с вопросом. Он не смог найти подходящего символа для обозначения режима «STANDBY», который «есть на каждом приборе или гаджете, выпущенном позже середины 1970-х годов». Иден заметил, что условный снеговик в Unicode был, а интересовавший его STANDBY — отсутствовал.

    На его вопрос ответил научный сотрудник Оксфордского университета Джо Лоури (Joe Loughry). Он прикрепил ссылку на правила Консорциума по добавлению новых символов и отметил, что еще в Unicode стоит включить и обозначения других состояний гаджетов (например, ВКЛ/ВЫКЛ). Таких позиций было пять:

    • POWER ON — вертикальная линия
    • POWER OFF — круг
    • ON/OFF — вертикальная линия внутри круга
    • STANDBY — вертикальная линия, пересекающая круг
    • SLEEP — «убывающий» полумесяц

    Немного «бюрократии»


    Через несколько недель после начала дискуссии, в январе 2014 года, заявку направили в Консорциум. Начались переписка и согласования. Иден писал об этом так:

    «Вы правильно подобрали символы? Да! Есть ли явные доказательства их использования? Да! Нет ли правовых ограничений? Нет! Согласны ли участники Консорциума, что символы действительно нужны? Да! Да!.. Возможно! Нет!»

    Стоит пояснить, что у Консорциума есть рекомендации и критерии по расширению Unicode, однако это — вовсе не перечень строгих требований. Соответствие им нововведений не определяют автоматически, поэтому свою позицию можно аргументировать и представить убедительную заявку.


    Фото — Aleksandar Cvetanovic — Unsplash

    В данном случае символы STANDBY и POWER ON/OFF не вызвали возражений, а вот остальные пришлось обсуждать. Исторически знаки включения и выключения произошли от единицы и нуля, но абсолютное большинство обывателей не придает значения этой семантике, а больше ориентируются на привычные обозначения, которые видят на гаджетах.

    Что-то похожее авторы не нашли в спецификации, и им пришлось доказать, что для POWER ON имеющиеся знаки не годятся. А для POWER OFF Консорциум сам выделил символ U+2B58.

    Казалось бы, для режима SLEEP можно было бы оставить полумесяц. В Unicode уже есть два таких символа и еще 13 эмодзи с разными фазами Луны. Однако Иден и компания настаивали, что все они не подходят, поскольку «смотрят» в неправильную сторону и имеют «неправильный» наклон.

    Изображение — Joe Loughry — MIT License

    В итоге был разработан новый макет (соответствующая схема изображена выше) с подробным описанием пропорций, и Консорциум принял его.

    Результат


    Всего через месяц символы получили одобрение рабочей группы ISO 10646, отвечающей за Unicode. Потянулись месяцы ожидания, и лишь в июне 2016 года обновления опубликовали в рамках Unicode 9.0. Теперь все пять символов получили официальное признание — с ними работают как обыватели, так и дизайнеры, разработчики и даже производители оборудования.


    Фото — Matthew Brodeur — Unsplash

    Самое главное во всей этой истории — это то, как она возвращает нас атмосферу раннего или «местечкового» Интернета. Кажется, что тогда любая команда целеустремленных гиков могла вывести свои начинания на глобальный уровень. Именно так и произошло у Идена и его коллег. А для тех, кто хотел бы повторить подобный эксперимент, есть несколько базовых рекомендаций:

    • Изучите материалы (документы, формы и заявления) по проекту, о котором мы только что рассказали. Как минимум, вы не потеряете время на поиск.
    • Подготовьте как можно больше свидетельств употребления символов. Самые старые материалы команды Идена датированы 1984 годом. В случае исторических символов возраст может исчисляться веками и тысячелетиями.
    • Подумайте над аргументацией. Заявка должна включать возможные возражения, которые могут прийти в голову комиссии Консорциума. Поэтому стоит самим указать на слабые стороны идеи и мастерски с ними расправиться.
    • Позаботьтесь о дополнительных материалах, которые могут не упоминаться в рекомендациях Консорциума. Это, например, готовый шрифт с предложенным символом, к которому комиссия даст свои комментарии и предложения.

    Еще больше рекомендаций — в руководстве Лоури и руководстве Консорциума.


    Мы в 1cloud.ru предлагаем услугу по аренде виртуальной инфраструктуры «Частное облако». Из панели управления можно быстро развернуть парк виртуальных серверов.

    Новые клиенты нашего сервиса могут бесплатно протестировать инфраструктуру. Достаточно подать заявку через форму на сайте или написать в техподдержку.

    1cloud.ru
    IaaS, VPS, VDS, Частное и публичное облако, SSL

    Комментарии 11

      +1
      Интересно, а когда кончится доступный диапазон ip-адресов кодов, что будут делать?
        0

        По идее сам по себе unicode ничем не ограничен. В UTF-16 добавили сурогатные пары. Возможно добавят тройки или больше. UTF-8 можно расширять до бесконечности.

          0

          Еще интересно, можно ли таким образом добиться, чтобы какой-то символ убрали в связи с неактуальностью?
          И что в таком случае будет делать, например, web.archive.org

        +2
        На хрена вот засирать Юникод всяким спамом?! :(
          +8
          Вот бы ещё эмодзи выпнули, вообще здорово было бы.
            +2
              +1
              На днях как-раз делал таблицу для копипаста Unicode-символов в чертежи… Поражался, сколько же там хлама, даже часть удалил. Может кому-то пригодится ))
                0
                Когда, господи, когда в UTF добавят истинно русские символы

                ёб

                и

                пц
                  0

                  Вы image
                  забыли.

                    0

                    Первую ещё можно скомбинировать но результат зависит от шрифта: Б̈

                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                  Самое читаемое