alizar Jun 23 2016 at 12:22

Как обычный вопрос на форуме привёл к добавлению 4½ символов в Юникод

4 min

26K

DesignInfographics

+28

Comments 89

Radmin Jun 23 2016 at 13:14

И вот наконец наступило счастливое утро 22 июня 2016 года.

Гораздо более счастливое, чем ровно за 75 лет до этого.

Простите за оффтоп, люблю искать совпадения, ничего не могу с собой поделать...

amarao Jun 23 2016 at 14:21

А что интересного с юникодом было 75 лет назад?

avost Jun 23 2016 at 15:03

Тогда один бесноватый решил избавиться от кириллицы в будущем уникоде в пользу латиницы в готическом начертании. Других совпадений найти не могу.

Radmin Jun 23 2016 at 16:00

В точку! Лучше и не скажешь. :)

P.S. Не ожидал, если честно, такой агрессивной реакции, но что поделать… Остаётся делать выводы. :D

UFO landed and left these words here

LazyCrazy Jun 24 2016 at 09:39

Как меня надысь огорошили, «гик» — это больше не «человек, увлечённый высокими технологиями». Согласно википедии, это «человек, чрезвычайно увлечённый чем-либо; фанат». В качестве основных примеров упомянуты фанаты игр, комиксов, косплеев. Так что, боюсь, как бы не наоборот — «ГТ становится все более гиковым»…

Nalivai Jun 23 2016 at 21:57

Дело в том, что упоминание известных событый и так уже из всех щелей, и хотелось бы избежать этого хотя бы на ресурсе технической направленности в статье про юникод. Ну честно, не к месту настолько, насколько это вообще возможно.

Nalivai Jun 23 2016 at 16:50

Например, его не было. Не самое счастливое время для юникода.

UFO landed and left these words here

Halt Jun 23 2016 at 15:06

Меня больше удивляет, что действительно ходовые символы проходят со скрипом, но из недавней статьи мы узнаем, что «Осейдж (72 символа) — мёртвый сиуанский язык индейцев осейджи, проживавших раньше в резервации Оклахома (США)» был принят.

Не имею ничего против языка индейцев, но неужели это сопоставимые вещи?

KinshoMokuroku Jun 23 2016 at 16:53

А вы уверены, что оный осейдж не мусолили годами перед принятием? Там некоторые письменности так и висят «в планах» до сих пор, хотя заявки были поданы черт-те когда. То есть, там для всего одинаковый «скрип», если не хуже.

Halt Jun 23 2016 at 18:09

Не уверен конечно. Просто масштабы раздувания юникода раньше я списывал на простоту внесения предложений, а оказалось что это не так. Вероятнее всего, у комитета есть своя программа поддержки языков и символы письменностей они принимают охотнее, чем произвольные пиктограммы, даже если последние более востребованны.

Nalivai Jun 23 2016 at 22:01

Идея юникода в том, чтобы там были все символы всех языков. Так что если что-то — язык, то no problem. А вот пиктограмкам еще доказать нужно что они чего-то значат для кого-то кроме того кто их нарисовал.

not_ice Jun 23 2016 at 17:10

72 символа Осейдж это фигня. По вашей же ссылке можно прочитать, что в юникод9 воткнули 6800 иероглифов вымершего государства СиСя :)

alex_the_first Jun 23 2016 at 17:40

Пока символы утверждали, все умерли?

xapienz Jun 23 2016 at 17:13

Зато есть целых 12 символов с поездами

Kirillko312 Jun 23 2016 at 18:55

Видимо Шелдон Купер таки приложил к этому делу свою руку

loly_girl Jun 23 2016 at 23:23

Надо подсчитать, сколько там символов с флагами.

TheBeast Jun 24 2016 at 07:16

247.

t3sc0 Jun 24 2016 at 12:17

хм, у меня 248

ruikarikun Jun 24 2016 at 12:59

Должно быть 249, по числу стран в ISO 3166-1.
Это не считая BLACK FLAG всяких.

ruikarikun Jun 24 2016 at 09:08

Логично. Ведь в Японии нет ни негров, ни тако, зато много разных типов поездов.

dshster Jun 30 2016 at 07:14

Вот только эти символы не совсем логичны — есть паровоз (Steam Locomotive, первый на картинке), но нет вагона для паровоза (а есть вагон электрички — Railway Car), из-за чего не получается нормальный состав.

worldmind Jun 23 2016 at 17:32

Мёртвые языки нужны, как учёным с ними работать? Для того и юникод — всё языки должны поддерживаться, а вот эмодзи это мутная тема.

Halt Jun 23 2016 at 18:11

Думаю да, по-видимому должна рассматриваться научная ценность объекта.

AndrewN Jun 24 2016 at 05:13

Эмодзи — тоже один из языков, и через некоторое время, возможно, ученым придется работать и с ним (надеюсь, как с вымершим).

worldmind Jun 24 2016 at 09:00

возможно, да только если верить википедии эмодзи уже более 800, мне думается что реально это уже не символы языка, а произвольные картинки, символов думаю было бы сильно меньше

zloddey Jun 24 2016 at 05:57

Фейспалм — очень нужный и полезный эмодзи. Наконец-то он тоже поддерживается!

Alexeyslav Jun 29 2016 at 05:23

Чем смайлики по своему смыслу хуже иероглифов? Те же иероглифы по сути.

worldmind Jun 29 2016 at 06:55

Не совсем:
— иероглифы это письменность реальных языков, их люди вынужденны долго и упорно заучивать, а из сотен смайликов даже из меню не особо реально выбрать нужный/точный, не говоря уже о том чтобы их выучить
— количество иероглифов конечно, и они обычно состоят из каких-то элементов, а вот смайлики потенциально бесконечны (картинки всего и вся во всех комбинациях, ковбоя на крокодиле наверно ещё нет же)

Alexeyslav Jun 29 2016 at 12:57

Смайлы это тоже письменность своего рода, не хуже китайского языка. Только который людям почему-то лень учить? Смайлики тоже состоят из характерных элементов. Комбинации разных предметов конечно перебор, но почему бы не запилить хотябы эмоциональную часть смайлов? Впрочем, иероглифы во всей их сложности всё-таки реализовали в юникоде, почему смайлы нельзя? Тут вроде собираются ввести как стандарт 32-битный юникод, кодов под любые фантазии хватит(ага, IP-шников хватит навечно) на полную замену сложного 16-битного…

u1789 Jun 23 2016 at 16:53

Каком критерию не соответствует, например, символ фейспалма?

UFO landed and left these words here

u1789 Jun 24 2016 at 06:21

> он в оригинале не является символом
Он был символом в некоторых мессенджерах.

UFO landed and left these words here

u1789 Jun 24 2016 at 08:35

> смайлы в виде XML тегов понимаемых парсером
Ага, пусть все изобретают свои собственные кодировки популярных символов, несовместимые друг с другом.

Добавление эмоджи в юникод позволяет уменьшить головную боль: символ фэйспалма везде будет обозначать символ фейспалма. И в текстовом файле, и в письме, и в базе данных, и в десятках месенджерах на всех платформах. Сообщение можно просто скопировать и вставить и не бояться что что-то потеряется. Кроме того это облегчает парсинг текста и его анализ.

Tacgnol Jun 24 2016 at 20:25

Имхо, от всего ракового эмодзи единственного символа фейспалма более чем достаточно. Остальные не нужны.

NeoCode Jun 23 2016 at 13:34

Лучше бы консорциуму Unicode просто открыть форум или дискуссионную группу, чтобы пользователи могли просто предлагать свои символы. А бюрократией пускай занимаются сами члены консорциума.

Могу ошибаться, но вроде в Юникоде еще нет символов дорожных знаков. Общеупребительные, не под копирайтом и даже сами по себе стандартизированные.

j_wayne Jun 23 2016 at 13:43

Я могу ошибаться, но насколько я знаю, то что нам кажется общеупотребительным, является таковым в основном в нашем полушарии. В США другие знаки.

UFO landed and left these words here

darthslider Jun 23 2016 at 15:30

Большая часть дорожных знаков на самом деле совпадает по всему миру. Тот же «кирпич» универсален. Хотя есть и различающиеся. Иногда различается «форма» при сохранении содержания (Знак с «коровой» например реально везде разный, где-то корова «идёт» налево, а где-то направо, где-то «смотрит» вперёд, а где-то на водителя) или же знак «дорожные работы» очень разнообразен по исполнению, но «копатель» везде узнаваем. Хотя и локальные знаки (как и правила) существуют.
В США большая часть знаков такая же.

ivlis Jun 23 2016 at 18:03

Такая же как где? В США знаки дорожные обычно просто надписи: «Do not pass», «No left turn», «No turns», «No turn on red», «Speed limit 30», «Minimum speed 55», «One way», «No stopping, standing or parking» и тд. Причём знаки ещё разнятся от штата к штату. «Кирпич» примерно такой же как в Европе, но на нём ещё написано «Do not enter», а бывает просто написано «Do not enter» без кирпича.

Atakua Jun 23 2016 at 20:50

Подтверждаю. В США дорожные знаки совсем другие, их очень много и значительная часть выражена текстом.

В России последнее бы не прокатило — слова длиннее и требуют согласования (падежи, предлоги и т.п.). Тогда как на американских текстовых знаках формально правила грамматики нарушаются, но всё понятно и так — язык позволяет многое опускать.

ZXSi Jun 23 2016 at 22:59

Так в любом случае знаки надо учить. Пусть сделают их на английском, как в США.

Atakua Jun 24 2016 at 07:56

>Пусть сделают их на английском, как в США.

В России? 1) зачем, если уже есть работающая система, совместимая с многими соседними странами; 2) почему бы сразу не на китайском — было бы достаточно одного-двух иероглифов на знак?

В Америке много чего странного, например, футы, дюймы, унции (несколько видов), галлоны. Но ничего, живём как-то на планете все вместе.

ruikarikun Jun 24 2016 at 09:26

Пример использования иероглифа и слоговой азбуки на знаке «STOP»:

ZXSi Jun 24 2016 at 20:04

Английский язык международный. Российские права международные. Английский поможет сэкономить место, поможет иностранцам, в том числе и туристам. А Английская система мер вовсе не странная, это просто другая система мер.

Chamie Jun 28 2016 at 16:04

Английская система мер вовсе не странная, это просто другая система мер.

Она не просто «другая», она неудобная. Устаревшая исторически сложившаяся система мер, которые друг другу ещё и не кратны. Метрическую же не просто так придумали и приняли везде, где смогли.

darthslider Jun 24 2016 at 07:23

http://www.discoverabroad.com/us/livingabroad/transportation/AmericanRoadSigns.htm например.
Да, действительно много текста, но часть знаков идентична либо очень похожа.

Atakua Jun 24 2016 at 08:25

Очень хорошая картинка, спасибо. Стоит к ней приглядеться. Конечно же, после некоторой тренировки понятно, что знаки значат, особенно если прочувствовать, что скорости даны в милях/ч, а расстояния в милях и футах.

Конечно, STOP ни с чем не спутаешь. Но вот лишь некоторые различия, которые бросаются в глаза:

знаки один и два вполне можно воспринять как указатели скорости. У нас указатели номеров дорог совсем другие и по цвету, и по форме, и буква в них включена, например M3, A101, E95.
знак №15 — мне лично был непонятен на местности, пока не объяснили
знаки 31 и 44 — аббревиатуры, непонятные без расшифровки
знак 30 — у нас это "красный кирпич на палочке"
знаки номер три и пять — вообще непонятно, что. У нас больница — это красный крест. И да, у нас есть потрясающий по понятности восклицательный знак "прочие опасности". Что-то опасное происходит, так что вы тут поосторожнее.

Не указаны знаки.

Высота проезда (clearance): у нас знак, у них надпись

К чему я это всё: с любой адекватной сигнальной системой можно жить, но для дорожных знаков критически важно быть универсальными, т.к. неправильная их интерпретация может привести к неправильным решениям в условиях высоких скоростей.

Моё мнение: и американец, и европеец/русский, оказавшись впервые в чуждой ему системе дорожных знаков, будет не в состоянии их быстро и правильно интерпретировать без предварительной тренировки. Это как приехать в Англию и начать ездить по правой стороне дороги — далеко не уедешь. Но про это хотя бы многие знают.

maxpsyhos Jun 24 2016 at 08:33

Как я уже писал ниже, стандартизованная универсальная система дорожных знаков есть. Из крупных стран её НЕ используют: США, Канада, Аргентина, Китай, Япония, Австралия. Во всех остальных знаки выглядят плюс-минус одинаково.

darthslider Jun 24 2016 at 08:59

Тут есть еще один нюанс — в США очень качественно сделана система оповещения водителей. Информация зачастую не то что дублируется, а повторяется 3-4 раза. (До поворота на туда-то 500 метров, потом 200 метров, потом 100 метров, потом вот он поворот, потом вы проехали поворот 100 метров назад и т.д.).
Да, очень много текста, да есть свои уникальные знаки и правила, но в целом мне показалось, что ездить по США проще, чем по Европе, где знаки и правила гораздо ближе к нашим. Но я знаю язык, по этому надписи эти читаю спокойно, это важное требование.

ssneg Jun 30 2016 at 07:37

В США также много информации дублируется надписями на дороге: no turn on red, slow down, bus lane, curve ahead и т.п. — это тоже весьма удобно.

Что в США ужасно — это замена европейских круговых развязок на «четыре стопа».

Cubus Jun 24 2016 at 09:16

Насчёт знака 31: DIP — это не аббревиатура, а полноценное слово, означающее глубокую складку рельефа.

black_semargl Jun 23 2016 at 18:22

В разных шрифтах символы с одинаковыми кодами вполне себе слегка разные.

Atakua Jun 24 2016 at 08:02

До сих пор помню, как меня в раннем детстве, когда я только научился читать, поражало, почему все вывески на улице, на магазинах и вокруг сделаны разными шрифтами. Моему детскому уму была непонятна причина, зачем понадобилось так портить отличную идею универсальной сигнальной системы.

loly_girl Jun 24 2016 at 08:10

Помню, как лет в пять не могла читать буквы с засечками.

maxpsyhos Jun 24 2016 at 08:17

Есть международная конвенция по дорожным знакам, которая соблюдается во всей Европе, части Африки и Латинской Америки. Вот её вполне можно добавить. У США в этом вопросе как всегда свой собственный путь, но это уже их проблемы.

UFO landed and left these words here

Fen1kz Jun 23 2016 at 14:50

Да ладно, что вы напали напали на уродские смайлы-то. По ссылке в статье, в юникоде есть:
new moon with face Unicode code point: U+1F31A
first quarter moon with face Unicode code point: U+1F31B
last quarter moon with face Unicode code point: U+1F31C
full moon with face Unicode code point: U+1F31D
moon viewing ceremony Unicode code point: U+1F391

UFO landed and left these words here

Alexey2005 Jun 23 2016 at 17:54

А не ли в Unicode символа trollface? Он куда полезнее moonface.

perfect_genius Jun 23 2016 at 13:45

А в Юникоде есть мужской половой орган?

1) это действительно общепринятый символ;

2) есть убедительные доказательства их реального использования; (его чертят везде, даже на Луне и Марсе уже)

3) они не обременены ограничениями копирайта;

4) члены консорциума Unicode считают, что они будут полезным добавлением к стандартному набору. (даже члены консорциума считают, что члены будут полезны, простите)

Wizard_of_light Jun 23 2016 at 15:24

Ещё один обычный вопрос на форуме.

black_semargl Jun 23 2016 at 18:35

Уже есть
♂

Kirillko312 Jun 23 2016 at 18:58

Как минимум члены принимали участие в создании членов консорциума

ababo Jun 23 2016 at 14:20

Ну, заживём теперь…

sadamune Jun 24 2016 at 07:14

Самый лучший комментарий!

Bas1l Jun 23 2016 at 14:31

Докторант/doctoral student/PhD student—это по-нашему аспирант, кстати говоря. После этого он станет постдоком, если защитится и останется в науке. Либо еще одну кандидатскую может писать, тоже вариант

ahdenchik Jun 23 2016 at 16:53

А зачем вообще в юникоде что-то, кроме букв и иероглифов?

worldmind Jun 23 2016 at 17:38

и цифр с математическими и иными научными символами

amdf Jun 23 2016 at 20:49

Потому что существуют знаки, не являющиеся ни буквами, ни иероглифами.

ahdenchik Jun 24 2016 at 20:41

Отлично, пусть себе существуют вне шрифтов

UFO landed and left these words here

worldmind Jun 23 2016 at 18:34

Там много букв, одной фразой можно суть идеи выразить?

black_semargl Jun 23 2016 at 18:40

Упрощённо — вместо произвольного кода символа используется код, по которому можно построить векторную картинку.
Соответственно если символа нет в шрифте — его всё равно кое-как но отрисуют.

maa_boo Jun 24 2016 at 07:16

Может подскажете, а в юникоде же используются составные символы?

Ну когда Á на самом деле A и ́, напечатанные на одном месте.

black_semargl Jun 24 2016 at 08:08

Есть и такой вариант и такой. Потому как если символ входит в язык — нужно обеспечивать правильную сортировку и т.п., для двухсимвольной конструкции оно сложно.
~~Текст зачёркнутый хтмл-разеткой~~
Т̶е̶к̶с̶т̶ ̶з̶а̶ч̶ё̶р̶к̶н̶у̶т̶ы̶й̶ ̶с̶р̶е̶д̶с̶т̶в̶а̶м̶и̶ ̶ю̶н̶и̶к̶о̶д̶а̶ (можно так зачёркнутым и скопировать)

UFO landed and left these words here

worldmind Jun 24 2016 at 16:22

На первый взгляд слишком сложно, больше проблем создаёт чем решает.
Проще юникод подчистить, убрать составные символы, выкинуть мусор которым никто пользоваться не будет (символы-картинки) и радоваться, ну будет много разных кодов для символов выглядящих одинаково и что? Никакой проблемы нет. Алиасы в шрифтах?

mwizard Jun 23 2016 at 20:21

В целом идея мне нравится, но у меня возник ряд вопросов.

Насколько далеко простираются полномочия "рендерера неопознанных знаков"? Например, в демонстрации рендерер рисует диакритический знак. Значит ли это, что рендерер будет рисовать и лигатуры типа ﬁ (U+FB01), и широкие диакритики типа a͡b (U+035D)? А контекстные формы арабской вязи?
При отрисовке диакритика в примере он был поставлен сверху. Как быть с диакритиками, которые рисуются в других местах? Например, в тайском, кхмерском и лаосском письме есть диакритики, которые рисуются слева от буквы, к которой они привязаны. Причем это и не диакритики-то, по сути — это их гласные буквы. Как быть с корейским письмом, где в одно знакоместо могут быть упакованы от 2 до 5 букв?
Как формат "простого символа" (код 1) в принципе декларирует позицию будущего диакритика? Как отличаются диакритики, которые выглядят одинаково, но имеют разный смысл в зависимости от положения относительно предыдущего знака? Или отличаются размером?
Если рендерер неопознанных знаков собирается покрывать все эти случаи, не приблизится ли он по сложности к виртуальной машине OpenType? Может, тогда его сразу и использовать? Если упрощать, то насколько?
Почему выбрано представление, где диакритик идет до буквы, к которой он применяется? Ведь даже по логике письма сначала рисуется основной знак, затем к нему дописывается дополнение, а не наоборот.
Некоторые люди вынуждены воспринимать текст на слух. Так как одна из заявленных целей polycode — дедупликация символов, которые выглядят одинаково, то каким образом экранный читатель сможет отличить символы, одинаковые визуально, но разные семантически? Например, "буква о" и "цифра ноль"? Можно, конечно, например, перечеркивать ноль на манер ZX Spectrum, то как быть со знаками, которые выглядят примерно одинаково, но имеют кардинально разный смысл, вроде E𝖤𝗘𝙴𝔼𝐄𝐸𝑬𝘌𝙀𝔈𝕰ℰ𝓔?
Лигатура ﬁ (U+FB01) — это один знак polycode или два? А чешские диграфы ch и dž?
Как объявить пробелы разной ширины, включая нулевую?
В юникоде есть понятия классов символов. Что-то аналогичное в polycode?
Юникод — это еще и правила (де-)нормализации и (де-)композиции знаков. Что-то аналогичное в polycode?
В юникоде есть управляющие символы, многие из которых невидимы — сменить направление письма, например. Что-то аналогичное в polycode?
Почему так неудачно выбрано название? Polycode уже используется существующим игровым движком на lua, который, к тому же, занял домен polycode.org.
Заявленный механизм отрисовки "сложных знаков" не учитывает хинтинг. Может, все-таки OpenType?
Заявленный механизм отрисовки "сложных знаков" не учитывает потребности людей с ограничениями зрения и роботов. Допустим, эмблема бэтмена — ее невозможно никак описать или прочитать так, чтобы человек это понял, т.е. polycode нужно расширить еще и описаниями букв. Автор polycode выказывал претензию, мол, с чего бы это вдруг всем подряд знать английский — значит, это тоже нужно как-то решать, потому что я могу не знать суахили, на котором описан какой-то знак, но я хочу понимать, что он значит — на моем родном языке, или же на английском.

fermiums Jun 24 2016 at 07:14

mwizard согласен с пунктом 6. И в общем ясно что идея критики не выдерживает. Но когда в Автокаде приходиться изменять две тысячи текстовых объектов которые не влазят в рамки по вине того, что не использовали нужный шрифт, начинаешь задумываться о всех добрых людях которые разрабатывали эти стандарты.
Отдельно хочу сказать о «роботах» пункт 14. Нейронным сетям было-бы куда проще работать с Polycode. Ведь основная их задача находить соответствия как я понимаю. А с учётом того что множество новостей на ГТ посвящено нейронным сетям. Что-то между человеческими «каряками» и машинным кодом должно быть общее. Polycode показывает что это именно написание букв, а не то как они выглядят.
Итог моего монолога такой: что юникод хорош для людей но не для машин, следовательно нужно выбрать между «стандарт для людей» или «стандарт для машин» отталкиваясь от требований ЭВМ. А там уже выводить символы как ей будет удобно, чтобы мы понимали. А то выходит мы понимаем какие символы (слова) нам выдаёт ЭВМ, а она нет. Помнит как стишок в школе и может повторить но сочинить сама не сможет. Следовательно Если машина знает что ей сочинять она и выведет так как нам будет удобно, ведь вся идея машин, ЭВМ, нейроных сетей, в том чтобы они делали за нас нашу работу, то есть думали->обрабатывали->объясняли, а не копирывали-копирывали-показывали.

maxpsyhos Jun 24 2016 at 07:38

То есть по вашему, изучать с помощью нейронки КАЖДЫЙ символ в строке на его похожесть на букву — это проще, чем просто посмотреть в таблице кодов?

fermiums Jun 24 2016 at 13:14

да ведь нам нужно что-бы все символы в мире можно было одним способом расшифровать и воспроизвести.

UFO landed and left these words here

alecv Jun 25 2016 at 07:26

В Unicode уже столько управляющих символов (направление, ширина и т.д.) что пора уже сделать Решительный Шаг и ввести наконец в Unicode полноценный язык программирования, как в Word-t есть Visual Basic, а в Emacs — Lisp. Тогда растеризатор смог бы просто выполнять байт-код, типа языка Лого (Скратч) рисуя символы. Да, и назвать это не Unicode 10, а Unicode X.

Alexeyslav Jun 29 2016 at 10:26

Тогда на вирусы надо будет проверять и простейшие текстовые последовательности… где есть язык программирования там есть и вирусы… пришлют тебе символ в скайпе который заполнит собой всё пространство фракталом и нагрузит систему отрисовкой одного символа на 100%.

alecv Jun 30 2016 at 09:27

Дак уже и сейчас можно делать разрывающие мозг тексты. Растеризатор пока выживает.
http://lurkmore.to/Zalgo
(если у вас inet нефильтрованый)

pestilent Jun 26 2016 at 18:08

Мне вот любопытно, почему не ввели символы для лигатур (если этот термин применим к знакам препинания) !+… и ?+… Не видел еще ни один шрифт, в котором их можно было бы эмулировать через !.. и ?.. Всегда разные промежутки между точками.