Comments 89
И вот наконец наступило счастливое утро 22 июня 2016 года.
Гораздо более счастливое, чем ровно за 75 лет до этого.
Простите за оффтоп, люблю искать совпадения, ничего не могу с собой поделать...
Тогда один бесноватый решил избавиться от кириллицы в будущем уникоде в пользу латиницы в готическом начертании. Других совпадений найти не могу.
В точку! Лучше и не скажешь. :)
P.S. Не ожидал, если честно, такой агрессивной реакции, но что поделать… Остаётся делать выводы. :D
Не имею ничего против языка индейцев, но неужели это сопоставимые вещи?
Зато есть целых 12 символов с поездами

Фейспалм — очень нужный и полезный эмодзи. Наконец-то он тоже поддерживается!
— иероглифы это письменность реальных языков, их люди вынужденны долго и упорно заучивать, а из сотен смайликов даже из меню не особо реально выбрать нужный/точный, не говоря уже о том чтобы их выучить
— количество иероглифов конечно, и они обычно состоят из каких-то элементов, а вот смайлики потенциально бесконечны (картинки всего и вся во всех комбинациях, ковбоя на крокодиле наверно ещё нет же)
Он был символом в некоторых мессенджерах.
Ага, пусть все изобретают свои собственные кодировки популярных символов, несовместимые друг с другом.
Добавление эмоджи в юникод позволяет уменьшить головную боль: символ фэйспалма везде будет обозначать символ фейспалма. И в текстовом файле, и в письме, и в базе данных, и в десятках месенджерах на всех платформах. Сообщение можно просто скопировать и вставить и не бояться что что-то потеряется. Кроме того это облегчает парсинг текста и его анализ.
Могу ошибаться, но вроде в Юникоде еще нет символов дорожных знаков. Общеупребительные, не под копирайтом и даже сами по себе стандартизированные.
В США большая часть знаков такая же.
В России последнее бы не прокатило — слова длиннее и требуют согласования (падежи, предлоги и т.п.). Тогда как на американских текстовых знаках формально правила грамматики нарушаются, но всё понятно и так — язык позволяет многое опускать.
В России? 1) зачем, если уже есть работающая система, совместимая с многими соседними странами; 2) почему бы сразу не на китайском — было бы достаточно одного-двух иероглифов на знак?
В Америке много чего странного, например, футы, дюймы, унции (несколько видов), галлоны. Но ничего, живём как-то на планете все вместе.

Да, действительно много текста, но часть знаков идентична либо очень похожа.
Очень хорошая картинка, спасибо. Стоит к ней приглядеться. Конечно же, после некоторой тренировки понятно, что знаки значат, особенно если прочувствовать, что скорости даны в милях/ч, а расстояния в милях и футах.

Конечно, STOP ни с чем не спутаешь. Но вот лишь некоторые различия, которые бросаются в глаза:
- знаки один и два вполне можно воспринять как указатели скорости. У нас указатели номеров дорог совсем другие и по цвету, и по форме, и буква в них включена, например M3, A101, E95.
- знак №15 — мне лично был непонятен на местности, пока не объяснили
- знаки 31 и 44 — аббревиатуры, непонятные без расшифровки
- знак 30 — у нас это "красный кирпич на палочке"
- знаки номер три и пять — вообще непонятно, что. У нас больница — это красный крест. И да, у нас есть потрясающий по понятности восклицательный знак "прочие опасности". Что-то опасное происходит, так что вы тут поосторожнее.
Не указаны знаки.
- Высота проезда (clearance): у нас знак, у них надпись
К чему я это всё: с любой адекватной сигнальной системой можно жить, но для дорожных знаков критически важно быть универсальными, т.к. неправильная их интерпретация может привести к неправильным решениям в условиях высоких скоростей.
Моё мнение: и американец, и европеец/русский, оказавшись впервые в чуждой ему системе дорожных знаков, будет не в состоянии их быстро и правильно интерпретировать без предварительной тренировки. Это как приехать в Англию и начать ездить по правой стороне дороги — далеко не уедешь. Но про это хотя бы многие знают.
Да, очень много текста, да есть свои уникальные знаки и правила, но в целом мне показалось, что ездить по США проще, чем по Европе, где знаки и правила гораздо ближе к нашим. Но я знаю язык, по этому надписи эти читаю спокойно, это важное требование.
new moon with face Unicode code point: U+1F31A
first quarter moon with face Unicode code point: U+1F31B
last quarter moon with face Unicode code point: U+1F31C
full moon with face Unicode code point: U+1F31D
moon viewing ceremony Unicode code point: U+1F391
- 1) это действительно общепринятый символ;
- 2) есть убедительные доказательства их реального использования; (его чертят везде, даже на Луне и Марсе уже)
- 3) они не обременены ограничениями копирайта;
- 4) члены консорциума Unicode считают, что они будут полезным добавлением к стандартному набору. (даже члены консорциума считают, что члены будут полезны, простите)
Соответственно если символа нет в шрифте — его всё равно кое-как но отрисуют.
Ну когда Á на самом деле A и ́, напечатанные на одном месте.
Т̶е̶к̶с̶т̶ ̶з̶а̶ч̶ё̶р̶к̶н̶у̶т̶ы̶й̶ ̶с̶р̶е̶д̶с̶т̶в̶а̶м̶и̶ ̶ю̶н̶и̶к̶о̶д̶а̶ (можно так зачёркнутым и скопировать)
Проще юникод подчистить, убрать составные символы, выкинуть мусор которым никто пользоваться не будет (символы-картинки) и радоваться, ну будет много разных кодов для символов выглядящих одинаково и что? Никакой проблемы нет. Алиасы в шрифтах?
В целом идея мне нравится, но у меня возник ряд вопросов.
Насколько далеко простираются полномочия "рендерера неопознанных знаков"? Например, в демонстрации рендерер рисует диакритический знак. Значит ли это, что рендерер будет рисовать и лигатуры типа fi (U+FB01), и широкие диакритики типа a͡b (U+035D)? А контекстные формы арабской вязи?
При отрисовке диакритика в примере он был поставлен сверху. Как быть с диакритиками, которые рисуются в других местах? Например, в тайском, кхмерском и лаосском письме есть диакритики, которые рисуются слева от буквы, к которой они привязаны. Причем это и не диакритики-то, по сути — это их гласные буквы. Как быть с корейским письмом, где в одно знакоместо могут быть упакованы от 2 до 5 букв?
Как формат "простого символа" (код 1) в принципе декларирует позицию будущего диакритика? Как отличаются диакритики, которые выглядят одинаково, но имеют разный смысл в зависимости от положения относительно предыдущего знака? Или отличаются размером?
Если рендерер неопознанных знаков собирается покрывать все эти случаи, не приблизится ли он по сложности к виртуальной машине OpenType? Может, тогда его сразу и использовать? Если упрощать, то насколько?
Почему выбрано представление, где диакритик идет до буквы, к которой он применяется? Ведь даже по логике письма сначала рисуется основной знак, затем к нему дописывается дополнение, а не наоборот.
Некоторые люди вынуждены воспринимать текст на слух. Так как одна из заявленных целей polycode — дедупликация символов, которые выглядят одинаково, то каким образом экранный читатель сможет отличить символы, одинаковые визуально, но разные семантически? Например, "буква о" и "цифра ноль"? Можно, конечно, например, перечеркивать ноль на манер ZX Spectrum, то как быть со знаками, которые выглядят примерно одинаково, но имеют кардинально разный смысл, вроде E𝖤𝗘𝙴𝔼𝐄𝐸𝑬𝘌𝙀𝔈𝕰ℰ𝓔?
Лигатура fi (U+FB01) — это один знак polycode или два? А чешские диграфы ch и dž?
Как объявить пробелы разной ширины, включая нулевую?
В юникоде есть понятия классов символов. Что-то аналогичное в polycode?
Юникод — это еще и правила (де-)нормализации и (де-)композиции знаков. Что-то аналогичное в polycode?
В юникоде есть управляющие символы, многие из которых невидимы — сменить направление письма, например. Что-то аналогичное в polycode?
Почему так неудачно выбрано название? Polycode уже используется существующим игровым движком на lua, который, к тому же, занял домен polycode.org.
Заявленный механизм отрисовки "сложных знаков" не учитывает хинтинг. Может, все-таки OpenType?
- Заявленный механизм отрисовки "сложных знаков" не учитывает потребности людей с ограничениями зрения и роботов. Допустим, эмблема бэтмена — ее невозможно никак описать или прочитать так, чтобы человек это понял, т.е. polycode нужно расширить еще и описаниями букв. Автор polycode выказывал претензию, мол, с чего бы это вдруг всем подряд знать английский — значит, это тоже нужно как-то решать, потому что я могу не знать суахили, на котором описан какой-то знак, но я хочу понимать, что он значит — на моем родном языке, или же на английском.
Отдельно хочу сказать о «роботах» пункт 14. Нейронным сетям было-бы куда проще работать с Polycode. Ведь основная их задача находить соответствия как я понимаю. А с учётом того что множество новостей на ГТ посвящено нейронным сетям. Что-то между человеческими «каряками» и машинным кодом должно быть общее. Polycode показывает что это именно написание букв, а не то как они выглядят.
Итог моего монолога такой: что юникод хорош для людей но не для машин, следовательно нужно выбрать между «стандарт для людей» или «стандарт для машин» отталкиваясь от требований ЭВМ. А там уже выводить символы как ей будет удобно, чтобы мы понимали. А то выходит мы понимаем какие символы (слова) нам выдаёт ЭВМ, а она нет. Помнит как стишок в школе и может повторить но сочинить сама не сможет. Следовательно Если машина знает что ей сочинять она и выведет так как нам будет удобно, ведь вся идея машин, ЭВМ, нейроных сетей, в том чтобы они делали за нас нашу работу, то есть думали->обрабатывали->объясняли, а не копирывали-копирывали-показывали.
http://lurkmore.to/Zalgo
(если у вас inet нефильтрованый)
Как обычный вопрос на форуме привёл к добавлению 4½ символов в Юникод