Pull to refresh

Comments 89

И вот наконец наступило счастливое утро 22 июня 2016 года.


Гораздо более счастливое, чем ровно за 75 лет до этого.

Простите за оффтоп, люблю искать совпадения, ничего не могу с собой поделать...
А что интересного с юникодом было 75 лет назад?

Тогда один бесноватый решил избавиться от кириллицы в будущем уникоде в пользу латиницы в готическом начертании. Других совпадений найти не могу.

В точку! Лучше и не скажешь. :)


P.S. Не ожидал, если честно, такой агрессивной реакции, но что поделать… Остаётся делать выводы. :D

UFO just landed and posted this here
Как меня надысь огорошили, «гик» — это больше не «человек, увлечённый высокими технологиями». Согласно википедии, это «человек, чрезвычайно увлечённый чем-либо; фанат». В качестве основных примеров упомянуты фанаты игр, комиксов, косплеев. Так что, боюсь, как бы не наоборот — «ГТ становится все более гиковым»…
Дело в том, что упоминание известных событый и так уже из всех щелей, и хотелось бы избежать этого хотя бы на ресурсе технической направленности в статье про юникод. Ну честно, не к месту настолько, насколько это вообще возможно.
Например, его не было. Не самое счастливое время для юникода.
UFO just landed and posted this here
Меня больше удивляет, что действительно ходовые символы проходят со скрипом, но из недавней статьи мы узнаем, что «Осейдж (72 символа) — мёртвый сиуанский язык индейцев осейджи, проживавших раньше в резервации Оклахома (США)» был принят.

Не имею ничего против языка индейцев, но неужели это сопоставимые вещи?
А вы уверены, что оный осейдж не мусолили годами перед принятием? Там некоторые письменности так и висят «в планах» до сих пор, хотя заявки были поданы черт-те когда. То есть, там для всего одинаковый «скрип», если не хуже.
Не уверен конечно. Просто масштабы раздувания юникода раньше я списывал на простоту внесения предложений, а оказалось что это не так. Вероятнее всего, у комитета есть своя программа поддержки языков и символы письменностей они принимают охотнее, чем произвольные пиктограммы, даже если последние более востребованны.
Идея юникода в том, чтобы там были все символы всех языков. Так что если что-то — язык, то no problem. А вот пиктограмкам еще доказать нужно что они чего-то значат для кого-то кроме того кто их нарисовал.
72 символа Осейдж это фигня. По вашей же ссылке можно прочитать, что в юникод9 воткнули 6800 иероглифов вымершего государства СиСя :)

Зато есть целых 12 символов с поездами


Видимо Шелдон Купер таки приложил к этому делу свою руку
Надо подсчитать, сколько там символов с флагами.
Логично. Ведь в Японии нет ни негров, ни тако, зато много разных типов поездов.
Вот только эти символы не совсем логичны — есть паровоз (Steam Locomotive, первый на картинке), но нет вагона для паровоза (а есть вагон электрички — Railway Car), из-за чего не получается нормальный состав.
Мёртвые языки нужны, как учёным с ними работать? Для того и юникод — всё языки должны поддерживаться, а вот эмодзи это мутная тема.
Думаю да, по-видимому должна рассматриваться научная ценность объекта.
Эмодзи — тоже один из языков, и через некоторое время, возможно, ученым придется работать и с ним (надеюсь, как с вымершим).
возможно, да только если верить википедии эмодзи уже более 800, мне думается что реально это уже не символы языка, а произвольные картинки, символов думаю было бы сильно меньше

Фейспалм — очень нужный и полезный эмодзи. Наконец-то он тоже поддерживается!

Чем смайлики по своему смыслу хуже иероглифов? Те же иероглифы по сути.
Не совсем:
— иероглифы это письменность реальных языков, их люди вынужденны долго и упорно заучивать, а из сотен смайликов даже из меню не особо реально выбрать нужный/точный, не говоря уже о том чтобы их выучить
— количество иероглифов конечно, и они обычно состоят из каких-то элементов, а вот смайлики потенциально бесконечны (картинки всего и вся во всех комбинациях, ковбоя на крокодиле наверно ещё нет же)
Смайлы это тоже письменность своего рода, не хуже китайского языка. Только который людям почему-то лень учить? Смайлики тоже состоят из характерных элементов. Комбинации разных предметов конечно перебор, но почему бы не запилить хотябы эмоциональную часть смайлов? Впрочем, иероглифы во всей их сложности всё-таки реализовали в юникоде, почему смайлы нельзя? Тут вроде собираются ввести как стандарт 32-битный юникод, кодов под любые фантазии хватит(ага, IP-шников хватит навечно) на полную замену сложного 16-битного…
Каком критерию не соответствует, например, символ фейспалма?
UFO just landed and posted this here
> он в оригинале не является символом
Он был символом в некоторых мессенджерах.
UFO just landed and posted this here
> смайлы в виде XML тегов понимаемых парсером
Ага, пусть все изобретают свои собственные кодировки популярных символов, несовместимые друг с другом.

Добавление эмоджи в юникод позволяет уменьшить головную боль: символ фэйспалма везде будет обозначать символ фейспалма. И в текстовом файле, и в письме, и в базе данных, и в десятках месенджерах на всех платформах. Сообщение можно просто скопировать и вставить и не бояться что что-то потеряется. Кроме того это облегчает парсинг текста и его анализ.
Имхо, от всего ракового эмодзи единственного символа фейспалма более чем достаточно. Остальные не нужны.
Лучше бы консорциуму Unicode просто открыть форум или дискуссионную группу, чтобы пользователи могли просто предлагать свои символы. А бюрократией пускай занимаются сами члены консорциума.

Могу ошибаться, но вроде в Юникоде еще нет символов дорожных знаков. Общеупребительные, не под копирайтом и даже сами по себе стандартизированные.
Я могу ошибаться, но насколько я знаю, то что нам кажется общеупотребительным, является таковым в основном в нашем полушарии. В США другие знаки.
UFO just landed and posted this here
Большая часть дорожных знаков на самом деле совпадает по всему миру. Тот же «кирпич» универсален. Хотя есть и различающиеся. Иногда различается «форма» при сохранении содержания (Знак с «коровой» например реально везде разный, где-то корова «идёт» налево, а где-то направо, где-то «смотрит» вперёд, а где-то на водителя) или же знак «дорожные работы» очень разнообразен по исполнению, но «копатель» везде узнаваем. Хотя и локальные знаки (как и правила) существуют.
В США большая часть знаков такая же.
Такая же как где? В США знаки дорожные обычно просто надписи: «Do not pass», «No left turn», «No turns», «No turn on red», «Speed limit 30», «Minimum speed 55», «One way», «No stopping, standing or parking» и тд. Причём знаки ещё разнятся от штата к штату. «Кирпич» примерно такой же как в Европе, но на нём ещё написано «Do not enter», а бывает просто написано «Do not enter» без кирпича.
Подтверждаю. В США дорожные знаки совсем другие, их очень много и значительная часть выражена текстом.

В России последнее бы не прокатило — слова длиннее и требуют согласования (падежи, предлоги и т.п.). Тогда как на американских текстовых знаках формально правила грамматики нарушаются, но всё понятно и так — язык позволяет многое опускать.
Так в любом случае знаки надо учить. Пусть сделают их на английском, как в США.
>Пусть сделают их на английском, как в США.

В России? 1) зачем, если уже есть работающая система, совместимая с многими соседними странами; 2) почему бы сразу не на китайском — было бы достаточно одного-двух иероглифов на знак?

В Америке много чего странного, например, футы, дюймы, унции (несколько видов), галлоны. Но ничего, живём как-то на планете все вместе.
Пример использования иероглифа и слоговой азбуки на знаке «STOP»:
image
Английский язык международный. Российские права международные. Английский поможет сэкономить место, поможет иностранцам, в том числе и туристам. А Английская система мер вовсе не странная, это просто другая система мер.
Английская система мер вовсе не странная, это просто другая система мер.
Она не просто «другая», она неудобная. Устаревшая исторически сложившаяся система мер, которые друг другу ещё и не кратны. Метрическую же не просто так придумали и приняли везде, где смогли.
http://www.discoverabroad.com/us/livingabroad/transportation/AmericanRoadSigns.htm например.
Да, действительно много текста, но часть знаков идентична либо очень похожа.

Очень хорошая картинка, спасибо. Стоит к ней приглядеться. Конечно же, после некоторой тренировки понятно, что знаки значат, особенно если прочувствовать, что скорости даны в милях/ч, а расстояния в милях и футах.


image

Конечно, STOP ни с чем не спутаешь. Но вот лишь некоторые различия, которые бросаются в глаза:


  • знаки один и два вполне можно воспринять как указатели скорости. У нас указатели номеров дорог совсем другие и по цвету, и по форме, и буква в них включена, например M3, A101, E95.
  • знак №15 — мне лично был непонятен на местности, пока не объяснили
  • знаки 31 и 44 — аббревиатуры, непонятные без расшифровки
  • знак 30 — у нас это "красный кирпич на палочке"
  • знаки номер три и пять — вообще непонятно, что. У нас больница — это красный крест. И да, у нас есть потрясающий по понятности восклицательный знак "прочие опасности". Что-то опасное происходит, так что вы тут поосторожнее.

Не указаны знаки.


  • Высота проезда (clearance): у нас знак, у них надпись



К чему я это всё: с любой адекватной сигнальной системой можно жить, но для дорожных знаков критически важно быть универсальными, т.к. неправильная их интерпретация может привести к неправильным решениям в условиях высоких скоростей.


Моё мнение: и американец, и европеец/русский, оказавшись впервые в чуждой ему системе дорожных знаков, будет не в состоянии их быстро и правильно интерпретировать без предварительной тренировки. Это как приехать в Англию и начать ездить по правой стороне дороги — далеко не уедешь. Но про это хотя бы многие знают.

Как я уже писал ниже, стандартизованная универсальная система дорожных знаков есть. Из крупных стран её НЕ используют: США, Канада, Аргентина, Китай, Япония, Австралия. Во всех остальных знаки выглядят плюс-минус одинаково.
Тут есть еще один нюанс — в США очень качественно сделана система оповещения водителей. Информация зачастую не то что дублируется, а повторяется 3-4 раза. (До поворота на туда-то 500 метров, потом 200 метров, потом 100 метров, потом вот он поворот, потом вы проехали поворот 100 метров назад и т.д.).
Да, очень много текста, да есть свои уникальные знаки и правила, но в целом мне показалось, что ездить по США проще, чем по Европе, где знаки и правила гораздо ближе к нашим. Но я знаю язык, по этому надписи эти читаю спокойно, это важное требование.
В США также много информации дублируется надписями на дороге: no turn on red, slow down, bus lane, curve ahead и т.п. — это тоже весьма удобно.

Что в США ужасно — это замена европейских круговых развязок на «четыре стопа».
Насчёт знака 31: DIP — это не аббревиатура, а полноценное слово, означающее глубокую складку рельефа.
В разных шрифтах символы с одинаковыми кодами вполне себе слегка разные.
До сих пор помню, как меня в раннем детстве, когда я только научился читать, поражало, почему все вывески на улице, на магазинах и вокруг сделаны разными шрифтами. Моему детскому уму была непонятна причина, зачем понадобилось так портить отличную идею универсальной сигнальной системы.
Помню, как лет в пять не могла читать буквы с засечками.
Есть международная конвенция по дорожным знакам, которая соблюдается во всей Европе, части Африки и Латинской Америки. Вот её вполне можно добавить. У США в этом вопросе как всегда свой собственный путь, но это уже их проблемы.
UFO just landed and posted this here
Да ладно, что вы напали напали на уродские смайлы-то. По ссылке в статье, в юникоде есть:
new moon with face Unicode code point: U+1F31A
first quarter moon with face Unicode code point: U+1F31B
last quarter moon with face Unicode code point: U+1F31C
full moon with face Unicode code point: U+1F31D
moon viewing ceremony Unicode code point: U+1F391
UFO just landed and posted this here
А не ли в Unicode символа trollface? Он куда полезнее moonface.
А в Юникоде есть мужской половой орган?
  • 1) это действительно общепринятый символ;
  • 2) есть убедительные доказательства их реального использования; (его чертят везде, даже на Луне и Марсе уже)
  • 3) они не обременены ограничениями копирайта;
  • 4) члены консорциума Unicode считают, что они будут полезным добавлением к стандартному набору. (даже члены консорциума считают, что члены будут полезны, простите)
Как минимум члены принимали участие в создании членов консорциума
Самый лучший комментарий!
Докторант/doctoral student/PhD student—это по-нашему аспирант, кстати говоря. После этого он станет постдоком, если защитится и останется в науке. Либо еще одну кандидатскую может писать, тоже вариант
А зачем вообще в юникоде что-то, кроме букв и иероглифов?
и цифр с математическими и иными научными символами
Потому что существуют знаки, не являющиеся ни буквами, ни иероглифами.
Отлично, пусть себе существуют вне шрифтов
UFO just landed and posted this here
Там много букв, одной фразой можно суть идеи выразить?
Упрощённо — вместо произвольного кода символа используется код, по которому можно построить векторную картинку.
Соответственно если символа нет в шрифте — его всё равно кое-как но отрисуют.
Может подскажете, а в юникоде же используются составные символы?

Ну когда Á на самом деле A и ́, напечатанные на одном месте.
Есть и такой вариант и такой. Потому как если символ входит в язык — нужно обеспечивать правильную сортировку и т.п., для двухсимвольной конструкции оно сложно.
Текст зачёркнутый хтмл-разеткой
Т̶е̶к̶с̶т̶ ̶з̶а̶ч̶ё̶р̶к̶н̶у̶т̶ы̶й̶ ̶с̶р̶е̶д̶с̶т̶в̶а̶м̶и̶ ̶ю̶н̶и̶к̶о̶д̶а̶ (можно так зачёркнутым и скопировать)
UFO just landed and posted this here
На первый взгляд слишком сложно, больше проблем создаёт чем решает.
Проще юникод подчистить, убрать составные символы, выкинуть мусор которым никто пользоваться не будет (символы-картинки) и радоваться, ну будет много разных кодов для символов выглядящих одинаково и что? Никакой проблемы нет. Алиасы в шрифтах?

В целом идея мне нравится, но у меня возник ряд вопросов.


  1. Насколько далеко простираются полномочия "рендерера неопознанных знаков"? Например, в демонстрации рендерер рисует диакритический знак. Значит ли это, что рендерер будет рисовать и лигатуры типа fi (U+FB01), и широкие диакритики типа a͡b (U+035D)? А контекстные формы арабской вязи?


  2. При отрисовке диакритика в примере он был поставлен сверху. Как быть с диакритиками, которые рисуются в других местах? Например, в тайском, кхмерском и лаосском письме есть диакритики, которые рисуются слева от буквы, к которой они привязаны. Причем это и не диакритики-то, по сути — это их гласные буквы. Как быть с корейским письмом, где в одно знакоместо могут быть упакованы от 2 до 5 букв?


  3. Как формат "простого символа" (код 1) в принципе декларирует позицию будущего диакритика? Как отличаются диакритики, которые выглядят одинаково, но имеют разный смысл в зависимости от положения относительно предыдущего знака? Или отличаются размером?


  4. Если рендерер неопознанных знаков собирается покрывать все эти случаи, не приблизится ли он по сложности к виртуальной машине OpenType? Может, тогда его сразу и использовать? Если упрощать, то насколько?


  5. Почему выбрано представление, где диакритик идет до буквы, к которой он применяется? Ведь даже по логике письма сначала рисуется основной знак, затем к нему дописывается дополнение, а не наоборот.


  6. Некоторые люди вынуждены воспринимать текст на слух. Так как одна из заявленных целей polycode — дедупликация символов, которые выглядят одинаково, то каким образом экранный читатель сможет отличить символы, одинаковые визуально, но разные семантически? Например, "буква о" и "цифра ноль"? Можно, конечно, например, перечеркивать ноль на манер ZX Spectrum, то как быть со знаками, которые выглядят примерно одинаково, но имеют кардинально разный смысл, вроде E𝖤𝗘𝙴𝔼𝐄𝐸𝑬𝘌𝙀𝔈𝕰ℰ𝓔?


  7. Лигатура fi (U+FB01) — это один знак polycode или два? А чешские диграфы ch и dž?


  8. Как объявить пробелы разной ширины, включая нулевую?


  9. В юникоде есть понятия классов символов. Что-то аналогичное в polycode?


  10. Юникод — это еще и правила (де-)нормализации и (де-)композиции знаков. Что-то аналогичное в polycode?


  11. В юникоде есть управляющие символы, многие из которых невидимы — сменить направление письма, например. Что-то аналогичное в polycode?


  12. Почему так неудачно выбрано название? Polycode уже используется существующим игровым движком на lua, который, к тому же, занял домен polycode.org.


  13. Заявленный механизм отрисовки "сложных знаков" не учитывает хинтинг. Может, все-таки OpenType?


  14. Заявленный механизм отрисовки "сложных знаков" не учитывает потребности людей с ограничениями зрения и роботов. Допустим, эмблема бэтмена — ее невозможно никак описать или прочитать так, чтобы человек это понял, т.е. polycode нужно расширить еще и описаниями букв. Автор polycode выказывал претензию, мол, с чего бы это вдруг всем подряд знать английский — значит, это тоже нужно как-то решать, потому что я могу не знать суахили, на котором описан какой-то знак, но я хочу понимать, что он значит — на моем родном языке, или же на английском.
mwizard согласен с пунктом 6. И в общем ясно что идея критики не выдерживает. Но когда в Автокаде приходиться изменять две тысячи текстовых объектов которые не влазят в рамки по вине того, что не использовали нужный шрифт, начинаешь задумываться о всех добрых людях которые разрабатывали эти стандарты.
Отдельно хочу сказать о «роботах» пункт 14. Нейронным сетям было-бы куда проще работать с Polycode. Ведь основная их задача находить соответствия как я понимаю. А с учётом того что множество новостей на ГТ посвящено нейронным сетям. Что-то между человеческими «каряками» и машинным кодом должно быть общее. Polycode показывает что это именно написание букв, а не то как они выглядят.
Итог моего монолога такой: что юникод хорош для людей но не для машин, следовательно нужно выбрать между «стандарт для людей» или «стандарт для машин» отталкиваясь от требований ЭВМ. А там уже выводить символы как ей будет удобно, чтобы мы понимали. А то выходит мы понимаем какие символы (слова) нам выдаёт ЭВМ, а она нет. Помнит как стишок в школе и может повторить но сочинить сама не сможет. Следовательно Если машина знает что ей сочинять она и выведет так как нам будет удобно, ведь вся идея машин, ЭВМ, нейроных сетей, в том чтобы они делали за нас нашу работу, то есть думали->обрабатывали->объясняли, а не копирывали-копирывали-показывали.
То есть по вашему, изучать с помощью нейронки КАЖДЫЙ символ в строке на его похожесть на букву — это проще, чем просто посмотреть в таблице кодов?
да ведь нам нужно что-бы все символы в мире можно было одним способом расшифровать и воспроизвести.
UFO just landed and posted this here
В Unicode уже столько управляющих символов (направление, ширина и т.д.) что пора уже сделать Решительный Шаг и ввести наконец в Unicode полноценный язык программирования, как в Word-t есть Visual Basic, а в Emacs — Lisp. Тогда растеризатор смог бы просто выполнять байт-код, типа языка Лого (Скратч) рисуя символы. Да, и назвать это не Unicode 10, а Unicode X.
Тогда на вирусы надо будет проверять и простейшие текстовые последовательности… где есть язык программирования там есть и вирусы… пришлют тебе символ в скайпе который заполнит собой всё пространство фракталом и нагрузит систему отрисовкой одного символа на 100%.
Дак уже и сейчас можно делать разрывающие мозг тексты. Растеризатор пока выживает.
http://lurkmore.to/Zalgo
(если у вас inet нефильтрованый)
Мне вот любопытно, почему не ввели символы для лигатур (если этот термин применим к знакам препинания) !+ и ?+ Не видел еще ни один шрифт, в котором их можно было бы эмулировать через !.. и ?.. Всегда разные промежутки между точками.
Only those users with full accounts are able to leave comments. Log in, please.