Pull to refresh

Comments 18

UFO landed and left these words here

Можно, в статье это есть. Просто она совершенно нереально разбавлена, тут столько воды, что можно 95% выкинуть и статья только выиграет. А так, конечно, редкий читатель долетит до середины.

Совет, начинайте читать с «Но как насчёт других символов». Там показывается, что utf8 символы переворачивать можно. И что "флаг" он особенный.

UFO landed and left these words here

Представление текста это большая пирамида уровней над уровнями над уровнями. На каждом этапе уровни можно перевернуть, но на следующем этапе получится мусор


Байты можно перевернуть, но на этапе utf8 (или другой кодировки) получится мусор


utf8 code points можно перевернуть но на этапе эмодзи или других составных символов (диактрика и т.п) получится мусор (тема статьи)


графем кластеры можно перевернуть но на этапе слов получится мусор


Слова можно перевернуть но на этапе предолжений получится мусор


Предложения можно перевернуть но на этапе параграфа получится мусор


Даже биты в байте можно перевернуть!


и т.п.

ну да. и статья по сути о том, что питон переворачивает символы. Не байты. И не группы символов То есть multibyte-кодировки, в принципе, работают. Какая-нибудь sjis, например. А комбинации из символов переворачиваются посимвольно. ä перевернётся сам в себя, когда это один символ. И испортится, если это a+ ̈

только этот простой факт там так закопан в тексте, что не найдёшь.

"символ" плохое слово потому что все его по разному понимают и когда начинают обсуждать начинаются проблема из-за вкладывания разных смыслов. Поэтому в спецификации utf8 есть конкретно:


  • code unit (байт)
  • code points (то что во многих языках программирования называется "символом" — одно число)
  • grapheme cluster (набор code points) которые отображаются как одна единица текста — также то что называют "символами" в обиходе (не в программировании т.е.)
  • glyph — один отображаемый объект (к примеру ä это может быть один или два или даже три объекта в зависимости от шрифта вне зависимости от того это один или два code points), а у пробела их ноль.

Великолепно!

Еще, наверное, похожая свистопляска с датой и временем, начиная с 100500 вариантов формата даты, заканчивая часовыми поясами и дополнительными секундами (leap seconds).

https://habr.com/ru/post/146109/

PS Сколько же в заметке воды! Мне интересно, люди действительно так думают, вот процесс мышления он именно так организован, или это специально для статьи размазывают белую кашу по чистому столу?

Американские авторы такие американские... скажите спасибо, что статься не начинается с рекламы статьи и как читатель сможет лихо вертеть флагами к концу прочтения

Странно, как же bidi и shape работают в ICU? Они же как раз заточены находить и суррогатные символы, и теги, и прочие штуки, определяющие кодирование в стандарте.

По логике вещей, должен был бы получиться советский флаг.

Так там ведь и получилось в итоге, «S U» — Soviet Union. А то что назад в картинку буквы не скалдываются, так это пока ещё недоработка.

Какая-то идеологическая провокация! Переверните американский флаг и получите Советский Союз. :)

Вы напомнили мнемоническое правило запоминания цветов Российского флага: КГБ, т.е. красный, голубой, белый, но поскольку у нас все через одно место, порядок цветов нужно инвертировать.

Всегда был Бе-Си-К (бейсик).

Останется с пространственной ориентацией цветов не напутать дабы не стать атлетом с фамилией а ля Бженчишчикевич.

Вы видимо не в курсе что сама операция переворачивания строки не является целью.
Обычно после переворачивание проводятся некоторые операции и затем строка переворачивается еще раз.

ps: меня больше печалит то что при выводе моноширинным шрифтом имеем разную ширину символов
. 1234567 |
1 アイウエオカキ |
2 あいうえおかき |
3 АБВГДЕЁ |
4 ΑΒΓΔΕΖΗ |
5 ABCDEFG |
6 ??????? |
7 ??????? |
8 ??????? |
9 ⒶⒷⒸⒹⒺⒻⒼ |
A ❶❷❸❹❺❻❼ |
B ➀➁➂➃➄➅➆ |
C ??????? |
D ??????? |
E ⬛⬜⬛⬜⬛⬜⬛ |
F  |
G □■□■□■□ |
H ⬠⬟⬠⬟⬠⬟⬠ |
I ??????? |
J ░▒▓█▓▒░ |
. 1234567 |

image
Sign up to leave a comment.

Articles