sugrobov 12 янв 2023 в 10:10

JEP-400 или UTF-8 РєРѕРґРёСЂРѕРІРєР° РїРѕ СѓРјРѕР»С‡Р°РЅРёСЋ

9 мин

13K

Блог компании JUG Ru GroupПрограммирование*Java*Разработка под Linux*Разработка под Windows*

+47

Комментарии 25

Mingun 12 янв 2023 в 10:53

Байтов 18, потому что начиная с Java 9 если символ помещается в однобайтовый промежуток, он будет весить 1 байт, плюс по два на символы в «Привет».

В данном случае не поэтому, а потому, что попросили байты в кодировке UTF-8. Так будет на любой джаве.

sugrobov 12 янв 2023 в 11:11

И правда, поменял в статье, спасибо!

alex-khv 12 янв 2023 в 13:13

Минус один аргумент между .net vs java 🙂

-1

Busla 12 янв 2023 в 15:19

.NET с выходом Core 2.0

разве в .NET Framework под капотом не с самого начала был UTF-16?

red5 12 янв 2023 в 22:40

С самого.

enabokov 13 янв 2023 в 00:23

String как был UTF-16 с первой версии, таким и остался.

Источник: String Class (System) | Microsoft Learn

sugrobov 13 янв 2023 в 10:18

Под капотом действительно UTF-16. Что мне понравилось, ровно как и в Java, методы класса System.IO.File по умолчанию вне зависимости от системы выдадут UTF-8. А вот Encoding.Default, которым пользуются остальные для определения кодировки по умолчанию, в .NET Framework смотрит на систему, и на винде выдаст что-то ANSI-подобное – в отличие от .NET Core.

Вот, например, официальная документация к Framework говорит об этой разнице. Или хорошо это подмечено тут

periskop 12 янв 2023 в 15:35

Вместо нерабочей ссылки
https://yandexwebcache.net/yandbtm?fmode=inject&tm=1672405387&tld=ru&lang=en&la=1671498496&text=https%3A//bugs.java.com/bugdatabase/view_bug.do%3Fbug_id%3D4153515&url=https%3A//bugs.java.com/bugdatabase/view_bug.do%3Fbug_id%3D4163515&l10n=ru&mime=html&sign=66ef6106e5efced00f3ad5714cbe499e&keyno=0

лучше использовать рабочую
https://web.archive.org/web/20201027153639/https://bugs.java.com/bugdatabase/view_bug.do?bug_id=4163515

sugrobov 13 янв 2023 в 18:25

Спасибо, на момент написания не находилась в веб архиве ссылка, сейчас заменил.

event1 12 янв 2023 в 18:44

Вообще проблема выглядит несколько надуманной, чтобы ради неё писать целый jep и целую статью. Если на машине не настроена правильная кодировка, то винавата не джава, а пользователь. В питоне, например, надо указывать кодировку при перекодировании str в bytes и никто не кашляет.

-3

3735928559 13 янв 2023 в 10:18

Да, при этом в тексте упоминается как проблема вызов Files.write(path, str.getBytes()) и Files.readString(path). Конечно же в String.getBytes() и Files.readString() можно передать Charset.

event1 13 янв 2023 в 12:59

Я имел ввиду, что можно заставлять всегда указывать кодировку явно (как в питоне для str->bytes) и вообще не будет проблемы.

-1

mayorovp 1 мар 2023 в 09:44

Да-да, давайте ради Java перенастраивать все локализованные установки windows! Притом ломая совместимость с другими программами...

Я считаю, что появление Console.charset() только в 2022м году — это позор для языка, который делался как кроссплатформенный.

event1 2 мар 2023 в 00:39

В смысле? У нас есть система, в ней установлена кодировка по умолчанию, джава использует кодировку по умолчанию. Всё правильно и логично. Если нужна другая кодировка она явно указывается. Опять всё правильно и логично. Так было раньше. Теперь же есть система, в ней установлена кодировка по умолчанию, но джава использует UTF-8. Как-будто не очень логично.

mayorovp 2 мар 2023 в 06:38

Вот только оказалось, что большинство файлов должны писаться в переносимой кодировке, а не в кодировке по умолчанию. Ну и зачем в итоге нужны такая умолчания, которое в большинстве случаев переопределяются?

И про Console.charset() не забывайте.

event1 2 мар 2023 в 18:05

Если приложению нужно писать в определённой кодировке, то оно должно указывать кодировку. Если приложению нужно взаимодействовать с "неопределённым кругом" приложений на этой же машине, оно должно использовать кодировку установленную на этой машине. Если в первом случае разработчик не указал кодировку, ожидая этого от пользователя, то виноват разработчик, а не джава. Если во втором случае пользователь настроил не ту кодировку, то виноват пользователь, а не джава. Должна ли джава думать за пользователя или разработчика в этом случае? Думаю, нет.

-1

foal 29 мар 2023 в 16:09

Проблема еще в том, что Windows уже давно использует Unicode. System locale используется для программ, которые не поддерживают Unicode. Это прямо написано при установки кодировки

Не понятно зачем Java на это ориентировалась.

Rsa97 12 янв 2023 в 19:07

UTF-8 использует переменное количество байт на один символ — от 1 до 6.

Только до четырёх.
В ноябре 2003 года стандарт RFC 3629 запретил использование пятого и шестого байтов, а диапазон кодируемых символов был ограничен символом U+10FFFF. Это было сделано для обеспечения совместимости с UTF-16.

sugrobov 13 янв 2023 в 18:27

Вы правы, поправил.

perfect_genius 12 янв 2023 в 20:24

Т.е. Java осталась без иероглифов или как?

enabokov 13 янв 2023 в 00:31

Автор смешивает таблицу символов Unicode и стандарты её кодирования UTF-8, UTF-16 и т. д.

.NET Framework поддерживает Unicode с первой версии, кодируя текст в своих классах в UTF-16 (как и весь текстовый API Windows). Encoding.UTF8 поддерживается как минимум с версии 1.1 (источник Encoding.UTF8 Property (System.Text) | Microsoft Learn)