Klotos 17 янв 2013 в 14:23

Строки в C# и .NET

10 мин

320K

.NET*C#*

Перевод

+59

Комментарии 38

Monnoroch 17 янв 2013 в 14:35

каждая строка занимает 20+(n/2)×4

А можно поподробней, почему n/2?

Klotos 17 янв 2013 в 14:42

В статье Джон Скит не расписывает механизм хранения строк детально, да и я не могу утверждать, что являюсь экспертом во внутренностях .NET, однако полагаю, формула 20+(n/2)×4 связана с тем, что каждый символ хранится в UTF-16 и занимает 2 байта. 20 — это вспомогательная информация. А вот почему (n/2)×4, а не n×2 — к сожалению, не знаю.

Monnoroch 17 янв 2013 в 14:45

Возможно, символы как раз хранятся по 2 в 32битных ячейках. Соответственно, суррогатные пары хранятся каждая в целой ячейке, а формула их просто не учитывает.

Flexz 17 янв 2013 в 14:45

Возможно, память выделяется дискретами по 32 бита?

lair 17 янв 2013 в 14:46

А вот почему (n/2)×4, а не n×2 — к сожалению, не знаю.

Есть мнение, что это оптимизация доступа к памяти.

AxisPod 17 янв 2013 в 15:04

Ну по виду обычное выравнивание в 4 байта.

MuLLtiQ 17 янв 2013 в 15:04

В оригинальной статье написано:

> strings take up 20+(n/2)*4 bytes (rounding the value of n/2 down)

(n / 2) — целочисленное деление (13 / 2 == 6; 12 / 2 == 6)

m_z 17 янв 2013 в 19:09

В таком случае, строка, длинной в 1 символ, будет занимать 20 + (1/2) * 4 = 20 байт? Значит один из символов входит во вспомогательную информацию?

MuLLtiQ 17 янв 2013 в 19:17

Ну это вопрос не ко мне, а к Джону Скиту или разработчикам CLR :)

Airog 17 янв 2013 в 20:02

20 + (1/2) * 4 = 20 + 0.5 * 4 = 22

-3

m_z 17 янв 2013 в 20:04

Округлить 0.5 в меньшую сторону забыли.

qw1 17 янв 2013 в 21:42

Ну почему же забыли!
Возможно, это 16 + (n/2+1)*4 = 20 + (n/2)*4

Airog 17 янв 2013 в 22:14

нет, 20 + 4 * n / 2

Airog 17 янв 2013 в 22:13

ничего не забыл, так что все верно, вообще в таких случаях нужно всегда 1-м делать умножение и потом уже делить, тогда результат будет намного точнее

m_z 17 янв 2013 в 22:27

Вы видели rounding the value of n/2 down?
И как можно в «таких случаях» делать умножение первым, когда скобки явно указывают на порядок вычисления?

Airog 17 янв 2013 в 22:47

В данном случае либо недопонимание или автор не дорассказал. Если n = 1, то получается 0, что неверно, не может один символ храниться в 0 байтах, а если n = 3, то получится 4 байта, как вы себе представляете 3 символа в 4-х байтах? Ну и т. д.
Формулу (n/2)*4 нужно читать как два символа в 4-х байтах, причем конечный результат всегда выровнен по границе 4, а для этого нужно было применять такую формулу ((n+1)/2) * 4

m_z 17 янв 2013 в 23:33

Легко, если на самом деле данные об объекте занимают 18 байт (но в другой статье Скит говорит о 14 байтах), а выровнено в 4 байта, тогда два байта из 20 можно использовать под один символ. И формулу нужно читать как Math.Floor(n/2)*4.

Andrey_Kuprikov 18 янв 2013 в 10:53

Хабр — такой хабр :)
Полемика по поводу пары байт скоро перерастет в несколько гигабайт, хранящихся в БД Хабра в виде комментариев )

m_z 17 янв 2013 в 20:00

Оказывается все проще: пустая строка тоже занимает 2 байта (т.е. значение null). А его формула просто «убирает» из 20 эти 2 байта с помощью округления, если строка не null.

Сам Скит скинул ссылку на более новую статью, где размер уже высчитывается как 14 + length * 2 для x86. Какая статья точнее он не уверен.

m_z 17 янв 2013 в 20:12

Хотя нет, null здесь не при чем, действительно простое выравнивание.

tyrotoxin 18 янв 2013 в 04:13

Нашёл такую информацию:

A string is composed of:
• An 8-byte object header (4-byte SyncBlock and a 4-byte type descriptor)
• An int32 field for the length of the string (this is returned by String.Length).
• An int32 field for the number of chars in the character buffer.
• The first character of the string in a System.Char.
• The rest of the string in a character buffer, terminating with a null terminator char.

Насколько правдива и актуальна — неизвестно.

tyrotoxin 18 янв 2013 в 04:38

Небольшой тест в Visual Studio под .NET Framework 4.5 и x64 показал, что объект String состоит из:
• 4-byte SyncBlock
• 8-byte type descriptor (или 4 byte для 32-bit)
• An int32 field — длина строки
• символы по 2 байта, без null terminator

Nagg 17 янв 2013 в 15:16

По поводу интернирования можно было бы добавить, что его можно отлючить специальным атрибутом для проекта.

freeOne 17 янв 2013 в 15:43

Вероятно, пул интернирования является особенностью именно .NET

В JVM тоже существует intern.

p1f 17 янв 2013 в 15:48

Интересно, в чём главные отличия между JVM и .NET intern pool'ом?

kekekeks 17 янв 2013 в 15:59

Если внимательно вчитаться, то можно увидеть, что имелось ввиду, что интернирование является фичей не конкретного языка на платформе .NET, а платформы в целом. О его наличии или отсутствии в других языках или платформах не сказано ровным счётом ничего.

freeOne 17 янв 2013 в 16:01

Возможно, Вы правы.

ad1Dima 17 янв 2013 в 16:11

>>Метод IndexOf будет учитывать эсцет как «ss» (двойное «s»), но вот если вы используете одну из перегрузок CompareInfo.IndexOf, где укажете CompareOptions.Ordinal, то эсцет будет обработан правильно.

Странно в данном случае говорить о «правильности». Это особенности, которые надо знать (не все из них я знаю), но то что Zurich и Zürich — одно и тоже вполне нормально. Про такое поведение, насколько я помню, написано в CLR via C#, и плох разработчик, который ни разу его не читал.

Klotos 17 янв 2013 в 16:24

В оригинале это предложение звучит как «IndexOf will treat the eszett as the same as „ss“, unless you use a CompareInfo.IndexOf and specify CompareOptions.Ordinal as the options to use.», слово «правильно» подобрал я при переводе. Вместе с тем, насколько я понял Джона Скита, его «смущает» (если можно так выразиться) не столько то, как обрабатываются подобные символы, а то, что разными функциями они обрабатываются по-разному.

ad1Dima 17 янв 2013 в 17:04

В данном случае все логично. Есть поведение по-умолчанию, но иногда же надо работать с точностью до символа, для таких случаев есть опции.
В случае Equals и Compare тоже все логично. Согласно МСДН: первый сравнивает значения, второй определяет алфавитный порядок. Е и Ё, к примеру, тоже приравниваются в словарях (бумажных).
Это все — логичное поведение, таким образом спроектированное. Другой вопрос, что при переходе с того же c++ (или другого языка постарше) это непривычное поведение.

firestarter 17 янв 2013 в 17:48

плох разработчик, который ни разу его не читал

Чем плох?

ad1Dima 17 янв 2013 в 18:23

Тем, что не читал. Там множество подобных тонкостей расписано.

НЛО прилетело и опубликовало эту надпись здесь

Klotos 17 янв 2013 в 17:33

Согласен, исправил.

SOLON7 17 янв 2013 в 19:33

Как жаль Как жаль, я тоже недавно хотел перевести эту статью…
Помоему это наследние этой статьи habrahabr.ru/post/164193/

Только в более академической форме!!!

Klotos 17 янв 2013 в 19:48

Кто не успел, тот опоздал :) Если серьезно, то в Джона Скита вполне достаточно прекрасных статей для перевода. Вы можете сообщить мне, которые статьи вы желаете перевести в будущем, и я не буду их трогать.

tyrotoxin 18 янв 2013 в 04:04

… символом Юникода в диапазоне от U+0000 до U+FFFF ...

В оригинальной статье написано «character» (может для упрощения понимая?), хотя по стандарту Unicode правильно это называется «code point», т.к. там кроме «characters» есть куча управляемых непечатаемых символов. Всегда интересно было как корректно перевести «code point» на русский…

grigoryvp 18 янв 2013 в 13:47

(англ. zero-width non-joiner character), что бы это не значило, чёрт возьми!

В некоторых языках, например в арабском, буквы одного слова могут менять свое начертание в зависимости от того, в какой части слова они находятся, т.н. «вязь». Вставленный между двумя буквами, non-joiner отключает этот механизм и буквы будут отображены так, как если бы они были написаны сами по себе, вне слова. Zero-with означает, что сам non-joiner не отображается. Обработка joiner'ов, mark-ов и прочих спецсредств юникода как символов — это ошибка реализации библиотек.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Строки в C# и .NET

Комментарии 38

Публикации

Истории