nullbie 27 апр 2009 в 12:59

О разворачивании строк в .Net/C# и не только

11 мин

35K

.NET*

+73

Комментарии 57

XaocCPS 27 апр 2009 в 13:24

очень вкусная статья, спасибо :)
столько трудов вложили, оценил

+14

mace 27 апр 2009 в 13:55

Ого. Спасибо за вкусную пищу для ума :) ++ вам в карму.

dmvetrenko 27 апр 2009 в 14:09

Спасибо за графики.
Было бы интересно посмотреть как на разных процессорах пройдут тесты :)

outcoldman 27 апр 2009 в 14:11

очень интересно и видно, что большой труд проделан.
пару вопросов:
а) а такую строку вы из файла брали?
б) считали время выполнения только самого метода? Считали время выполнения за раз или несколько раз проводили тесты?
в) а многопоточность не пробовали как то использовать? Например разбить на два — обработать каждый в своем потоке и потом склеить.

nullbie 27 апр 2009 в 14:22

а) new String(' ', );
б) примерно так: «sw.Start(); Reverse*(s); sw.Stop();». сколько раз и как — там написано ;)
в) вряд-ли это поможет — основной затык в обращениях к памяти, так их будет еще больше и еще менее централизовано. да и склеивание не есть быстрая операция.

nullbie 27 апр 2009 в 14:23

а) new String(' ', N);

kem 27 апр 2009 в 14:13

Спасибо за интересную статью.
Всегда было интересно как оно там под капотом работает. Пишите еще.

CDuke 27 апр 2009 в 14:14

Полноценное исследование. Некоторые студенты для диплома такого не сделают :)
Присоединяюсь к желанию посмотреть зависимость методов от используемого процессора

ZeroIce 27 апр 2009 в 14:18

Скорость для ReverseManualHalf упала потому, что дергаются постоянно разные участки памяти. Подготовка данных просто обламывается (готовится один блок, а дергается из другого, идет переподготовка, и опять облом).

Чтобы максимально ускорить копирование, надо копировать несколько байт или (хотя бы) последовательно:
dest[i] = src[j];
dest[i+1] = src[j-1];
dest[i+2] = src[j-2];
dest[i+3] = src[j-3];

nullbie 27 апр 2009 в 14:25

Вряд-л там идет захват по 8 байт :) Но, да, такая оптимизация должна ускорить работу. Впрочем она применима практически ко всем рассмотреным функциям.
А еще это уменьшает накладные расходы на организацию цикла.

ZeroIce 27 апр 2009 в 14:29

в кеш загружается X байт, X зависит от железа :)

nullbie 27 апр 2009 в 14:38

логично ) а поскольку точные алгоритмы кэширования нам никто не расскажет, то мы можем лишь оценить идеальную ситуацию: X = CacheSize/2 в случае с полным проходом и X = CacheSize/4 в случаем с проходом накрест.

ZeroIce 27 апр 2009 в 15:19

Расскажут и с удовольствием! На этом держатся все ресурсоемкие приложения (от типа и версии процессора выбирается оптимальная для него функция, иногда встречаются даже разные exe и инсталлер создает ярлык на тот exe, который оптимизирован под CPU).

ZeroIce 27 апр 2009 в 15:22

помню как AMD размещали у себя на сайте примеры (с++) для оптимальной работы с памятью для K6. :)

nullbie 27 апр 2009 в 15:29

Ну это же скорее рекомендации, чем алгоритм выбора данных для захвата в кэш :)

nullbie 27 апр 2009 в 15:28

Точные алгоритмы вот так публично не расскажут — конкурент ведь не спит :) Основные идеи — да, наверняка доступны.

Компании, которые делают такие оптимизации как правило тесно сотрудничают с производителями процессоров (и, что важно, могут себе это позволить). Оптимизации уровня «запросить размер кэша и работать с блоками примерно такого размера» не в счет :)

Кстати, в многозадачной среде кэшированию еще и фоновые задачи палки в колеса вставляют, на консольных платформах активному приложению разрешено этим управлять. Все это получается слишком сложно, чтоб анализировать в данном контексте, да и я в данный момент не обладаю достаточным количеством подготовленной информации.

Однако если есть желание рассказать — с удовольствием почитаю :)

ZeroIce 27 апр 2009 в 15:43

Сейчас посмотреть оптимизацию для Intel можно наглядно с помощью их компилятора (он развернет циклы “как надо”, слегка оптимизирует алгоритмы (если возможно), может немного поменять логику работы с памятью). Всё что делает компилятор описано в соответствующих спеках. Логика работы в общем виде всегда была доступна, чтобы программер точно понимал где горлышко и почему все тормозит из-за жутких пенальти. Я довольно далеко ушел от архитектур, последним процем за которым я следил был AMD K7.

Многозадачность — это особенная фишка, которая заставляет постоянно перезагружать данные в кеш. :) При смене контекста, естественно, данные сбрасываются в кеш нижнего уровня (“ниже” нижнего уровня кеша – медленная RAM). Чем больше поток потребляет памяти, тем дороже его переключение, при желании или большой удаче можно “подвесить” поток – вся его работа будет заключатся в ожидании ответа от памяти, а когда ответ придет, квант времени будет исчерпан и уже другой поток запросит свою область.

Тема очень обширна для коммента. :(

nullbie 27 апр 2009 в 15:52

Я прекрасно понимаю обширность темы, это я так намекаю что с удовольствием почитал бы что-то более обширное, нежели комментарии :) Если время позволяет, конечно.

nullbie 27 апр 2009 в 15:57

Кстати, вернулись же к исходному — алгоритм кэширования (как и предсказания ветвлений) остается «черным ящиком», известно только что он должен делати и есть рекомендации что лучше на вход скармливать.

ZeroIce 27 апр 2009 в 19:52

«То, что скармливать» проистекает из
1. какой объем кешей.
2. какая разрядность у шины
3. какая задержка/частота у шины
4. какое время поиска/открытия ячейки памяти
Это уже не «черный ящик»… В крайнем случае «серый прозрачный» :)

nullbie 27 апр 2009 в 19:59

Нее, черный :) Он подключен к кэшам по быстрому каналу и к памяти по медленной шине.

А вот какой логикой он руководствуется при захвате блока памяти мало кому известно. Например высока вероятность, что при линейном чтении большого массива, через пару итераций будет захватываться блок большого размера (тем более что спекулятивное выполнение заглядывает на нексколько инструкций вперет и можно предугадывать, что надо подгрузить).

ZeroIce 27 апр 2009 в 20:12

я задумался на тему «что дать почитать». Вспомнил отличные и прозрачные материалы Николая Радовского. Если надо более серьезное, то могу посоветовать почитать «Архитектуру микропроцессоров» г. 1998 Питер (автора не помню, очень давно было :( ).

Huntlet 27 апр 2009 в 14:39

что-то я не понял, почему ReverseManualHalf должна работать быстрее ReverseArrayManual (((
количество итераций уменьшилось вдвое, размер итерации увеличился вдвое, в чём выгода?

nullbie 27 апр 2009 в 14:49

Расходы на организацию цикла. В данном случае они соизмеримы со сложностью одной итерации.

victorI 27 апр 2009 в 19:14

как думаешь, что быстрее будет — десять операций типа х = х + 1 подряд или цикл от одного до десяти с той же самой операцией?

цикл-то не бесплатный, там проверки счетчика стоят, определение куда прыгать и т.д.

поэтому существует такой метод оптимизации скорости, как разворачивание циклов (хотя в памяти такая программа больше места займет, конечно)

НЛО прилетело и опубликовало эту надпись здесь

nullbie 27 апр 2009 в 16:52

Действительно можно попробовать копировать блоки помещающиеся в L1 и переворачивать их in-place. Я хотел это проверить, но по ходу реализации пришел к выводу что это вряд-ли будет быстрее ReverseArrayManual :)

Что касается ReverseArrayFramework — ну так там и особо думать не о чем, прирост производительности в других реализациях достигается исключительно за счет отброса лишних копирований. А в случае unsafe еще исключается лишний промежуточный буфер.

TNK 27 апр 2009 в 17:12

графики — юзеранфрендли… у-шкала — это что: время или скорость? Если я не вникая в суть статьи пролистну сразу до графиков — из них не пойму, какой метод лучший.

kachkaev 27 апр 2009 в 18:41

Замечательная статья!
Если честно, прочитав сначала заголовок, подумал, что речь пойдет о разворачивании/сворачивании (expanding/collapsing) строчек кода в время редактирования сорца :)

chiaroscuro 27 апр 2009 в 19:07

Звездец.

Строка переворачивается элементарно:

reverse = foldl (flip (:)) []

А если серьезно, то вы впустую тратите время. Расскажите, какие задачи вы решаете, в которых настоящим ботлнеком является тупое переворачивание строки. Иначе же в топку.

nullbie 27 апр 2009 в 19:17

Знаете, а я вот думаю, что strrev(s) в С работает быстрее и эффективнее этого примера. и пишется короче :)

А если серъезно, то дело ведь не столько в самом акте разворачивания строки, лично мне интересней посмотреть, что вообще можно выжать из этой среды.

Есть два противостоящих «мира»: одни строят приложение на сверхвысокоуровневой платформе не думая об эффективности и производительности (об этом за нас подумает платформа ©), другие же пытаются выжать максимум чтою эта «платформа» таки думала за первых. Лично мне ближе второе, закономерно, что я буду везде искать интересные мне аспекты.

А конкретно это пример был «высосан из пальца» в пятницу вечером :)

chiaroscuro 27 апр 2009 в 19:32

> Есть два противостоящих «мира»: одни строят приложение на сверхвысокоуровневой платформе не думая об эффективности и производительности (об этом за нас подумает платформа ©), другие же пытаются выжать максимум чтою эта «платформа» таки думала за первых. Лично мне ближе второе, закономерно, что я буду везде искать интересные мне аспекты.

Ну так эта, если хоцца скорости, то strrev будет вин. А так очередной abuse.

> Кстати вопрос еще что считать «боттлнеком»: если требуется высокая интерактивность, то лишняя экономия не помешает :)

Неправильно. Оптимизировать надо только тогда, когда это действительно скажется на скорости. Ну а если оптимизировать, то скорость должна вырасти НА ПОРЯДОК, а не в два-три-четыре-пять раз (другими словами, 2x буст хоть и заметен пользователю, но жизни его не упростит, и следовательно, не нужен).

nullbie 27 апр 2009 в 19:44

Вы видимо никогда игрушки не писали :) Там даже за прирост скорости в 15% борются.
Согласен, писать динамичные игры на .Net в данный момент глупость, но так уж сложилось что я в силу определенный факторов пришел на эту платформу, а привычки и взгляды остались.

chiaroscuro 27 апр 2009 в 20:30

> Вы видимо никогда игрушки не писали :)

Ну как же. Писывал, было дело (непрофессионально). На Си, правда. Это был отборрный лапшекод, но тогда я этого не знал. :)

> Там даже за прирост скорости в 15% борются.

Везде одна и та же тенденция: сает — разгоним, игрушку — разгоним, переворачивание строк — разгоним… Это все бессмысленно.

Еще раз повторяю: если игрушка грузилась минуту, а мы ее загрузку ускорили в два раза, то пользователю от этого не стало легче. Он все равно так же уныло смотрит в монитор. Стоит ли такое ускорение проводить или нет? (Ответ, разумеется, нет.)

Что же касается скорости рантайма, то тут надобно находить ботлнеки, и бороться именно с ними, ибо, как известно, 90% времени программа проводит в 10% кода. Алгоритмические оптимизации рулят, а низкоуровневые — нет. (Исключения бывают, конечно, но только как исключения.)

nullbie 27 апр 2009 в 20:41

> Везде одна и та же тенденция: сает — разгоним, игрушку — разгоним, переворачивание строк — разгоним… Это все бессмысленно.

Вопрос не во времени загрузки игрушки, а в скорости отклика на действия пользователя.

chiaroscuro 28 апр 2009 в 07:32

> Вопрос не во времени загрузки игрушки, а в скорости отклика на действия пользователя.

Дык а причем здесь переворачивание строки-то? :)

Хорошая программа, однако, которая отзывчиво переворачивает строку…

DnV 28 апр 2009 в 04:29

>писать динамичные игры на .Net в данный момент глупость
для динамических игр есть XNA, так что не совсем глупость )

nullbie 28 апр 2009 в 04:54

Ну во-первых далеко не любой игровой платформе он есть :)
А во вторых… есть некоторые познания о жизнеспособности .Net CF в условиях ограниченых ресурсов (около 2М памяти, остальное железо тоже на уровне, .Net CF официальная среда), и они не очень позитивные. Впрочем писали же люди… И работало, правда с гайдлайнами .Net в итоге мало общего имело :)

self 3 мая 2009 в 17:14

Для таких сред есть .NET Micro Framework, правда его надо затачивать под каждое конкретное железо самостоятельно (т.к. он выполняет функции OS, которой как таковой нет).

nullbie 5 мая 2009 в 02:46

Ну вообще-то девайс мелкософтовский был и они почему-то решили выбрать .Net CF :)

Впрочем я не уверен, что девайс для игрушек предназначался, но такова специфика у gamedev индустрии — прикрутить игрушку на все, где ее можно продать :)

nullbie 27 апр 2009 в 19:21

Кстати вопрос еще что считать «боттлнеком»: если требуется высокая интерактивность, то лишняя экономия не помешает :)

eagleas 27 апр 2009 в 23:29

А теперь добавьте к исходным условиям задачи кодировку UTF-8 — что для современных приложений by default, и сложность задачи возрастет существенно.

nullbie 28 апр 2009 в 00:22

Ну не знаю, в мирах win32 и .Net все оперативные данные хранят в UTF-16, а UTF-8 используется только для ввода-вывода, поэтому замечание к .Net не применимо. А конвертация в обе стороны делается за один проход.

Кстати сложность будет сравнима со сложностью обработки суррогатных пар.

DnV 28 апр 2009 в 04:31

for (int i = str.Length; i-- !=; )

DnV 28 апр 2009 в 04:37

int i =;

С чем связано использование такого не совсем очевидного стиля? Какая практическая польза? (раз уж речь об оптимизации)

nullbie 28 апр 2009 в 04:50

1. Хабр нолик сожрал в условии
2. Стиль, как стиль. На С/С++ сплошь и рядом так пишут, главная польза в единоразовом вычислении str.Length. Ну и потенциальном схлопывании сравнения с нулем в одну операцию целевого процессора, хотя и мелочь второе.

DnV 28 апр 2009 в 06:01

Хабр что-то вообще много чего жрёт )

Я имел ввиду, почему не for (int i = str.Length; i != 0; i-- )?

Кстати, всегда интересно было, i>=0 идёт как одно сравнение? Или лучше использовать i>-1? Есть вообще разница?

chiaroscuro 28 апр 2009 в 07:38

> Есть вообще разница?

Нету разницы. Ускорять такие циклы на таком уровне — это пустая трата времени. [1]

Советую послушать курс компиляторов, чтобы не задавать такие вопросы.

[1] поменять время выполнения с 0.99с до 0.98с — велика разница? :)

nullbie 28 апр 2009 в 11:44

глобально — да, нету разницыБ нормальный компилятор развернет одинаково. просто в плюсах "!= 0" писать не надо, получается for (int i = str.Length; i--; ). писал, как привык.

DnV 29 апр 2009 в 00:59

Точно, спасибо.

fakka 29 апр 2009 в 11:29

сизифов труд, очевидные и никому не нужные результаты

-2

self 3 мая 2009 в 17:21

Ошибаетесь. Как минимум, будет что рассказать на собеседовании. Да и время сэкономит, случись озаботиться такой задачей.

mezastel 4 мая 2009 в 09:33

for (int i = str.Length; i-- != ; )

ошибка, вроде бы?

nullbie 5 мая 2009 в 02:44

да, выше написано. хабр нолик сожрал после "!=" :)

ostapbender 7 мая 2009 в 12:40

Все неправильно. Unicode-строки так не разворачивают: StringInfo.GetTextElementEnumerator() и далее.

nullbie 10 мая 2009 в 02:30

Очень даже разворачивают, только чуть более громоздко это будет.

Для большей наглядности, здесь не учтены unicode surrogate code points.

А фреймворк не есть единственно верное решение, кстати что-то мне кажется что энумератор тормозить ужасно будет. Ну примерно как версия с LINQ, по тем же причинам.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время