Comments / Profile of CleverMouse / Habr

User

Поддержка USB в KolibriOS: что внутри? Часть 1: общая схема

CleverMouse Jun 4 2013 at 14:31

По производительности — второй пример был из планировщика ehci_select_hs_interrupt_list — там же не вызывается сброс контроллера каждый раз?

Нет, планировщик вызывается при открытии канала, то есть несколько раз при начальной конфигурации устройства — требующей как минимум тех самых 100 мс в начале. На фоне которых говорить о паре тактов просто смешно.

Трудоёмкость — да, очень хочу убедить

Речь шла про трудоёмкость изменения кода только из-за того, что он на ассемблере. Я думаю, что демонстрация была достаточно убедительной, чтобы этот миф можно было закрыть.

так как шишек много. Опять таки, это был первый попавшийся на глаза пример.

Это неубедительное теоретизирование. Убедительной демонстрацией было бы «вот, смотрите, я заменил movi на mov и теперь <что-нибудь> занимает не две секунды, а одну».

Если очень интересно — можно ещё найти места, где используются лишние копирования (потому что
человеку не под силу держать в голове текущий контекст программы)

Вот это интересно, подобное ещё и размер раздувает. Найдите — я исправлю и скажу «спасибо».

где инструкции идут не в самом благоприятном порядке — это всё макросами не исправишь

Инструкции можно переставить. Но здесь уже надо доказывать, что перестановка инструкций что-то даст.

(movi — оперативненько!)

Спасибо. Я стараюсь.

И насчёт «размер результата будет в разы больше» это вы погорячились. Я тоже так думал, ровно до тех пор, пока компилятор не стал генерить сравнимый (а зачастую и более короткий и быстрый код).

Распространённое заблуждение. Я приведу два примера.

Пример 1. У нас есть драйверы для видеокарт Intel и ATI, портированные с Linux, — естественно, на Си. Их нет в дистрибутиве: в образ они не влезают, а методы, позволяющие обратиться к дополнительным источникам данных, где бы они ни были, пока в разработке — но их без проблем можно найти на форуме. Так вот, дословный кусок кода из одной версии одного из драйверов:

.text:000033EA                 movzx   edx, byte ptr [eax+ebx+3]
.text:000033EF                 shl     edx, 8
.text:000033F2                 movzx   esi, byte ptr [eax+ebx+2]
.text:000033F7                 or      esi, edx
.text:000033F9                 shl     esi, 10h
.text:000033FC                 movzx   edx, byte ptr [eax+ebx+1]
.text:00003401                 shl     edx, 8
.text:00003404                 movzx   eax, byte ptr [eax+ebx]
.text:00003408                 or      eax, edx
.text:0000340A                 movzx   eax, ax
.text:0000340D                 or      esi, eax

Упражнение на понимание: выяснить, что делает код, записать результат одной ассемблерной командой и сравнить размеры.

Пример 2. Типичный фрагмент программы на Си:

extern void f(void* something, int x, int y, int z);
...
void* p;
...
f(p, 1, 2, 3);

Вменяемый ассемблерщик в зависимости от желания/наличия макросов может написать либо

ccall f,[p],1,2,3

либо, что то же самое,

push 3
push 2
push 1
push [p]
call f
add esp,10h

Если p — локальная переменная и создан кадр стека, то [p] — что-то типа [ebp-4] и конструкция занимает 2*3+3+5+4 = 18 байт.
Барабанная дробь, gcc с ключом -Os, который якобы означает «оптимизировать по размеру»:

mov eax,[p]
mov dword[esp+12],3
mov dword[esp+8],2
mov dword[esp+4],1
mov dword[esp],eax
call f

Здесь кадра стека уже не будет, и [p] — что-то типа [esp+20]. Теперь конструкция занимает 4+8*3+3+5 = 36 байт. Разница, как видно, в два раза. Сравнимый код, говорите?