Comments / Profile of ngis / Habr

Программирование. Качество гарантированное опытом.

Python3 — ImportError: No module named 'cv2'

ngis Mar 2 2022 at 07:34

Нет.

Менеджер pip нарушается принцип "чистой среды", загружая из сторонних источников исполняемый код, созданный третьими лицами.

-12

Look

Алгоритм Брезенхэма в приложениях реального времени — часть вторая

ngis Jan 14 2022 at 11:13

Отдавая себе отчёт о времени публикации данной статьи ( девять лет назад ), буду рад возможности осудить возможность ускорения и повышения точности "рисования", если задача ещё актуальна.

Был опыт создания скоростных растровых графических примитивов (прямые, ломаные, кривые, штриховки, заливки и т.д. )

Look

ARM Cortex M* — «сколько вешать в граммах»

ngis Jan 10 2022 at 21:43

Однако STM не равно Cortex, а M4 весьма отличается от M0

Вы абсолютно правы.

В угоду Вашей правоты замечу, что задача планировалась под чип STM32L031, но в процессе подготовки текста под рукой оказались другие оценочные платы, на что указывает директива условной компиляции в файле заголовка.

Учить читателя, что-либо доказывать, объяснять - такой цели здесь нет. Есть практический опыт, изложенный в доступной форме, пригодной для проверки, обсуждения, заимствования и улучшения. Лицензия в заголовке исходного кода это позволяет.

В разделе "постановка задачи" никакой постановки задачи нет..

Обременять популярную статью согласно "ГОСТ Р 19*", "ГОСТ Р 34*" или там "ГОСТ Р ИСО 9000, 9001, 9004" и т.п. считаю нецелесообразным.

(imho)

Look

ARM Cortex M* — «сколько вешать в граммах»

ngis Jan 10 2022 at 17:28

создатели кортексов наградили их чудесным средством DWT_CYCCNT

Согласен, DWT - интересная вещица.

В статье опыт решения прикладной задачи динамического контроля и корректировки множества, в том числе вложенных, малых интервалов времени, в т.ч. в режиме отладки, с минимальным набором аппаратных ресурсов на бюджетном микроконтроллере M0.

Полученный метод позволяет оперировать вложенными интервалами времени от нескольких тактов до нескольких часов с известной точностью, что и требовалось в прикладной задаче.

Look

ARM Cortex M* — сколько «весит» примитив?

ngis Nov 29 2021 at 05:58

Проектирование промышленных программ исключает обстоятельства, характеризуемые словосочетаниями "потом появляется", "вдруг" и т.п., ибо такие программы сопровождаются технической документацией, содержащей обязательный раздел "Технические условия эксплуатации", обоснованные в ТЭП ещё на этапе планирования разработки до создания исходного текста программы.

Время реакции на событие, предсказуемость времени реакции зависит от времени выполнения критических участков кода, обслуживающих событие. Об этом статья.

Практика всегда опирается на результат с заданной степенью точности. Достижение результата с заданной степенью точности всегда удовлетворяет практиков без оглядки на способ получения такого результата.

Приоритет способа в ущерб результату - это область теоретиков и учеников, допускающая непредвиденные обстоятельства типа "потом появляется", "вдруг" и т.д.

При всём уважении к теоретикам, здесь о практике.

Look

ARM Cortex M* — сколько «весит» примитив?

ngis Nov 28 2021 at 21:41

Что такое "чистая синтетика"? - сомневаюсь, что правильно понимаю этот термин.

Look

ARM Cortex M* — сколько «весит» примитив?

ngis Nov 28 2021 at 19:15

Для оценки соответствия машинного кода и кода на "C"; для снижения энтропии системы сборки через исключение модуля искажающего первичную алгоритмическую основу.

Дополнительная аргументация здесь:
https://habr.com/ru/post/591925/comments/#comment_23758799

Look

ARM Cortex M* — сколько «весит» примитив?

ngis Nov 28 2021 at 16:11

Вы правы, есть загрузка из памяти в регистры, и прерывания вклиниваются когда посчитают нужным.

В статье о поиске способа простого планирования и учёта времени работы ответственных участков кода оставаясь в парадигме языка "C".

Говоря о планировании, подразумеваем не обязательство, а цель, допускающую отклонение в пределах установленного допуска.

Это значит - без запретов прерываний, без порочного ожидания "delay()" и т.п.

Предположительное начальное приближения к решению задачи - подсчёт числа простейших арифметических операторов на языке "С" на контрольном участке кода.

Под простейшим оператором понимаем конструкцию типа: A = B + C, где A, B и C - переменные в RAM.

Время срабатывания простейших арифметических операторов "C" поддаётся измерению с удовлетворительно точностью (+/- 1 такт) без понижения абстракции до уровня ассемблера и машинных команд, в контексте синтаксиса "С".

При этом работа оптимизатора - последнее дело. Ибо, важнее на данном этапе смысловая проработка задачи и статистическая устойчивость атомарного замера малых промежутков времени без оглядки на платформу MCU и параметры сборки.

Look

ARM Cortex M* — сколько «весит» примитив?

ngis Nov 28 2021 at 07:26

Внезапно, отключение оптимизации замедлило выполение.

Это нормально.

Забавно иначе, включение оптимизации замедляет работу алгоритма из 7-и строчек. :-)

Такой случай в примере для FPU x86 здесь, включая исходник:
https://habr.com/ru/post/562572/

Только, что току с того исходника? Зафиксировали факт. Двигаемся далее.

Разработчики компиляторов - они то же программисты, а это значит, что в их работе то же бывают косяки. :-)

компилятор не может понять, что от него хотят

Компилятор не должен "понимать". Компилятор обязан просто переводить алгоритмы программиста в машинный код, ибо программисту виднее, что он хочет посчитать и как. (imho)

В противном случае, имеем то, что имеем.

Вместо обсуждения прикладной задачи по планированию и учёту сверхмалых интервалов времени (вводная статья), профи с уважаемого форума тратят драгоценное внимание на косяки и тараканы в gcc - плотники до блеска натирают молотки вместо забивания гвоздей. :-)

С другой стороны, замусорить машинный код командами, "съёдающими" время без искажения задачи, в режиме -O0, и демонстрировать удивительную производительность с оптимизацией, - отличный маркетинговый ход! Троекратное "у-ра" маркетологам gcc. /* сарказм */ :-)

Но, я за программистов. :-)

Look

ARM Cortex M* — сколько «весит» примитив?

ngis Nov 27 2021 at 23:12

Ничего, что команды сложения, вычитания и умножения на M0 выполняются за одинаковое время - 1 такт?

Согласен. В теории Вы правы и документация верна.

На практике простейшая операция выполняется минимум за 4 такта: два такта на загрузку двух операндов из памяти в регистры, один такт, как Вы правильно заметили, уходит на саму примитивную операцию, и один такт на возврат результата из регистра в память.

В эти 4 такта может легко вклинится обработчик прерывания, если ему приспичит. Есть множество других, объективных причин, влияющих на время выполнения простейших операций.

Однако вопрос не в том, как с этим бороться, а в том как это учитывать, планируя гарантированную производительность бюджетного устройства.

-1

Look

ARM Cortex M* — сколько «весит» примитив?

ngis Nov 27 2021 at 22:44

Да нет там ничего "военного":

#define RAND_NUMBER_16 (int16_t)((rand() - RAND_MAX / 2) % INT16_MAX )

Целочисленные переполнения - с этим тоже всё хорошо - проверенная временем практика непрерывной индексации циклических процессов.

У сборки -O0 cмысл в том, чтобы сузить зону поиска трабла, через исключение влияния оптимизатора кода.

Кстати, а для какого микроконтроллера Вы генерируете проверочный код?

Look

ARM Cortex M* — сколько «весит» примитив?

ngis Nov 27 2021 at 17:00

Дизассемблер машинного кода без оптимизации (-O0) для int16 и int32, версия компилятора здесь:

https://habr.com/ru/post/591925/comments/#comment_23756785

Глядя на дизассемблер понятно, откуда набегают лишние такты.

Код на "C" для 16bit (сложение) выглядит так:

   	__IO int16_t	i1, i2, i3, is;

	i1 = RAND_NUMBER_16;
	i2 = RAND_NUMBER_16;
	i3 = 0;

	i3 = i1 + i2;

	is += i3;

Код на "C" для 32bit (сложение) выглядит похоже:

	__IO int32_t	i1, i2, i3, is;

	i1 = RAND_NUMBER_32;
	i2 = RAND_NUMBER_32;
	i3 = 0;

	i3 = i1 + i2;

	is += i3;

Участки кода для других арифметических операторов выглядят идентично, за исключением арифметического оператора в строке #7.

Look

ARM Cortex M* — сколько «весит» примитив?

ngis Nov 27 2021 at 14:21

Да, нормально оно выглядит. :-)

В ответе выше дизассемблер машинного кода, полученного штатным gcc из исходника на "C" с опцией -O0.

Допускаю, что ручками на макро-ассемблере можно делать более эффективный код, однако тогда теряется смысл языка высокого уровня, а стоимость разработки поднимется на никому не нужную высоту.

Look

ARM Cortex M* — сколько «весит» примитив?

ngis Nov 27 2021 at 13:49

Ответы в порядке поступления вопросов.

Компилятор:
gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.12)

Цель - не скорость.
Цель - повышение утилизации, интенсивности работы бюджетного MCU.

Оптимизация по размеру (-Os) выбрана на основании требований к памяти - 32Кб (64К крайний предел).

Что происходит - дополнительные издержки на преобразование полуслов в слова и обратно на операциях с данными, менее слова.

Оптимизатор запутать нельзя, т.к. на примитивных операциях он отдыхает. Да, и трудно представить, как оптимизировать формулу:
A = B + C, где все слагаемые int ?

Казалось бы ...
Отключение оптимизации (-O0) ухудшило арифметику на int16:

+=========================================
+-------------- #  1 ---------------------
+-- RELEASE at 15:51:09
+-- CPU:48 MHz, STM32 ARM Cortex M4
+-----------------------------------------
+-- cpu time of simple int16 "C"
fn:    i3 = i1 + i2,	cc:   11, us:    0
fn:    i3 = i1 - i2,	cc:   11, us:    0
fn:    i3 = i1 * i2,	cc:   11, us:    0
fn:    i3 = i1 / i2,	cc:   13, us:    0
fn:    i3 = i1 % i2,	cc:   14, us:    0
--- is:715826417 ---
+-----------------------------------------
+-- cpu time of simple int32 "C"
fn:    l3 = l1 + l2,	cc:    4, us:    0
fn:    l3 = l1 - l2,	cc:    4, us:    0
fn:    l3 = l1 * l2,	cc:    4, us:    0
fn:    l3 = l1 / l2,	cc:    8, us:    0
fn:    l3 = l1 % l2,	cc:   10, us:    0
--- ls:223077021 ---

Причина замедления арифметики int16 - издержки на выравнивание границ и слов.

Формула на "С":
A = B + C
все переменные int16

Соответствующий машинный код:

08002a2a:   ldrh    r3, [r7, #6]
08002a2c:   sxth    r3, r3
08002a2e:   uxth    r2, r3
08002a30:   ldrh    r3, [r7, #4]
08002a32:   sxth    r3, r3
08002a34:   uxth    r3, r3
08002a36:   add     r3, r2
08002a38:   uxth    r3, r3
08002a3a:   sxth    r3, r3
08002a3c:   strh    r3, [r7, #2]

Формула на "С":
A = B + C,
Все переменные int32

Соответствующий машинный код:

08003146: ldr r2, [r7, #12]
08003148: ldr r3, [r7, #8]
0800314a: add r3, r2
0800314c: str r3, [r7, #4]

Как говорится, найдите 10 отличий. :-)

К вопросу о доверии к методу измерения.

Ассемблерные команды семейства Thumb2 выполняется, в основном, за 1 такт.

Если посчитать строчки ассемблера, то их число совпадёт с результатом соответствующих измерений в тактах из таблице выше по тексту.

Look

ARM Cortex M* — сколько «весит» примитив?

ngis Nov 27 2021 at 12:42

О том, что в премиальном сегменте "железа" больше возможностей - спору нет.

Однако, в статье речь о бюджетных MCU, когда главное преимущество - низкая цена.

Look

ARM Cortex M* — сколько «весит» примитив?

ngis Nov 27 2021 at 12:36

про разницу int16 и int32 уже закрадываются сомнения в правильности измерений.

Замедление скорости вычислений для int16 обосновано в ответе на комментарий выше. Там же ассемблерный код для оператора:
L3 = L2 + L1,
где все переменные с типом int32.

Для той же формулы с переменными int16, в машинном коде появятся дополнительные команды, преобразующие машинное полу-слово в слово и обратно.

Look

ARM Cortex M* — сколько «весит» примитив?

ngis Nov 27 2021 at 12:10

CubeIDE, gcc (-std=gnu11, --specs=nano.specs -mfpu=fpv4-sp-d16 -mfloat-abi=hard -mthumb - Os)

На операциях int16 применяются дополнительные команды на преобразование полуслова 16bit в слово в 32. Процессор не может оперировать половиной регистра.

Два операнда по 16bit - две дополнительные команды ассемблера при загрузке данных из памяти в 32bit регистры процессора, плюс ещё одна дополнительная команда при выгрузке результата из регистра процессора в память.

Итого на три такта больше, чем сложение целых в формате 32bit, где всего четыре команды: две загрузки, одно сложение и одна выгрузка:

08003146: ldr r2, [r7, #12] 08003148: ldr r3, [r7, #8] 0800314a: add r3, r2 0800314c: str r3, [r7, #4]

Применяемая точность измерения сверхмалых интервалов +/- 1 такт, поэтому есть расхождения в 1-2 такта времени срабатывания int16 и int32, однако это не существенно для изложенной темы.

Look

stm32. Смотрим в корень

ngis Sep 2 2020 at 07:03

В качестве эталона для сверки лучше брать стандартную функцию из "math.h". В статье, как эталон, применялась sqrt_fpu(...).

Look

stm32. Смотрим в корень

ngis Sep 2 2020 at 05:38

Замечательный, быстрый код.

Вы проверяли алгоритм на отсутствие ошибок при округлении?

Look

stm32. Смотрим в корень

ngis Aug 18 2020 at 18:24