Promwad Jan 27 2015 at 12:19

Использование DSP-сопроцессора DM8168 с помощью фреймворка C6Accel

14 min

12K

Promwad corporate blogHigh performance*Programming*Manufacture and development of electronics*

В этой статье мы познакомимся с отладочной платой DM816x/C6A816x/AM389x и фреймворком C6Accel (он же C6EZAccel), а также рассмотрим инструкции по наладке системы для выполнения встроенных тестовых приложений.

Всё началось с интересной идеи использовать алгоритмы нынче очень популярной библиотеки компьютерного зрения OpenCV на микропроцессоре. Однако, изучив немного тему, идея уточнилась. Почему бы не реализовать алгоритмы не просто на ядре ARM, а на специализированном ядре для цифровой обработки сигналов DSP? Тем самым разгрузим ядро ARМ, ускорим выполнение алгоритмов, и, глядишь, самое громоздкое приложение заработает в реальном времени.

Итак, что же использовать для решения задачи? Оказалось вариантов немного…

Рассмотрим всё логично и последовательно. Начнём с того, что позволяет работать с DSP процессором – это фреймворк C6Accel. Хорошо, он поддерживает OpenCV (причем 2.x) только в последней версии – 2.01.00.11. В свою очередь, этот фреймворк написан под микропроцессоры C6A81xx/DM81xx. По названию статьи вы уже догадались, что попался нам под руку DM8168, для работы с которым требуется программный интерфейс TI EZSDK (последняя версия – 5.05.02.00).

Для тех, кому хочется подробностей, в конце статьи есть полезные ссылки.

1. Описание отладочной платы DM816x/C6A816x/AM389x

Вычислительный модуль DM816x/C6A816x/AM389x, разработанный компанией Texas Instruments совместно с Spectrum Digital, позволяет производить разработку на DM816x DaVinci MPU (DM8168, DM8167, DM8166, DM8165), на C6A816x C6-Integra DSP+ARM процессорах (C6A8168, C6A8167) и на AM389x Sitara ARM MPUs (AM3894, AM3892).

Это чудо техники предназначено для широкого спектра решений, таких как видеорегистраторы (DVRs) для наблюдения, системы организации видеоконференций, системы телевизионного вещания, медиасерверы, одноплатные компьютеры, вычислительные шлюзовые машины, маршрутизаторы, серверы, промышленная автоматика, интерфейсы «пользователь-машина» (HMIs), терминалы пунктов обслуживания для сбора данных, машинное зрение, приложения для тестирования, измерения, слежения, контроля и др.

Теперь посмотрим на сам объект. Он состоит из двух блоков печатных плат:

вычислительный модуль 8168 (сверху);
дочерняя плата расширения входов-выходов (снизу).

Ввиду большого количества компонентов обратим своё внимание только на особо важные.

На рисунке выше изображён вычислительный модуль 8168 со следующими обозначенными компонентами:
1. и 2. — это переключатели №3 (SW3) и №4 (SW4) соответственно.

Стандартно загрузка платы происходит с флеш-памяти NAND (однако существует много других режимов, например, загрузка с SD-карты), поэтому переключатели №3 и №4 были установлены в нужное положение: SW3[9:0]=”0000010010” и SW4[1:0]=”10” [NAND/SPI].

3. Последовательный порт (COM-порт).
4. Порт HDMI.
5. Порт Ethernet.
6. Порт USB.
7. Компонентный видеоразъем.
8. Слот для SD-карты.
9. Гнездо питания.
10. Переключатель питания.
11. Микропроцессор DM8168 (эмулирует AM3894 и C6A816).

Функциональная диаграмма:

Характерные особенности:
    •  VLIW-процессор C674x DSP (до 1 ГГц, тип команд – с фиксированной и плавающей точкой).
    •  RISC-процессор ARM Cortex-A8 (до 1,2 ГГц).
    •  Укоритель 3D-графики SGX530.
    •  Подсистема обработки видео высокой чёткости (HDVPSS).
    •  3 программируемых сопроцессора обработки видео высокой чёткости (HDVICP2), отвечающих за захват, кодирование, декодирование и анализ нескольких видеопотоков, а также поддерживающих стандарты H.264, MPEG4,H263, VC1/RTV, AVS, RV10, ON2, JPEG, MPEG2, DIVX.
    •  Широкий набор периферийных модулей:
       — 2 канала Gigabit Ethernet;
       — 2 канала PCI Express;
       — 2 канала SATA с интегрированным физическим уровнем;
       — 2 канала USB 2.0 с интегрированным физическим уровнем;
       — интерфейсы DDR3, MMC/SD, HDMI и DVI.

Для дальнейшей работы мы подключались к компонентам 3, 5, 9 и настраивали переключатели 1, 2, 10.

2. Описание фреймворка C6Accel

C6Accel – абсолютно бесплатный инструмент разработки ПО от Texas Instruments (TI). Он предназначен для упрощения разработки кода DSP на двухъядерных гетерогенных процессорах SoC от TI, а именно для устройств ARM+DSP, которые запускают Linux на ARM и содержат процессор DSP из семейства C6000.

2.1. Из чего состоит C6Accel?

C6EZAccel состоит из алгоритмов цифровой обработки сигналов, которые придерживаются интерфейса алгоритмов под названием XDAIS (eXpressDsp Algorithm Interoperability Standard). TI также предоставляет фреймворк под названием Codec Engine, который позволяет эффективно выполнять алгоритмы, написанные с использованием интерфейса XDAIS. TI поставляет все свои кодеки в рамках ПО для SoC и рекомендует использование Codec Engine. C6EZAccel также состоит из библиотеки на стороне ARM, являющейся надстройкой над Codec Engine, который предоставляет APIs (интерфейсы программирования приложений). А они, в свою очередь, позволяют коду приложения на стороне ARM вызывать выполнение алгоритмов XDAIS на DSP. Эта библиотека содержит в себе управление кешем, преобразование адресов, передачу параметров и обработку ошибок из приложения, работающего на ARM.

2.2. Как работает C6Accel?

Код ARM-приложения (или промежуточное ПО, которое его использует) вызывает C6Accel. Он использует оболочку библиотеки APIs и/или Codec Engine, совместимый c iUniversal APIs, которые, как и VISA APIs, используются для вызова Audio/Video/Speech-кодеков. Потом эти APIs просматривают интерфейс Codec Engine и вызывают алгоритм C6Accel на DSP, который идентифицирует вызов функции и задействует соответствующую функциональность на DSP, используя параметры, переданные из приложения.

3. Использование EZSDK и C6Accel

Достаточно теории, приступим к практике. EZSDK 5.05.02.00 поддерживается только в Ubuntu 10.04 LTS 32-bit или Ubuntu 11.10 32-bit. Поэтому тем, у кого не установлена одна из этих ОС (конечно же, мы работали под более новой версией), придётся использовать виртуальную машину, например, VirtualBox. Инструкции по её установке и настройке имеются здесь.

Далее используются следующие обозначения:

host $ – команда для выполнения на хосте;
target # – команда для выполнения на целевой ОС.

3.1. Установка и сборка EZSDK

Перед началом работы с EZSDK следует скачать и установить компилятор С CodeSourcery Toolchain 2009q-203. Просто распакуйте архив в домашнюю директорию.

Скачайте EZSDK 5.05.02.00 и выполните:

host $ sudo ./ezsdk_dm816x-evm_5_05_02_00_setuplinux

Запустится установщик. Укажите расположение CodeSourcery Toolchain, т. е. /home/%username%/arm-2009q1/bin, и путь для установки EZSDK – /home/%username%/ezsdk.

Разработчики данного ПО позаботились о нас и сделали интерактивный скрипт (одна из причин строгой привязки к версии OC):

host $ export EZSDK="${HOME}/ezsdk"
host $ sudo ${EZSDK}/setup.sh

Скрипт установит необходимые пакеты и попросит уточнить:

путь установки целевой файловой системы – /home/%username%/targetfs;
путь корневой директории tftp – /tftpboot;
путь последовательного порта – /dev/ttyUSB0 (для подключения по USB-порту) или /dev/ttyS0 (для подключения по COM-порту);
ip-адрес хост-машины – у каждого свой (например, у нас 10.54.4.44);
расположение ядра Linux – 1-е из предложенного списка, т. е. TFTP;
расположение корневой файловой системы – 1-е из предложенного списка, т. е. NFS;
имя образа ядра, загружаемого из TFTP – uImage-dm816x-evm.bin;
создавать ли скрипт для minicom – согласитесь;
запускать ли сейчас созданный скрипт – откажитесь.

Cкорректируем этот скрипт: откроем его в текстовом редакторе и заменим текст «mem=364M@0x80000000 mem=320M@0x9FC00000» на «mem=364M», так как в дальнейшем невозможно будет загрузить необходимые модули ядра.

Далее, для выполнения каких-либо операций на плате нужно запустить minicom с настройками, указанными в скрипте, командой

host $ minicom -S setup_uimage-tftp_fs-nfs.minicom

Далее нужно перезапустить плату.

Теперь при сборке EZSDK возникает проблема из-за отсутствия некоторого компонента. Можно починить, распаковав архив 8272.pcie.tar.gz в директорию /home/%username%/ezsdk/example-applications.

Наконец соберём EZSDK командами

host $ cd ${HOME}/ezsdk
host $ sudo make all
host $ sudo make install

3.2. Установка и сборка С6Accel

Скачайте C6Accel 2.01.00.11 и выполните:

host $ sudo ./c6accel_2_01_00_11_Linux-x86_Setup.bin

Укажите путь установки /home/%username%/c6accel.

Операционная система реального времени SYS/BIOS является составной частью EZSDK, однако версии позже 6.32.02.09 не поддерживают Real Time Data eXchange (RTDX), который необходим при сборке С6Accel. Поэтому установим SYS/BIOS 6.32.02.09 специально для С6Accel:

host $ sudo ./bios_setuplinux_6_32_02_39.bin

Укажите путь установки /home/%username%/c6accel/bios_6_32_02_39.

Исправим пути в файле Rules.make в /home/%username%/c6accel на следующие:

DVSDK_INSTALL_DIR=$(HOME)/ezsdk
TARGETFS_INSTALL_DIR = $(HOME)/targetfs
C6ACCEL_INSTALL_DIR=$(HOME)/c6accel
BIOS_INSTALL_DIR = $(HOME)/c6accel/bios_6_32_02_39
DSPDEVKIT_INSTALL_DIR= $(DVSDK_INSTALL_DIR)/dsp-devkit
LINUXDEVKIT_INSTALL_DIR = $(DVSDK_INSTALL_DIR)/linux-devkit
PLATFORM = dm816x-evm

И, в конце концов, соберём С6Accel командами:

host $ cd ${HOME}/c6accel
host $ sudo make all
host $ sudo make install

3.3. Выполнение теста DSP

Приятно, что C6Accel содержит в себе пример для тестирования выполнения кода на DSP-процессоре. Выполним скрипт загрузки модулей cmem и dsplink (это библиотеки связки ARM и DSP, с помощью которых грузится CodecEngine) и запустим тестирующие приложение.

target # cd /opt/c6accel_app/c6accel_dsplib_testapp
target # ./loadmodules_ti8168_c6accel.sh
target # ./c6accel_dsplib_testapp

Ура! По сообщениям в консоли видно, что всё в порядке и ничего не сломано

******************************************************************************
Sample application for testing kernels in C6Accel started.
******************************************************************************
CERuntime complete
C6Accel handle created
—
Test for Vision/Analytics functions in C6Accel:
—

Testing the function: VLIB_histogram_1D_дU8…
VLIB_histogram_1D_U8 passed the test!

Testing the function: VLIB_histogram_1D_U16…
VLIB_histogram_1D_U16 passed the test!

Testing the function: VLIB_histogram_nD_U16…
VLIB_histogram_nD_U16 passed the test!

Testing the function: VLIB_weightedHistogram_1D_U8…
VLIB_weightedHistogram_1D_U8 passed the test!

Testing the function: VLIB_weightedHistogram_nD_U16…
VLIB_weightedHistogram_nD_U16 failed the test!
VLIB_unpackMask32 passed the test!
VLIB_packMask32 passed the test!
VLIB_subtractBackGroundS16 passed the test!
VLIB_subtractBackGroundS32 passed the test!

Testing the function: VLIB_extractLumaFromUYUV…
C6accel test for VLIB_extractLumaFromUYUV passed the test!

Testing the function: VLIB_convertUYVYsemipl_to_YUVpl…
VLIB_convertUYVYsemipl_to_YUVpl passed the test!

Testing the function: VLIB_convertUYVYpl_to_YUVint…
VLIB_convertUYVYpl_to_YUVint passed the test!

Testing the function: VLIB_convertUYVYint_to_YUVpl…
VLIB_convertUYVYint_to_YUVpl passed the test!

Testing the function: VLIB_convertUYVYint_to_RGBpl…
VLIB_convertUYVYint_to_RGBpl passed the test!

Testing the function: VLIB_ConvertUYVYint_to_YUV420pl…
VLIB_ConvertUYVYint_to_YUV420pl passed the test!

Testing the function: VLIB_convertUYVYint_to_LABpl…
VLIB_convertUYVYint_to_LABpl passed the test!

Testing the function: VLIB_convertUYVYint_to_HSLpl…
VLIB_convertUYVYint_to_HSLpl passed the test!

Testing the function: VLIB_convertUYVYint_to_LABpl_LUT…

Completed initialization.
VLIB_convertUYVYint_to_LABpl2 passed the test!
Testing VLIB_harrisScore_7x7…
VLIB_harrisScore_7x7 passed the test!

Initializing Legendre Polynomial

Computing Legendre Moments

Testing the function: VLIB_legendreMoments…
VLIB_legendreMoments passed the test!

Testing the function: VLIB_normalFlow_16…
VLIB_normalFlow_16 passed the test!

Testing the function: VLIB_kalmanFilter_4x6 functions…
VLIB_kalmanFilter_ VLIB_recursiveFilterHoriz1stOrderS16…
VLIB_recursiveFilterHoriz1stOrderS16 passed the test!

Testing VLIB_recursiveFilterVert1stOrядра.der…
VLIB_recursiveFilterVert1stOrder passed the test!

Testing VLIB_recursiveFilterVert1stOrderS16…
VLIB_recursiveFilterVert1stOrderS16 passed the test!

Testing the function: VLIB_bhattacharyaDistance_U32…
VLIB_bhattacharyaDistance_U32 passed the test!

Testing the function: VLIB_L1DistanceS16…
VLIB_L1DistanceS16 functions passed the test
VLIB_dilate_bin_mask passed the test!
VLIB_dilate_bin_square passed the test!
VLIB_dilate_bin_cross passed the test!
VLIB_erode_bin_mask passed the test!
VLIB_erode_bin_square passed the test!
VLIB_erode_bin_cross passed the test!
Testing VLIB_trackFeaturesLucasKanade_7x7…
VLIB_trackFeaturesLucasKanade_7x7 passed the test!
VLIB Canny functions Test results:
IMG_conv_7x7: passed the test!
VLIB_xyGradient: passed the test!
VLIB_nonMaximumSuppressionCanny: passed the test!
VLIB_doublethresholding: passed the test!
VLIB_edgeRelaxation: passed the test!

Calling Chained Canny API:
Chained Canny edge detection function failed the test!

Testing the function: VLIB_integralImage8…
VLIB_integralImage8 passed the test!

Testing the function: VLIB_integralImage16…
VLIB_integralImage16 passed the test!

Testing the function: VLIB_imagePyramid8…
VLIB_imagePyramid8 passed the test!

Testing the function: VLIB_imagePyramid16…
VLIB_imagePyramid16 passed the test!

Testing the function: VLIB_gauss5x5PyramidKernel_8…
VLIB_gauss5x5PyramidKernel_8 passed the test!

Testing the function: VLIB_gauss5x5PyramidKernel_16…
VLIB_gauss5x5PyramidKernel_16 passed the test!

Testing the function: VLIB_gradientH5x5PyramidKernel_8…
VLIB_gradientH5x5PyramidKernel_8 passed the test!

Testing the function: VLIB_gradientV5x5PyramidKernel_8…
VLIB_gradientV5x5PyramidKernel_8 passed the test!

VLIB_initMeanWithLumaS16 passed the test!
VLIB_updateEWRMeanS16 passed the test!
VLIB_initMeanWithLumaS32 passed the test!
VLIB_updateEWRMeanS32 passed the test!
VLIB_initVarWithConstS32 passed the test!
VLIB_updateEWRVarianceS32 passed the test!
VLIB_initVarWithConstS16 passed the test!
VLIB_updateEWRVarianceS16 passed the test!
VLIB_updateUWRMeanS16 passed the test!
VLIB_updateUWRVarianceS16 passed the test!
—
Test for Image processing functions in C6Accel:
—
Tests for Histogram functions successful
Test for Median Filtering functions successful
Tests for Convolution functions successful
Tests for Correlation functions successful
Tests for Sobel Filter successful
Test for Image multiplication functions successful
Tests for Image addition functions successful
Tests for Image substraction functions successful
Tests for Color Space Conversion functions successful
C6accel_IMG_ycbcr422pl_to_ycbcr422sp() successful
C6accel_IMG_ycbcr422sp_to_ycbcr422ile() successful
C6accel_IMG_ycbcr422sp_to_ycbcr420pl successful
—
Test for Fixed point Signal processing functions in C6Accel
—
Tests for FFT functions successful
Tests for Invers FFT functions successful
Test for Auto Correlation function successful
Tests for DoT Product functions successful
Tests for Matrix multiplication successful
Tests for FIR Filtering functions successful
Test for IIR Filter successful
—
Test for Fixed point Math functions in C6Accel
—
Test for Arithmetic RTS functions successful
Tests for Conversion RTS functions successful
Tests for IQmath Conversion functions successful
Tests for Mathematical IQmath functions successful
Tests for Arithmetic IQmath functions successful
Tests for Trignometric IQmath functions successful
—
Test for Floating point Math Functions in C6Accel
—
Test for Arithmetic RTS functions successful
Tests for Conversion RTS functions successful
Tests for Floating point RTS single precision functions successful
Tests for Floating point RTS double precision functions successful
—
Test for Floating point Signal processing Functions in C6accel
—
Test for Floating point DSP FFT function successful
Test for Floating point DSP vector multiplication successful
Test for Floating point DSP vector reciprocal function successful
Test for Floating point DSP vector reciprocal function successful
Test for Floating point DSP vector weighted sum function successful
Test for Floating point DSP vector dot product function executed successful
Tests for Floating point DSP matrix functions successful
Tests for Floating point DSP Matrix Multiplication functions successful
Test for Floating point DSP matrix transpose function successful
Tests for Floating point DSP autocorrelation functions successful
Tests for Floating point DSP convolution functions successful
Test for Floating point DSP FIR filter successful
Test for Floating point DSP Inverse FFT function successful
Test for Floating point DSP BIQUAD Filter successful
Test for Floating point to Double precision successful
Test for Complex to real and imaginary passed successfully
-> Asynchronous Calls
Tests for FFT functions successful
Tests for Sobel Filter successful
Test for Arithmetic RTS functions successful
******************************************************************************
All tests done.
******************************************************************************

4. Тест сравнения работы функций OpenCV на ARM и DSP

OpenCV (Open Source Computer Vision Library) – библиотека алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения с открытым исходным ко-дом. Библиотека написана на C и C++, однако поддерживается Java, Python и др. Работает под Linux, Windows и Mac OS X.

OpenCV представляет собой простую в использовании библиотеку компьютерного зрения с более чем 500-ми функций, способными работать в реальном времени. Они охватывают множество областей, такие как контроль качества на производстве, системы безопасности, обработку изображений в медицине, пользовательские интерфейсы, стереоскопическое зрение и роботостроение.

Так как библиотека OpenCV является переносимым ПО, её можно скомпилировать в большинстве систем, в которых предусмотрен компилятор C/C++. OpenCV успешно используется на ARM, MIPS, Xscale и других процессорах.

Стоит заметить, что в C6Accel 2.01.00.11 имеются не все функции OpenCV, а лишь 50.

4.1. Установка и сборка OpenCV

Следуйте инструкциям для сборки OpenCV 2.2.0 под ARM-платформу. При их выполнении помните, что CodeSourcery Toolchain уже установлен.

Скопируем разделяемые библиотеки OpenCV в целевую файловую систему.

host $ cp ${HOME}/build/lib/* ${HOME}/targetfs/usr/lib

4.2. Сборка и выполнение теста

Первая проблема, с которой пришлось столкнуться, – это ошибка при загрузке изображений. Почему-то не нравятся картинки с расширением png, ошибка локализована в функции cvCreateImage. Ладно, изменим на другое расширение, например, bmp. Это можно сделать так:

host $ cd ${HOME}/c6accel/soc/app/c6accel_opencv_testapp/opencv_images
host $ for fname in *.png; do convert "$fname" "$fname.bmp"; done

И конечно, не забудем изменить расширения в исходном коде. В файлах appMain.c и c6accel_opencv_testfxns.c расположенных в директории /home/%username%/c6accel/soc/app/c6accel_opencv_testapp заменим все вхождения строки «.png» на «.png.bmp», для этой цели удобен текстовый редактор gedit с комбинацией клавиш Ctrl+H.

Второй проблемой оказались ошибка при выполнении функции C6Accel_test_Matchshapes и отказ работы функции cvFindCornerSubPix (в связи с известным багом http://code.opencv.org/issues/963).

В файле appMain.c закомментируем строку с функцией C6Accel_test_Matchshapes. А в файле c6accel_opencv_testfxns.c закомментируем текст со строки

//cvFindCorner SubPix issue to be resolved

и включительно до строки

printf("Called ARM FindCornerSubPix function (time: %f ms)\n", t_algo / 1000.0 / n);

Напоследок соберём и запустим тестовое приложение.

host $ cd ${HOME}/c6accel
host $ sudo make opencv_app
host $ sudo make opencv_app_install
target # cd /opt/c6accel_app/c6accel_opencv_testapp
target # ./loadmodules_ti8168_c6accel.sh
target # ./c6accel_opencv_testapp

Ура! После долгих мучений всё заработало.

Результат работы приложения подытожен в таблице

Функция OpenCV	Среднее время выполнения на ARM, мс	Среднее время выполнения на DSP, мс	Отметка о выборе DSP	Разница между результатами выполнения на ARM и DSP (расстояние в пространстве L2, если не указано иное)
cvCanny	43.218000	42.804000	+	0.000000
get Affine transform matrix	0.557000	0.411000	+	0.000000
Affine transform	46.325000	36.554000	+	7926.342031
2D Rotation Matrix	0.314000	0.378000	-	0.000000
Rotation using Affine	55.380000	40.985000	+	774.451419
cvIntegral	6.537000	8.232000	-	0.000000
cvMinMaxLoc	3.083000	1.660000	+	Результаты совпадают
cvNorm	1.881000	1.336000	+	0.000000
AddS	9.573000	12.434000	-	0.000000
AbsDiff	9.036000	14.349000	-	0.000000
AbsDiffS	10.555000	12.670000	-	0.000000
Add	8.931000	15.852000	-	0.000000
cvDilate	3.182000	1.282000	+	0.000000
cvErode	3.093000	1.281000	+	0.000000
cvLaplace	180.171000	11.968000	+	0.000000
cvPyrDown	4.265000	4.917000	-	0.000000
cvFilter2D	519.593000	21.259000	+	3651.030129
cvFindContours	11.915000	17.753000	-	Результаты совпадают
EqualizeHist	5.809000	8.921000	-	0.000000
SetZero	0.634000	3.871000	-	132898.252336
Rectangle	5.847000	1.307000	+
Circle	3.652000	3.323000	+
Flip	12.372000	12.071000	+	0.000000
Copy	2.479000	6.072000	-	0.000000
Sobel	5.463000	7.197000	-	0.000000
ConvertScale	5.139000	6.044000	-	0.000000
Adaptive threshold	89.986000	33.231000	+	0.000000
cvMulSpectrums	91.865000	15.221000	+	0.086427
cvDFT	597.131000	99.666000	+
cvNormalize	57.318000	13.576000	+
cvSmooth	109.345000	57.467000	+	1771.619316
HoughLines2D	2314.028000	634.262000	+	46306.904723
cvCornerHarris	653.550000	168.213000	+	0.136828
cvCornerEigenValsAndVecs	3430.892000	870.525000	+	350.751214
cvCornerMinEigenVal	1384.182000	1.155000	+	–
cvMulSpectrums	91.711000	15.323000	+	0.086427
cvDFT	597.707000	99.412000	+
cvNormalize	58.782000	13.751000	+
GoodFeaturesToTrack	1259.277000	279.508000	+	–
FindCornerSubPix	–	449.029000		–
cvMatchTemplate	1576.569000	221.753000	+	3.741657
cvThreshold	2.182000	4.442000	-	0.000000
cvBoundingRect	0.036000	0.302000	-	Разница между полученными площадями – 0.000000
cvDrawContour	0.030000	0.989000	-
cvContourArea	0.049000	0.231000	-
Plotting	–	183.243000
CvtColor	16.283000	13.804000	+	0.000000
Resize	18.357000	17.617000	+	0.000000
cvCalcOpticalFlowPyrLK	2472.993000	146.874000	+	Оба результата состоят из 445 особенностей
HaarDetectObjects	2522.499000	460.350000	+	Оба результата состоят из 5-ти элементов. ARM: 0: 46, 48 (42x42) 1: 174, 48 (37x37) 2: 240, 51 (38x38) 3: 110, 48 (40x40) 4: 92, 37 (131x131) DSP: 0: 47, 49 (40x40) 1: 175, 49 (35x35) 2: 240, 52 (37x37) 3: 17, 198 (34x34) 4: 110, 48 (38x38)

По результатам можно сделать выводы:

У некоторых функций имеется разница между результатами выполнения. Архитектура сигнальных процессоров, по сравнению с микропроцессорами общего применения, имеет некоторые особенности, связанные со стремлением максимально ускорить выполнение типовых задач ЦОС. DSP ориентированы, в первую очередь, на многократное выполнение умножения с расчётом «на лету» адресов перемножаемых элементов массивов. Алгоритм, реализованный на различных базовых операциях, может давать различные результаты.
Не все функции работают быстрее на DSP, чем на ARM. Можно заметить закономерность: это функции базовых операции над матрицами или функции, которые в основном из них состоят. Такие «плохие» функции можно выполнять на ARM, в то время как другие пере-нести на DSP. В случае перегрузки процессора ARM использование некоторых «плохих» функций на DSP может быть терпимым.
При использовании «хороших» функции на DSP можно достичь улучшения в разы и даже более чем на порядок. Это, как правило, наиболее трудоёмкие функции.

Таким образом, балансируя между быстродействием, загрузкой процессоров и результатами выполнения можно существенно оптимизировать работу приложения.

Полезные ссылки:

Tags:

Hubs: