@Andrey200828 окт 2024 в 07:23

Самая красивая ошибка, которую я нашёл с помощью PVS-Studio в 2024 году

8 мин

Блог компании PVS-StudioC * C++ * Open source * Программирование *

Кейс

+55

Комментарии 49

@Andrey2008 28 окт 2024 в 07:33

Движок habr для кода умный там, где не надо :)

Он схлопывает две пустые строчки в одну, поэтому не удаётся показать лишнюю пустую строчку в коде, про которою идёт речь. Она здесь:

Как вариант можно у нас в блоге посмотреть статью, там как показан так, как надо.

@sshmakov 28 окт 2024 в 14:35

А я просто посчитал количество элементов в енуме и строковых констант, на 1 не сошлось.

@redfox0 29 окт 2024 в 03:50

Я искал отсутствующую запятую типа такой, не нашёл:

  /* DBG_STATUS_DBG_BUS_IN_USE */
  "The debug bus is in use"

  /* DBG_STATUS_INVALID_STORM_DBG_MODE */
  "The storm debug mode is not supported in the current chip",

@vvzvlad 4 ноя 2024 в 16:28

Он схлопывает две пустые строчки в одну, поэтому не удаётся показать лишнюю пустую строчку в коде, про которою идёт речь.

Даже в code? Оо

@Andrey2008 4 ноя 2024 в 17:00

Да

@vvzvlad 4 ноя 2024 в 17:01

@Boomburumа проверьте, плиз? В моем понимании тег code должен исключительно бережно относиться к содержимому, а тут он фактически ломает код.

@RodionGork 28 окт 2024 в 07:34

Ну такое, всё же здесь пресловутая "ошибка в ДНК" скорее, а то что нашли - уже вторичное проявление. Безусловно если код разрабатывать таким образом то без тулов для всевозможных проверок и анализа будет очень больно.

Если уж константы определили то нужно было коненчо не лениться и строки расставить в соответствии с ними, а не комменты к ним приписывать, т.е. массив инициализировать вот таким немного унылым образом:

s_status_str[DBG_STATUS_OK] = "Operation completed successfully";
s_status_str[DBG_STATUS_APP_VERSION_NOT_SET] = "Debug application version wasn't set";
//...

я не знаток C/C++ так что может есть уже какая-то более удобная конструкция (можно было вообще ключи текстовые имхо и мапу использовать) - но принцип такой - не надо константы и значения по двум разным файлам разносить и пытаться их вручную с дурацкими комментами матчить. это обязательно "бумкнет" :)

@alexxisr 28 окт 2024 в 07:42

в джаве сделали удобно - можно в самом enum добавлять произвольные поля и пользоваться им как этакой нерасширяемой мапой.

@RodionGork 28 окт 2024 в 07:45

да, вариантов много - ну в джаве можно было бы имя константы самой вывести с помощью рефлексии и не возиться со строчками. или вынести строчки в json-файл и выбирать их оттуда (возможно опять же по имени константы)... тут и локализацию легко внедрить.

@mentin 28 окт 2024 в 08:05

Проблема с такой инициализацией - она выполняется в рантайме, а та - статически компилятором. Начиная с С99 (то есть почти везде) можно и статически, но про это мало кто знает и редко использует.
https://www.geeksforgeeks.org/designated-initializers-c/

@RodionGork 28 окт 2024 в 08:18

но про это мало кто знает

спасибо, огонь :) очевидно "красивая ошибка" настолько стара что ещё в C99 против неё попытались обезопаситься

@DrGluck07 29 окт 2024 в 11:37

А ещё эту инициализацию можно делать в любом порядке. Хоть это наверное и не очень правильно.

@DrGluck07 29 окт 2024 в 11:34

Всегда так делаю. Кстати, забавно, что многие программисты C++ не знают о таком способе инициализации массивов.

@zzzzzzerg 29 окт 2024 в 13:15

А они должны?

Aggregate initialization - cppreference.com

Note: out-of-order designated initialization, nested designated initialization, mixing of designated initializers and regular initializers, and designated initialization of arrays are all supported in the C programming language, but are not allowed in C++.

@DrGluck07 29 окт 2024 в 13:30

Не разрешена-то не разрешена, но чот прекрасно работает.

@zzzzzzerg 29 окт 2024 в 13:33

Наверное у вас в компиляторе есть расширение для этого. Когда последний раз год назад я пробовал в VS2019 - не работало.

@DrGluck07 29 окт 2024 в 14:39

Мы это в основном на микроконтроллерах используем, там своя атмосфера. Хотя, кмк, в каком-то проекте на Qt тоже использовали и всё было нормально.

@Mishootk 28 окт 2024 в 09:02

я не знаток C/C++ так что может есть уже какая-то более удобная конструкция (можно было вообще ключи текстовые имхо и мапу использовать) - но принцип такой - не надо константы и значения по двум разным файлам разносить и пытаться их вручную с дурацкими комментами матчить. это обязательно "бумкнет" :)

Вот отправная точка:

https://habr.com/ru/articles/276763/
Взял идею, под свои потребности написал почти заново и нарадоваться не могу.

@Melirius 28 окт 2024 в 19:35

Или рефлексия по enum, или макросами такое делают.

@mentin 28 окт 2024 в 07:37

На ревью кода конечно такое можно поймать, я бы здесь попросил добавить static_assert что размер второго массива совпадает с MAX_DBG_STATUS.

@RodionGork 28 окт 2024 в 07:42

порядок перепутать легко все равно... особенно если эти фрагменты часто редактируют разные люди... ну тогда и анализатор не поможет впрочем :)

@viordash 28 окт 2024 в 08:20

можно использовать в qed_dbg_get_status_str switch на енам dbg_status . В этом случае массив строк s_status_str уже не нужен. А компилятор ругнется если не все кейсы будут обработаны.

@COKPOWEHEU 28 окт 2024 в 09:01

Да тут сам массив строк выглядит ужасно.

static const char * const s_status_str[] = {
  [DBG_STATUS_OK] = "Operation completed successfully",
  [DBG_STATUS_APP_VERSION_NOT_SET] = "Debug application version wasn't set",
  [DBG_STATUS_UNSUPPORTED_APP_VERSION] = "Unsupported debug application version",

И все.

@datacompboy 28 окт 2024 в 09:16

Поможет гарантировать, что к правильным индексами привязаны правильные строки, но не гарантирует, что для всех индексов прописаны строки.

Причем, если к последней определённой константе строка есть -- пропущенные в середине countof() не поймает.

@COKPOWEHEU 28 окт 2024 в 09:36

не гарантирует, что для всех индексов прописаны строки.

А это толком и не отследить. Разве что в рантайме пройтись циклом и проверить длину каждой строки. В любом случае это куда менее опасная ошибка, чем сдвиг вообще всех индексов.

Пример по сути демонстрирует, что используя плохие практики программирования, можно получить трудноуловимые ошибки. Ну так не используйте плохие практики.

@datacompboy 28 окт 2024 в 09:42

А это толком и не отследить

Есть много способов отследить и убедиться в этом. Как правило, игнорируемые по причине того, что код -- одноразовый. Написал и забыл, редактируется настолько редко, что нагораживание защит вокруг дороже обойдётся.

Лучший способ в данном конкретном случае (и всех аналогичных) -- использовать статический анализатор, который может поймать косвенно (как в статье) по использованию, или попытаться "догадаться" что массивы должны быть 1-в-1 с enum'ом.

Я удивлён, кстати ( @Andrey2008 ), что PVS-Studio не догадывается что это дескриптор для ENUMа и не проверяет на равенство элементов и порядка констант унутре. А ведь косяк в таких массивах часто получается из-за потерянной запятой.

@Andrey2008 28 окт 2024 в 09:53

Хм.. Место для подумать, спасибо.

@COKPOWEHEU 28 окт 2024 в 10:44

Есть много способов отследить и убедиться в этом.

Средствами языка и без накладных расходов? Что-то ничего в голову не приходит.

@datacompboy 28 окт 2024 в 11:48

Средствами языка и без накладных расходов:

Когда в массиве элементы перечислены последовательно -- сравнивая countof() в compile-time, мой основной подход;
Мета-макросы, как @RR_Zz упоминул ниже;
unit-testing с перечислением всех вариантов (я считаю форменным издевательством для данного случая, впрочем).

Средствами языка с накладными расходами:

Используя enum class + функцию с case вместо массива;
Проверки assert()'ы или просто if()'s в функциях доступа для проверок или включая проверки на доступ вне массива

Средставми вне языка без накладных расходов в рантайме:

стандартные статические анализаторы;
генератор кода по внешнему источнику (в каком-то смысле вариация x-macro)
ручной валидатор кода заточенный под конкретный случай, например, автогенерация юнит теста.

Это навскидку

@COKPOWEHEU 28 окт 2024 в 12:06

Когда в массиве элементы перечислены последовательно -- сравнивая countof()

Что такое countof? gcc ругается, гугл ссылается куда-то в С++. Или я что-то неправильно понял?

Мета-макросы, как @RR_Zz упоминул ниже;

Интересная штука. Надо будет над ними помедитировать поподробнее.

unit-testing

Это все же не средствами языка

Спасибо. Вариант с мета-макросами интересный, может и пригодится когда.

@datacompboy 28 окт 2024 в 12:11

sizeof -- размер в байтах, countof -- размер в элементах. Существует как _countof и в вариациях имени типа array_size, ARRAY_SIZE, std::ranges::size и все прочие. Просто проверяем, на момент компиляции, что размер массива сопадает числу элементов ENUMа.

@COKPOWEHEU 28 окт 2024 в 12:21

Существует как _countof и в вариациях имени типа array_size, ARRAY_SIZE, std::ranges::size

На все эти варианты gcc ругается undefined reference to `countof'. Может, в Си этой функции все же нет? Или имеется в виду вообще любая, в том числе самописная, функция / макрос вида (sizeof(x)/sizeof(x[0]))?

Просто проверяем, на момент компиляции, что размер массива сопадает числу элементов ENUMа.

Если используется явное указание индексов {[x]=y, [z]=w,...}, это не спасет от пропущенного элемента в середине. А если как в исходном примере {y, w, ...}, то от перепутанного порядка.

@datacompboy 28 окт 2024 в 12:30

Имеется ввиду любая реализация проверки на число элементов.

Да, как, и писал выше, явные индексы делают эту проверку бесполезной. В остальном случае, проверка достаточна с практической точки зрения для напоминания о месте использования. Типичные случаи добавления нового элемента проблем не доставляют, и пропущенную запятую при первоначальном наполнении ловит.

@Lamaster 29 окт 2024 в 10:03

А это толком и не отследить

В Kotlin это отслеживается when(enumValue)

@Dovgaluk 28 окт 2024 в 12:24

Тут можно последнюю константу потерять, и будет выход за границу массива.

Стоит ещё добавить размер:

static const char * const s_status_str[MAX_DBG_STATUS] = {

@neon1ks 28 окт 2024 в 10:00

Этот код хорошо покрывается юнит тестами.

@Andrey2008 28 окт 2024 в 10:16

Но не покрыт :)

P.S. Про юнит-тесты в DPDK отдельная земетка скоро будет :)

@Andrey2008 5 ноя 2024 в 12:39

А вот и обещанная статья "Поиск ошибок в юнит-тестах".

@seityaya 28 окт 2024 в 10:22

Тут прям напрашивается xmacro паттерн..

@Arioch 28 окт 2024 в 17:42

Тут вам любители Перла привет передают. Строго говоря это не ошибка, на корректность компиляции не влияет. Но вот на чтение людьми и последующие модификации, на GREP'ы и так далее - очень даже.

/* DBG_STATUS_DATA_DID_NOT_TRIGGER */
DBG_STATUS_DATA_DIDNT_TRIGGER,

Хорошо бы такие опечатки тоже ловить.

я нашел это только пропарсив оба файла перлом, загнав имена в словари и распечатав отсортированые ключи. ну и сравнив потом диффом.

@CitizenOfDreams 29 окт 2024 в 06:15

Вот только найти её, просматривая код, ой как непросто.

Наивный вопрос не-программиста: анахрена так вообще делать, и как потом редактировать эти два отдельных списка имен и строк? Почему не писать что-то вроде:

const char STATUS_OK "Все в порядке" //у нас все получилось
const char STATUS_NOT_OK "Все не в порядке" //у нас ничего не получилось
const char STATUS_OOPS "Вообще все плохо" //Наташа, мы все уронили

@COKPOWEHEU 29 окт 2024 в 06:51

Потому что все эти DBG_STATUS_ предназначены в первую очередь не для преобразования в строку, а чтобы отслеживать ошибки внутри программы. Возвращать из функций, использовать в качестве кода завершения программы, возможно для логов.
Идея использовать вместо короткого числа указатель на строку, конечно, интересная, но указатели ведь при каждом запуске новые будут. То есть когда программа упала, расшифровать коды ошибок будет сложно.

@sshmakov 29 окт 2024 в 06:52

Так, что ли?

const char *STATUS_OK = "Все в порядке";

@Panzerschrek 29 окт 2024 в 06:22

Задача преобразования enum в строку решена весьма опасным способом. Лучше было бы написать switch и case под каждое значение. Современные компиляторы достаточно умны и укажут, если какое-то значение пропущено, главное - не ставить default. При этом этот код столь же оптимален, как и вручную заполненная таблица - компиляторы умеют switch в таблицу переходов преобразовывать.

https://godbolt.org/z/Gfo1b7G4e - как видно, что gcc, что clang умеют так оптимизировать код.

@DrGluck07 29 окт 2024 в 11:44

Хороший способ. Единственное возражение, которое приходит в голову, на микроконтроллерах может потребоваться возможность положить этот массив строк в определенную память.

@datacompboy 29 окт 2024 в 12:00

удивительно, как странно выглядит код в gcc если добавить -fPIC. clang'овый сразу уже позиционно-независим и не меняется от флага

@playermet 29 окт 2024 в 13:26

А я недавно ознакомился с вот такой особенностью С++.

// Объявление с именем example
char const* example() {
  return "function";
}

// Имя example уже занято, но ошибок компиляции нет
// Объявление с именем example в struct namespace
struct example {
  operator char const* () {
    return "struct";
  }
};

int main() {
  char const* s = example();
  // Выведет "function"
  // Но если удалить функцию, выведет "struct"
  std::cout << s << std::endl;

  char const* ss = struct example();
  // Выведет "struct"
  std::cout << ss << std::endl;
}

Объявление struct, class, union и enum работает так, словно неявно обернуто в typedef. Но только если имя типа еще не занято чем-то другим. Итого, получается потенциал для сложноотслеживаемого бага.

@Kelbon 29 окт 2024 в 14:58

а можно было убрать массив и написать switch, где компилятор необработанные кейсы сам покажет

@Andrey2008 12 ноя 2024 в 08:51

Продолжаем наслаждаться. DPDK: 100 больших и маленьких багов.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий