ukhegg Apr 15 2017 at 12:10

Генератор тестовых данных для C++

4 min

10K

C++ * TDD * Programming * IT systems testing *

Comments 16

apro Apr 15 2017 at 12:26

А оставшаяся часть подобного тестирования, а именно — получив ошибку на каком-то случайном наборе данных, пытаемся упростить набор данных,
до тех пор пока ошибка воспроизводится, реализована в каком-нибудь
проекте для C++?

ukhegg Apr 15 2017 at 12:29

Нет, ни с чем подобным я не встречался. Однако интересную мысль вы подкинули-добавить возможность записи генерируемых данных с целью их последующего воспроизведения.

apro Apr 15 2017 at 12:39

Нет, ни с чем подобным я не встречался.

Странно, просто все библиотеки для других языков с которыми я работал это умеют "из коробки",
например quickcheck для Haskell, или его аналог для Rust, там эта фича называется "shrink".

ukhegg Apr 15 2017 at 12:47

но мир C++ зачастую вызывает боль и страдание

;)

Xop Apr 17 2017 at 17:52

Я реализовал такое, но на C99. Даже почти довел до первого релиза, думал статью на хабре написать, но в какой-то момент очень резко кончилось свободное время. Поэтому похоже вместо статьи будет этот коммент.

Основной целью было сделать тестовый фреймворк, в котором максимально просто писать тесты, которым можно тестировать plain C код, и для работы которого не обязательно наличие системного malloc. Насколько получилось — можно посмотреть тут. К сожалению пока там есть места с говнокодом, с неконсистентыми именами (с этим вообще беда, иногда подолгу метался между разными вариантами) и не все покрыто тестами — но оно поэтому и не релиз пока что. Зато вроде получилось действительно просто писать тесты (тестирую фреймворк самим собой), и реализовано упрощение тестовых наборов при падении теста. Ну и если кто-то будет смотреть — хотелось бы обратной связи — оно вообще в таком виде кому-то надо/интересно? Стоит ли продолжать работу?

JegernOUTT Apr 15 2017 at 12:54

В текущем проекте есть нечто подобное, привязанное к boost::fusion и rttr (можно так же добавить boost::hana и magic_get) и умеющее генерировать рандомные объекты pod-типов :) для тестов различных сериализаций / десериализаций / orm-ов / и т.п. отлично подходит)

marsianin Apr 15 2017 at 18:21

Почему был выбран именно такой метод генерации случайных float и double? Правильно ли я понимаю, что библиотека не вернёт NaN в качестве случайного float или double? Также, как мне кажется, крайне мала вероятность получить subnormal или бесконечность.

ukhegg Apr 16 2017 at 08:08

пробовал генерировать float и double просто как набор бит, и как то числа 1.45e+240 ну совсем ни о чем. Готов выслушать любые предложения. А Nan можно получить, специализировав алгоритм генерации и там просто условно выбирать Nan или что-то ощутимое

marsianin Apr 16 2017 at 18:55

Для генерации вещественных чисел, как мне кажется, имеет смысл посмотреть на алгоритмы из Berkley Testfloat. http://www.jhauser.us/arithmetic/TestFloat.html

Xop Apr 17 2017 at 21:05

Посмотрите питоновскую библиотеку hypothesis — в плане идей "как надо делать" это просто праздник какой-то.

nolled Apr 15 2017 at 18:53

Тестирование на рандомных объектах немного антипаттерн, тесты будут то фейлится то нет.

apro Apr 15 2017 at 23:03

Тестирование на рандомных объектах немного антипаттерн, тесты будут то фейлится то нет.

Здесь играет роль размер выборки, ведь можно сгенерировать несколько миллионов случайных
вариантов. Плюс главное чтобы хоть раз зафейлился, потом берется данные на которых
зафейлился и после починки добавляются в тест напрямую в качестве дополнения к генерируемых случайным
образом. Плюс конечно очевидные крайние случаи стоит тестировать напрямую, типа пустое значение, максимальное значение и т.д.

nolled Apr 16 2017 at 06:26

ok. Есть функция, причем очень простая:

int Foo(int num, int div)
{
   return num / div;
}

Здесь играет роль размер выборки, ведь можно сгенерировать несколько миллионов случайных
вариантов.

Как эти несколько миллионов рандомных вариантов протестируют эту функцию? Подсказка, инпут позволяет 4.6e18 вариантов. Даже 100 миллионов вариантов не покроет и 1%.

Это желание переложить создание тесткейсов на рандомный объект на практике будет означать что код будет протестирован всеголишь чуточку лучше чем smoke test, то есть практически никак.

apro Apr 16 2017 at 07:59

Как эти несколько миллионов рандомных вариантов протестируют эту функцию?
Даже 100 миллионов вариантов не покроет и 1%.

100 миллиардов в данном случае помогут, т.к. 2^32=4_294_967_296,
т.е. у нас неминуемого будет 0 во втором аргументе, т.е. тест будет падать при каждом
прогоне.

Это желание переложить создание тесткейсов на рандомный объект на практике будет означать что код будет протестирован всеголишь чуточку лучше чем smoke test, то есть практически никак.

Соглашусь с неявно витающей мыслью — это не серебренная пуля,
и неким магическим образом она не даст 100% покрытие.

Не соглашусь, что она только чуть-чуть улучшит smoke test.

Давайте изменим методику подсчета :)

Пользуясь эмпирическим опытом выскажу гипотезу, что в обычном проекте (т.е. от которого
не зависит жизнь или огромные суммы денег), данная функция будет максимум
протестирована для 1000 вариантов (хотя скорее максимум для 3 :) ),
т.е. 100_000_000, увеличит вероятность нахождения
ошибки в 100_000 раз. Да, общая вероятность увеличится незначительно,
но ведь это инструмент, никто не мешает применять его с умом:

int test_Foo_special(uint8_t a, uint8_t b) 
{
    static const int SPECIAL_VALUES[] = {
        INT_MAX,
        INT_MIN,
        0,
        INT_MAX / 2,
        INT_MIN / 2,
    };
    return Foo(SPECIAL_VALUES[a], SPECIAL_VALUES[b]);
}

скорее всего уже эта test_Foo_special на практике позволит найти 90% ошибок,
хотя казалось бы общее количество тестируемых вариантов увеличилось незначительно.

Т.е. резюмируя по сравнению с тем, что ленивый программист пишет, позволяет увеличить
тестовое покрытие в миллионы раз, и но конечно в абсолютном значении процент
вариантов входных данных для которых проведено тестирование, вырастет незначительно,
поэтому надо применять с умом и других инструментов/специально обученных людей подобные
библиотеки не заменят.

ukhegg Apr 16 2017 at 08:11

100`000`000 лучше чем 1-5 написанных вручную.Я же не говорю, что это единственный способ получения тестовых данных. Если вы можете для своего кода придумать граничные условия, никто не запретит вам добавить отдельные тесты для них.

Xop Apr 17 2017 at 21:02

В нормальных фреймворках для property-based тестирования случайности не совсем случайны. Например, если требуется какой-то int, то хорошим тоном будет считаться существенно более частое выпадение значений в районе 0, INT_MIN и INT_MAX. И шансы, что тест этой функции зафейлится даже на 10 тестах уже довольно высоки. А итераций без проблем может быть и 1000.