LeonSabr Nov 6 2013 at 16:13

Как мы тестируем поиск в Яндексе. Screenshot-based тестирование блоков результатов

5 min

41K

Яндекс corporate blogIT systems testing*JavaScript*

+64

Comments 17

Wolonter Nov 6 2013 at 16:35

Спасибо за статью.

Каким образом вы перезапускаете тесты, чтоб исключить случайности? Если автоматически, то как с этим работает CI? Если автоматически, то как отслеживаете, какие тесты часто падают случайно и что с ними делаете?

Кто первый работает с результатами screenshot-based тестов: разработчики, тестировщики, автотестеры?

Какова вероятность ложного срабатывания отдельного теста? Сколько тестов всего? Сколько тестов ложно срабатывают в каждой сборке? Сколько времени ежедневно тратится на поддержку системы в контексте ложных срабатываний?

LeonSabr Nov 6 2013 at 17:10

Каким образом вы перезапускаете тесты, чтоб исключить случайности? Если автоматически, то как с этим работает CI? Если автоматически, то как отслеживаете, какие тесты часто падают случайно и что с ними делаете?

После выполнения сценария понятно, есть ошибка или нет. Если есть ошибка, не завершая теста, мы выполняем сценарий заново с помощью механизма рул в junit. Отчет содержит ошибку, если она воспроизвелась заданное нами число раз. Соответственно, CI про это ничего не знает. Через некоторое время использования таких тестов приходит знание, какие колдунщики стабильны, а какие нет. Могу привести примеры нестабильных колдунщиков: время [который час], панорамы [панорама москвы], игры [игры онлайн]. Это либо анимация, либо сильно случайные данные. Срабатывания этих тестов однотипны и легко отличимы от реальных проблем.

Кто первый работает с результатами screenshot-based тестов: разработчики, тестировщики, автотестеры?

Удалось передать эксплуатацию тестов ручным тестировщикам (в большей степени) и разработчикам (в меньшей степени). Есть довольно прозрачный механизм запуска тестов и получения отчета в понятном стороннему от автоматизации человеку виде. От автоматизаторов теперь зависит добавление новой функциональности и поддержка тестовых сценариев (локаторы изменились, запросы протухли) — но и тут большая помощь идет от ручных тестировщиков. Мы дали им возможность редактировать и добавлять сценарии отдельно от кода.

Какова вероятность ложного срабатывания отдельного теста? Сколько тестов всего? Сколько тестов ложно срабатывают в каждой сборке? Сколько времени ежедневно тратится на поддержку системы в контексте ложных срабатываний?

Вероятность распределена неравномерно по тесткейсам. Есть тесткейсы, которые никогда не давали ложного срабатывания. Есть тесткейсы, которые почти всегда дают срабатывание (писал об этом выше, про нестабильные колдунщики). Для домена ru сейчас используетсяя около 700 тесткейсов. Скажем так, «срабатывает» около 10% тестов из запуска в нормальных условиях. Нормальные условия — это когда не меняют глобальные библиотеки стилей.

Про поддержку. Профит в том, что код практически не деградирует, иногда ему нужно добавлять новую функциональность. А вот тесткейсы естественно деградируют. Но практика показывает, что времени нужно немного. Бывают недели, когда вообще ничего не правим. Но хотел бы отметить, что нам главное не время на поддержку, а приносимая польза. Лучше сложнее поддержка, но больше экономии времени ручным тестировщикам (в разумных пределах, конечно).

Есть наша статистика, которую посчитали при запуске тестов в эксплуатацию: после появления тестов, время тестирования поисковой выдачи в одном браузере/домене сократилось с 90 минут до 46 (из которых 8 уходило на анализ отчета автотестов). Экономию в 44 минуты на каждый браузер/домен нужно умножить на число поддерживаемых конфигураций.

UFO just landed and posted this here

LeonSabr Nov 6 2013 at 17:25

Не совсем честно, но, оглядываясь на долю этого браузера и несовершенство его реализации Selenium Webdriver, мы говорим «это тоже webkit, нам хватит Chrome».

spacediver Nov 7 2013 at 00:21

Очень удивился, почему тестовую среду проводите в субботу. Я думал это традиция такая будет: «тестовые среды с Яндексом».

p.s. Конечно, понятно, что удобство для людей важнее игры слов в названии мероприятия и календаре ;)

TedBeer Nov 7 2013 at 01:34

О я такую же штуку замутил, когда надо было большой и отвественный модуль полностью переписать. Скриншоты генерил в phantom.js Командой написали кучу тестов, которые охватывают всю функциональность, включая драг-дроп. На питоне написал сравнивалку скриншотов. Скрипт находил разные файлы, подсвечивал разницу и складывал в отдельную папку. В результате прогона создавалось несколько сотен скриншотов. После рефакторинга скриншоты с подсвеченой разницей отлично помогли найти регрессии и ручное тестирование выявило минимум ошибок.

Azy Nov 7 2013 at 07:55

А в опенсорс не хотите выложить?

TedBeer Nov 7 2013 at 10:59

Легко, только надо немного времени, чтоб адекватную инструкцию написать.

Azy Nov 7 2013 at 11:06

Да выкладывайте, там разберемся :)

bondarenko Nov 8 2013 at 07:54

Хорошо что на Python!
Можно прикрутить к Robot Framework. У него есть встроенная библиотека ScreenshotLibrary, которая позволяет по ходу выполнения теста делать скриншоты.
Так что ждем ссылочку с нетерпением, а то утомились уже вручную скриншоты просматривать и анализировать.

Sergey_Tikhomirov Nov 8 2013 at 10:33

Присоединяюсь :)

TedBeer Nov 8 2013 at 20:53

Написал пост на тему своей реализации. Таки извиняюсь, что дезинформировал вас — Питон был использован в другом проекте, а тут я обошелся готовыми средствами.

LeonSabr Nov 7 2013 at 12:56

Интересно, может быть использовали какой-то умный алгоритм сравнения скриншотов? Понятно, что реальный браузер — зачастую самое медленное звено тестов, но и оптимизация сравнения больших скриншотов видится полезной.

gryphon Nov 7 2013 at 01:45

извините за выражение, но sikuli

-1

xy4 Nov 7 2013 at 09:46

А у вас получилось использовать Сикули с пользой?

gryphon Nov 7 2013 at 12:25

да, оно и с вебдрайвером работает

LeonSabr Nov 7 2013 at 13:04

Если вы предлагаете использовать Sikuli IDE, то это видится неприемлемым. Как и популярная в свое время Selenium IDE.

Если использовать обвязку для webdriver, то я не совсем понимаю, как подружить sikuli с Selenium Grid, ведь фактически машина, на которой выполняется тест, и машина, на которой запущен используемый браузер, — это разные машины. А без грида мы получим неприемлемое время выполнения полного набора тестов.

В общем, хочется больше подробностей, как вы видите sikuli в качестве альтернативы описанному решению.