В поисках работы
Тут так случилось что я вдруг начал искать новую работу. Собеседования, тесты, ну вы сами всё знаете. И одним из тестов был небезызвестный Mamba Hiring запущенный еще в 2011 году.Пройдя тест и набрав 217 баллов я вспомнил про приложение на фейсбук в котором я тестировался с год назад и где у меня было 242 балла. Посмотрев и погоревав на свои цифры я подумал что вот опять довольно средний результат. Ой ли? А такой ли он средний? Надо посмотреть статистику, может быть не все так плохо? Какое это «среднее» значение в действительности?
Но статистики нигде нет, возможно я плохо искал и прошу тогда кинуть в меня ссылкой, но максимум что я нашел это сравнительная статистика по твоим друзьям в фейсбуке и отрывочная устаревшая статистика из ссылок указанных выше.
А ведь с начала функционирования теста прошло уже пара лет и там скопилось немало результатов. Жаль конечно что нет разделения на пол, возраст и всё такое, но ведь интересно увидеть хотя бы общую картину?
Результаты
Я не статистик и достаточно далек от этой темы, но я подозреваю что минимальный балл всё же не десять попугаев. Десять попугаев это те кто просто кликал наугад до упора вперед, но все же...Минимальный результат: 10
Максимальный результат: 497
Средний результат: 166
Количество тестируемых на момент написания статьи (май): 83591
Количество тестируемых на момент публикации статьи: 86354
График результатов (кликабельно, ведет на Google Drive с интерактивным вариантом):
Вариант диаграммы от eyeless_watcher:
А как же процесс?
Всё просто как орех. Когда мы заканчиваем тест на сайте corp.mamba.ru/test, нам выдают ссылку на графический виджет вида «http://www.corp.mamba.ru/test/widget.phtml?id=9000» Интересна она нам своим значением ID. Если его изменить то можно увидеть другой, чужой, результат.Алгоритм родился моментально.
1-ый прогон: лепим цикл на перебор ID’шников, скачиваем картинку, складываем в папочку.
2-ой прогон: идем по картинкам, обрезаем их до области с цифрой, суем в черный ящик распознания текста в лице TesseractOCR, а полученное значение сбрасываем в базу.
Код скриптов на гитхабе — только пожалуйста без холиваров, всё это дело написано минут за 5-10 и на один раз.
В заключении хотелось бы попросить Мамбу выложить результаты с тестирования через приложение Facebook, не думаю что имея данные по социальному аккаунту тестируемого сопоставить конкретный результат с конкретным возрастом и полом будет очень трудно :)
Да, кстати, кому требуются исходные данные, то вот они лежат .sql дампом. Могу даже ~83 500 (~700 мб) картинок выложить если это кому то потребуется.