Pull to refresh

Тривиум теории измерений

Big Data *Mathematics *
В статистике и анализе данных подразумевается, что все значения являются действительными числами (векторами действительных чисел) или с легкостью могут быть к ним сведены. А вот, например, в непараметрической и нечисловой статистике, а также в эконометрике весьма важно на какой шкале взяты данные, чтоб понимать, какие операции и методы с ними применимы.

Проблема с определением шкал еще состоит в том, что их строят математики, строго формализуя, что делает ее непонятной большинству. Например, в классической книге Пфанцагля шкалы определяются так:



Где с. о. – система с отношениями, а ч. с. о. – числовая с. о., те же самые которые используются в алгебре и теории нормальных форм реляционных баз данных. Если вам это просто и понятно, можете дальше не читать, для остальных далее я расскажу про шкалы просто и понятно и обосную важность понимания данного материала.

Шкала наименований (nominal scale). Применяется для описания признаков, которые могут сравниваться только на эквивалентность (равно – не равно). Такими шкалами измеряются, например, музыкальные вкусы, части речи, политические взгляды. Важно знать, что другие операции, кроме проверки на совпадение в таких шкалах производить нельзя, то есть фанаты рэпа просто не равны фанатам Джастина Бибера, кто из них круче сказать в этой шкале невозможно. Числа здесь могут использоваться только для классификации объектов.

В этой шкале также разрешены операции группировки и классификации, более того, большинство классификаций создано именно для таких шкал.

Шкала порядка, или ранговая шкала (ordinal scale). Эта шкала обладает всеми свойствами шкалы наименований, с добавлением отношения порядка. Например, мы не можем сказать кто круче пожарный или таксист (шкала наименований), но точно можем сказать, что майор круче прапорщика (ранговая шкала).

Для этой шкалы очень важно понимать, что числа используются только в операциях сравнения, их нельзя складывать или вычислять среднее (генерал плюс рядовой не равны двум лейтенантам). Приведу еще один пример. Все любят шутки вроде: «После переезда Васи из России в Индию средний IQ обеих стран увеличился», означающую, что средний IQ в России больше, чем в Индии, а Вася до среднероссийского не дотягивает. Так вот понятие «средний IQ» некорректно, так как IQ вычисляется по ранговой шкале и изначально составлен так, чтоб значения были распределены нормально среди населения, и ни в коем случае нельзя утверждать, что между IQ 141 и 142 такая же разница, как между IQ 120 и 121. Просто шутите правильно: «После переезда Васи из России в Индию средний интеллект обеих стран увеличился».

Шкала разностей, или интервальная шкала (interval scale). Такими шкалами измеряются даты, температуры по Цельсию и Фаренгейту. В таких шкалах нет естественной начальной точки отсчета, хотя некоторые люди долго будут спорить, что отсчет от Рождества или 1 января 1970 года весьма естественен.

Большинство презентаций про Big Data начинаются с истории про беременную школьницу. У тестировщиков есть своя байка про самолеты. Коротко: американский самолет разбился в Израиле в районе Мертвого Моря из-за того, что его система разделила на ноль, как только высота самолета над уровнем моря стала отрицательной. Я слышал много версий данной байки: то самолет полетел вниз головой, то стэлсы косяками уходили в само море. Эта байка очень не правдоподобна, если понимать, что нет смысла делить на значение, взятое из интервальной шкалы, коим и является высота над уровнем моря. В самом деле, попробуйте найти формулу, в которой температура по Фаренгейту или широта местности стояли бы в знаменателе.

Для результатов измерения в таких шкалах можно считать среднее арифметическое, проводить корреляционный и регрессионный анализы, а вот считать среднее гармоническое или геометрическое нельзя.

Шкала отношений (ratio scale). Для такой шкалы естественно наличие начала отсчета. Извините за прагматизм, но все, что меряется деньгами, попадает на данную шкалу. Если дата находится на интервальной шкале, то возраст будет находиться на шкале отношений. Иногда говорят, что эта шкала обладает всеми свойствами интервальной, но маленький нюанс: если для интервальной шкалы допустимы линейные преобразования (умножение на константу полюс сдвиг), то здесь только преобразования подобия (умножение на константу). Большинство методов статистического анализа подразумевает, что значения будут именно на такой шкале, поэтому перед тем, как скормить пакет анализа числами, важно убедиться в присутствии естественного начала отсчета, иначе многие статистические характеристики будут неинформативными.

Эти четыре шкалы в наши дни являются общепринятыми, однако, когда теория нечисловой статистики только появлялась, многие исследователи вводили свои классификации. Вот, например, страница из так и неопубликованной книги Тюрина:



Подход с «придумыванием» собственных шкал может оказаться продуктивным во многих проектах. Однако важнее делать проверку на производимые операции с данными и писать соответствующие тесты еще до того, как значения получены. И помните, что просто проверки единиц измерения (что делают некоторые языки программирования) не достаточно: время и возраст измеряются в тех же единицах.
Tags:
Hubs:
Total votes 26: ↑22 and ↓4 +18
Views 16K
Comments Comments 9