Описательный анализ (далее - ОА) это самый простой вид анализа, который используется на начальном этапе анализа данных. Задачи ОА могут быть разными, но чаще всего целью ОА является облегчить принятие решений для бизнеса через выявление закономерностей и тенденций.
К примеру, производитель хочет выйти на новые рынки в соседние страны, чтобы не изучать каждую страну в отдельности, что будет дорого и долго, проводится предварительный анализ или ОА, по результатам которого мы получаем 3 страны максимально подходящие критериям бизнеса. После заказываем дополнительные исследования и уже проводим диагностический, прогностический и иные виды анализа согласно бизнес-требованиям.
В данном случае нет смысла применять другие виды анализа, так как объективных данных в любом случае будет недостаточно, но и ОА с большой долей вероятности поможет вам определиться с выбором.
Целью анализа является определить для себя группу стран, которые в дальнейшем вы будете изучать более подробно. В конце приведу пример, как это работает.
Данные с сайта https://www.numbeo.com/, анализ проведен в BigQuery.
Критерии
Добавить свои критерии поможет базовая функция электронных таблиц =VLOOKUP.
Например, мы решаем добавить в нашу таблицу столбец с показателями валового дохода от аренды квартиры в центре города (полезно учитывать, если планируете купить квартиру и сдавать её или оплачивать в ипотеку).
Для этого используется функция =VLOOKUP, которая подбирает совпадающие значения.
=VLOOKUP(A2:A96, $I$2:$J$112, 2, FALSE)
A2:A96 - названия стран
$I$2:$J$112 – в столбце I названия стран, в столбце J индекс валового дохода от аренды. Знак доллара добавлен, чтобы поиск не съезжал (абсолютная ссылка).
2 – показывает значение из какого столбца перенести данные в ячейку с формулой. Здесь у нас столбцы I и J, то есть 1 и 2, нам нужно перенести значение из 2 столбца.
False – означает, что требуется точное соответствие при поиске
Дальше используем автозаполнение.
В случае отсутствия совпадения функция выдаст результат #N/A, очистите эти поля при переносе в BigQuery.
Унификация
Показатели, которые вы соотносите должны находиться в одном диапазоне. Если в одной категории диапазон значений находится между 1-5, а в другом 10-50, приведите их к единообразию.
Одним из способов достичь этого является линейное масштабирование.
1. Вычисляем минимальные и максимальные значения диапазонов.
2. Применяем формулу линейного масштабирования для каждого значения.
scaled_value=( value−min_source/max_source−min_source)*100
В BigQuery это будет выглядеть следующим образом для диапазонов 1-5 и 10-50.
((value1 - 1) / (5 - 1)) * 100 AS scaled_value1,
((value2 - 10) / (50 - 10)) * 100 AS scaled_value2
У данного метода есть определённая погрешность, но вы быстро получите результат, а погрешность не является существенной в рамках данного исследования.
Большинство показателей находятся в пределах от 1 до 100 и наиболее простым вариантом для вашего запроса является установить минимальный порог для критерия, который вне рамок стандартного диапазона.
Приоритезация
Часто одни показатели важнее, чем другие. Определите для себя важность выбранных критериев. Например, уровень безопасности для вас примерно в два раза важнее, чем уровень загрязнения.
(2 * safety_index + 1 * pollution_index) / 3
Предположим, мы решили добавить еще один критерий, который находится где-то между предыдущими по важности.
(2 * safety_index + 1.5 * any_index + 1 * pollution_index) / (2 + 1.5 + 1)
Таким образом получается средневзвешенный индекс, который позволяет учитывать важность каждого критерия.
Очистка данных
Варианты:
1) Удаление
Исключите строку со страной, если по одному из критериев нет данных. Можно сделать несколько подбородок с разными критериями и то, что этой страны не будет в одной из них не критично.
2) Найти в другом источнике
Неплохой способ, но тратит много времени (надо сравнивать методику сбора данных) и увеличивает погрешность.
3) Заполнить через медианное значение
Плохой способ. Не рекомендую, полностью теряется смысл показателя, но его часто используют, поэтому решил упомянуть его.
После всех манипуляций можно загрузить csv-файл в Tableau и посмотреть, где эти страны находятся.
Пример использования
При переезде вы решаете продать квартиру в России и приобрести квартиру в новой стране, чтобы сдавать её в аренду. В таком случае важным показателем является валовый доход от аренды (gross rental yield). Чем выше этот показатель, тем, вероятно, больше будет ваш доход от аренды. Добавляем этот показатель в новую таблицу и в запросе устанавливаем значение не ниже 4. При этом уровень дохода составляет 2500 долларов. В критериях качества жизни выбираем безопасность и уровень загрязнения.
-- выбираем столбцы из таблицы--
SELECT
country_name,
rent_per_month,
average_salary,
safety_index,
pollution_index,
gross_rental_yield,
-- создаем новые столбцы, функция раунд округляет значение --
ROUND (rent_per_month + average_salary, 1) AS total_cost,
ROUND ((safety_index + (100 - pollution_index))/2, 1) AS quality_of_life
FROM
`buoyant-road-419507.Aproject_country.qual1`
-- указываем существенные условия --
WHERE
rent_per_month + average_salary < 2500
AND gross_rental_yield > 4
AND death_penalty_for_atheists < 1
AND country_name NOT IN ("Russia", "Belarus", "Ukraine")
-- группируем по одному из показателей в порядке убывания --
ORDER BY quality_of_life DESC
LIMIT 10;
country_name | rent_per_month | average_salary | safety_index | pollution _index | gross_rental_yield | total_cost | quality_of_life |
Portugal | 998.8 | 1,137.60 | 68.8 | 28.7 | 6.4 | 2,136.40 | 70 |
Czech Republic | 812 | 1,527.70 | 73.2 | 34.8 | 4.1 | 2,339.70 | 69.2 |
Armenia | 896.5 | 636 | 77.6 | 61.7 | 6.3 | 1,532.50 | 57.9 |
Poland | 838.5 | 1,323.70 | 69.3 | 57.5 | 4.3 | 2,162.20 | 55.9 |
Romania | 438.7 | 828 | 66.3 | 58.9 | 4.5 | 1,266.70 | 53.7 |
Georgia | 604.5 | 485.7 | 73.9 | 68.4 | 8.5 | 1,090.20 | 52.8 |
Uruguay | 598.4 | 1,154.30 | 47.8 | 43.4 | 4.7 | 1,752.70 | 52.2 |
Costa Rica | 662.9 | 907.7 | 46.3 | 43.8 | 7 | 1,570.60 | 51.3 |
Panama | 817.4 | 792.6 | 55.7 | 55.8 | 8.7 | 1,610 | 50 |
Bulgaria | 416.9 | 903.6 | 62.9 | 63.3 | 4.6 | 1,320.50 | 49.8 |
В дальнейшем из полученного списка можно выбрать страну и подробнее изучить условия получения ВНЖ, правила покупки недвижимости и т. д.
При принятии решения важно учитывать контекст, например, высокий уровень валового дохода от аренды в СНГ обусловлен большим количеством релокантов относительно населения этих стран и, вероятно, будет снижаться. Если для вас это существенный критерий, стоит посмотреть динамику изменения уровня валового дохода от аренды за последние 5 лет.
Приведённый в данном тексте алгоритм действий можно использовать не только для выбора страны, но и для простого ОА большинства баз данных.