Комментарии 9
Какая математика нужна аналитику данных
Ожидание: теоркат, абстрактная алгебра, продвинутый матстат, чтобы интерпретировать A/B
Реальность: логика из задач начальной школы, законы де Моргана, отличие среднего от медианы
Год работаю аналитиком, математику пока не видел, что я делаю не так?))
6 год работаю аналитиком, только вчера описывал метрику оценки кластеризации, которую надо занести в прод. Метрика включает в себя нормированную энтропию: без математики было бы сложно, так как не существует какой-то одной нормированной энтропии и надо понимать на что ее можно нормировать и как.
Первые 4 года моего стажа математика была особо не нужна (только для оьучения новым алгоритмам и техникам), а потом устроился туда где очень много работы с текстами, тут всю работу можно свести к анализу положения векторов в пространстве или некоему анализу множеств слов. Какие-то базовые штуки типа корреляций в этом мире вообще отсутствуют, приходится что-то поинтереснее узнавать, типа взаимной информации.
Жутко интересно, но крайне мало информации именно по аналитике текстов и приходится постоянно придумывать эвристики. Для эвристик супер сложная математика не нужна, но, например, представлять чем евклидово расстояние от косинусного отличается и почему где-то лучше использовать одно, а где-то другое - надо.
Из чего-то сложного пригодилось понимание факторизации матриц, так как через него понимаешь как вообще представить слова в виде векторов, а отсюда вырастает 80% аналитики текстов.
Ну и уточню, что я не создаю модели машинного обучения, я анализирую тексты, чтобы помочь дата сатанистам и ml-инженерам лучше делать их работу: подобрать размер чанка для РАГа, понять можно ли создать простые эвристики релевантности текста, чтобы не создавать модели ранжирования или не нагружать гпу, используя LLM для классификации и т.п.
чем евклидово расстояние отличается от косинусного...
Запутали людей с этим "косинусным расстоянием". Вообще-то оно не расстояние, а сходство. Два чела могут быть похожи как близнецы, но находиться в разных городах. Узлы графа могут быть похожи по структуре связей с соседями, но находиться в разных его частях.
По вашим примерам, видно что понятие расстояния вы рассматриваете только как Евклидово расстояние, то есть расстояние в физическом смысле. В аналитике, по моему мнению, расстояние - это мера непохожести, чем больше расстояние, тем менее похожи объекты. И такое определение нужно чтобы отвечать на вопросв типа "дальше ли по смыслу слон от плитки, чем автомобиль от самолета" или "какой кандидат ближе всех к нашей вакансии". В таких ситуациях фмзического расстояния в метрах не существует, а евклидово не учитывает всех особенностей данных.
Косинусное сходство и косинусное расстояние это похожие штуки и похожи тем, что одно получается если из единицы вычесть второе.
Расстояние в математическом смысле это вполне определенная сущность, первая же ссылка на Википедию в поисковике выдает 4 критерия по которому некий показатель можно считать расстоянием.
Расстояний разных видов великое множество, евклидово просто наиболее распространено. Я скорее против смешивания понятий "расстояние" и "непохожесть". Тем более, что "косинусное" - это вообще схожесть.
Конечно, это вопрос терминологии. Если в зоопарке только утки, то можно называть их слонами. До тех пор, пока не завезли настоящих слонов. Другими словами, если два объекта оцениваются только по сходству, то можно это называть "анти-расстоянием" - нет проблем. До тех пор, пока не возникнет потребность в оценке другого (например евклидового) расстояния между ними.
В графах тоже расстояния в "физическом смысле" не существует - это математический объект. Но там есть, например, резистивное расстояние (которое на самом деле евклидово). Странно было бы говорить, что две вершины похожи, потому что между ними мало резистивное расстояние. Для оценки схожести вершин есть отдельная мера - чаще всего это косинусное сходство.
Я понял вашу мысль, и, наверное, соглашусь, что термин "расстояние" чрезмерно расширили, что сбивает с толку. Мне кажется неплохо бы смотрелись понятия "косинусное различие" (которое 1 - косинусная схожесть) или "различие махаланобиса". В общем, есть тут проблема, соглашусь.
Аналогию с графами понять - за рамками моих познаний, надеюсь что пока. Не профильная сфера для меня.
Если работаете год и все нравится - то все вы делаете правильно. Безотносительно этой статьи.
Если придираться к мелочам - то стоит уточнить, каким аналитиком работаете. Статья по идее для аналитиков данных. Хотя, скорее всего, причина вашего противоречащего статье опыта не в этом.
Действительно, есть вакансии, на которых математика как будто не нужна (нужна на самом деле, но на таком уровне, что ее не замечаешь). Так же, как есть вакансии для аналитиков данных, где не нужно строить дашборды. Или создавать запросы SQL. Или писать код на Python. При составлении программы курса в Практикуме ориентируются не на "а вот есть одна такая вакансия", а на анализ рыка труда, опросы и интервью с работодателями, опросы и интервью с действующими специалистами, анализ тестовых заданий,... И при этом в курсы попадает не только то, что "на 100" пригодится" - таких областей знаний довольно мало. А то, что "пригодится скорее всего".
Имея опыт работы в анализе данных 10+ лет, часто с несколькими проектами одновременно, могу с уверенностью заявить - математика в анализе данных нужна. И примерна такая, как я описала выше.
Какая математика нужна аналитику данных