Комментарии 87
А если я умею вот так это засчитывается?
Да, сойдет. Заходи за зарплатой
А, кстати, где там плюс/минус у корня от n? Впрочем, и у автора нет.
Если n=x^2, то x=(+/-)sqrt(n). Т.е. правая часть (без квадрата) равно плюс/минус корень из n
Пусть плотность вашего распределения -- F, m -- координата медианы (экстремума), x -- координата точки B.
Тогда расстояние по теореме Пифагора
sqrt((m - x) ^ 2 + (F(m) - F(x))^2)
Или ты что-то другое имел в виду?
у вас же компьютер есть! Надо что-то сложное посчитать - аппроксимируйте это : разбиваете промежуток от А до Б по оси х на промежутки - и в каждом считаете ф(х) (а потом простым пифагором - длину прямой между точками (х1,ф1) и (х2,ф2) ),
чем больше промежутков и чем они короче - тем точнее результат (дисклаймер - будьте внимательны со ступенчатыми данными и функциями с разрывами. Не бойтесь экспериментировать с количеством шагов :) )
А если хватает аналитического аппарата - то посчитайте интеграл.
Косинусное расстояние векторов, например
На картинке под заголовком "Разогреваемся на простой математике" под знаком суммы, наверное, должна быть j, а не i. Сначала, думал, что это какой-то подвох, но не найдя нигде i предположил, что опечатка
Нет разницы как обозначать индекс. Не баг, а фича!
Там под суммой j, только у неё хвост обрезан кривоватым кропом. Видно потому, что у j низ сильно ниже baseline'a.
Так, а если от школы/вуза помню только про нормальные распределения, моды-медианы, квартили-процентили и еще в SPSS считали что надо (корреляции и факторный анализ), то все, путь в дата-саентисты закрыт? (и не надо учить питон)
Раздел "Преобразование распределений" - напомнило про рисование красками "как из ярких разных цветов получить серобурый" :)
Мне почему-то все это напомнило моделирование на shadertoy.
Когда говорят "высшая математика", то понятно, что это фигня на палочке на уровне первого курса. Никто, действительно знакомый с математикой, так еë никогда не назовëт.
И вот только в аспирантуре по терфизу начинаешь что-то подозревать о настоящем содержании давно знакомыми со школы слов "алгебра" и "математика", ибо понимаешь, что ты ещё только поскрëбла их по поверхности. 6 лет Физтеха недостаточно даже, чтобы понять всю глубину своего невежества. Чтобы хотя бы посмотреть в бездну, нужен Мехмат.
Савватеев как-то рассуждал о пяти этажах математики: что первый этаж это выпускник вуза, сам Савватеев (дфмн) оценивает себя на третьем этаже, а пятый этаж — это вообще космос, он не понимает даже, о чëм они вообще говорят, там обитают Уайлс и Перельман.
А ведь помимо дебрей математики, есть ещё метаматематика, там тоже своя вселенная, книги Чёрча, Клини, Карри, Тарского, Фейса,…
Великий Арнольд уже много лет назад говорил о том, каким уровнем знаний должен обладать человек, называющий себя математиком. Весьма любопытно.
http://www.ega-math.narod.ru/Arnold.htm
Весьма сомневаюсь, что тот же Савватеев осилит этот "математический тривиум".
Манифест Арнольда 1991 года, никаких матпакетов ещё. И он там сильно ещё переживает об актуальных на тот момент несправедливостях на Мехмате. (Сейчас наверное не всем понятно, поэтому поясню, что речь об антисемитизме)
Вы случайно не можете подсказать что-то, где про подобные вещи можно почитать в контексте их выполнения? Учебник, методичка, статьи, что-то такое... Я осознал серьезную дыру в своих знаниях.
В документации к мат.софту обычно есть информация, как посчитать типа какого-нибудь интеграла, но нет информации, как выбрать тот интеграл, etc., который нужно вычислить. А это самое главное.
нужно лишь точно знать что вы хотите вычислить — площадь, длину кривой, свёртку, Фурье-образ
И объясняется, когда нужно пользоваться Фурье-преобразованием, а когда преобразованием Лапласа? Я говорил, про такой выбор (адекватной мат.модели).
Или, давайте чуть расширим задачу по вашей же ссылке: найти кривую на криволинейной поверхности минимальной длины, соединяющуюю две точки на этой же криволинейной поверхности. Весь мат.аппарат гарантированно есть что в Математике, что в Maple, но сначала таки придется книжки почитать.
FourierTransform[f[x],x,w]
а не Integrate[f[x] E^(I Pi w), {x, -Infinity, Infinity}]
, а в документации можно узнать и как этот интеграл выглядит, и почему первый вариант предпочтительнее. И с Лапласом та же ситуация, LaplaceTransform
пишем, а не соответствующий ему интеграл.А задачу с кривой вы не расширили, а заменили на другую. Возможно, в документации и для неё есть решение, геометрии там отдельный большой раздел посвящён.
если задача изначально стоит как нахождение Фурье образа — при чём тут преобразование Лапласа?
Нет, задача ставится так: есть линейная электрическая схема, состоящая из резисторов, конденсаторов и индуктивностей, на вход подается переменный ток, предсказать, что будет на выходе.
Возможно, в документации и для неё есть решение,
Есть, как минимум, 2 подхода... Иногда проще один, иногда другой. Чтобы выбрать, документации от мат.пакетов мало.
есть линейная электрическая схемаСоставляем передаточную функцию, а дальше всё уже есть. Или даже так. Это не значит, что других книжек читать не надо. Это значит, что не обязательно запоминать все именованные интегралы для их использования на практике.
Это не значит, что других книжек читать не надо.
Вот и договорились.
Это значит, что не обязательно запоминать все именованные интегралы для их использования на практике.
Да, но знание ускоряет поиск метода решения. И написание отчета. Особенно, если мат.статистика. Все распределения и критерии обычно именованные.
Интересуюсь в качестве саморазвития. А в DataScience не используются операторные преобразования типа Фурье, разложения по вейвлетам, фильтрация с окнами и прочие элементы теории систем сигналов? В списке в явном виде не нашел.
Смотря где… Порой нужна и намного более сложная математика. Учитывая, что преобразование Фурье это основа спектрального анализа, то следующим уровнем идет анализ полиспектральный (и двойственный к нему кумулянтный), и вот там еще больше интересного — можно находить фрактальные свойства, в казалось бы, случайных распределениях и так далее. Вот, скажем, рельеф местности фрактален - и имеет почти 100% корреляцию с космоснимками или гравитационным полем, а вы попробуйте это численно показать (подсказка - нужно сначала выделить одинаковые полосы пространственных частот). Далее, рудоносность привязана к изменению значения фрактальности (подсказка - гидротермальные рудные потоки движутся по трещинам, подходящие системы трещин выделяются по значению фрактальности территории), и это проявляется в спектрах высшего порядка (если спектральный анализ оценивает соотношения между парами компонент, смещенных во времени или пространстве, что достаточно для поиска гауссовых процессов, то биспектральный анализ оперирует уже триплетами и этого достаточно для анализа фрактальности). Аналогично можно находить и удалять невидимые облака и их тени на космоснимках и еще много всего. В университете на кафедре с помощью полиспектрального анализа звуковых записей на морской микрофон даже подлодки в океане за сотни километров удавалось опознавать по уникальным паттернам двигателей (все двигатели периодичны, это видно на спектре, а вот тонкие различия видны на биспектре). Я на хабре несколько статей обо всем этом писал, в том числе, про совмещение всей этой математики с машинным обучением.
Но ведь названные у вас методы это ведь просто несколько более продвинутые виды анализа сигналов.. Там основным идеям и теориям порядка 50 лет, если не больше. Проблема была только в том, что закрытые аналитические решения находятся для считанных случаев. А для моделирования хоть сколько нибудь значимых ситуаций не хватало вычислительных мощностей.
Сейчас существуют методы решения и моделирования, которые хоть на программируемом калькуляторе можно реализовать для очень широкого класса задач - например, оценка сигналов непосредственно по их спектрам (и мультиспектрам), улучшение и восстановление изображений по их сверткам (тоже спектрам, только посчитанным и преобразованным в матричной форме), решение обратных задач путем линейного преобразования спектров... Если мы со спектрам считаем регрессии и корреляции, очевидно, здесь применимы и другие методы машинного обучения, скажем, анализ пространственных спектров рельефа с гауссовым ядром поможет выделить геологические структуры, анализ с асимметричными ядрами - определить направленность структур и так далее. Да даже корреляция уже не та, что была двадцать лет назад, когда только линейные связи надежно определялись, это ограничением осталось в прошлом - к примеру, distance correlation находит нелинейные зависимости в многомерных данных (разной размерности!), а вычисляется не сильно сложнее корреляции Пирсона (быструю многопоточную реализацию я писал сам, потому что такой библиотеки еще просто нет). Если вы точно понимаете, как соотносятся старые аналитические решения с новыми быстрыми матричными методами типа сверток в нейросетях (и как добиться сходимости и нужной точности) - то для вас за последние лет двадцать изменилось очень многое.
Применяются. К примеру Фурье это сейчас мейнстрим в обработке аудио. Переводят временной ряд с помощью Фурье в картинку-спектрограмму, потом ещё парочка преобразований, а потом свертками по ней проходятся.
Вот небольшая статья на русском:
https://vc.ru/newtechaudit/358176-sposoby-predstavleniya-audio-v-ml
Из того что знаю - ряды Фурье используются для прогнозирования временных рядов. Например, достаточно популярная библиотека FbProphet использует именно этот подход.
В вопросе про медиану первая мысль была что красный столбец - это мода. Но медиану проще конечно посчитать.
Я просто оставлю это здесь
Интересно, откуда ты возьмешь функцию распределения на основе данных?
Можно апроксимировать распределение, но это тоже не всегда легко.
Будстап проще всего.
Интересно, откуда ты возьмешь функцию распределения на основе данных?
А ещё интересней, что в вопросе явно сказано «математически» и явно дано равномерное распределение на отрезке.
Кумулятивное-то распределение?
А как бутстрапом сделать нормальное распределение из равномерного?
В посте намёк на ЦПТ, но она же про сумму, как она тут поможет?
Зачем какой-то бутстрап для того,
Стильно, модно, молодежно…
В последние время уже не первый раз встречаю, как этот «бутстреп» пытаются везде запихнуть, без понимания где он нужен и не нужен. Видать очередной тренд.
Из высшей математики больше всего нужны теория вероятности и математическая статистика. И конечно линейная алгебра. Мат анализ - в гораздо-гораздо меньшей степени.
интересно, зачем это ему понадобилось? Ладно бы площадь под кривой... Длина даже в теории не используется, а на практике - большой вопрос...
Вы неправильные вопросы задаете, так вы чудесных открытий не свершите.
-- Вот есть у тебя лист металла толщиной 1 мм, а ты штампом будешь вытягивать её по кривой - какая толщина получится у новой формы?
-- Проектируешь какую-нибудь подвесную цепь и знаешь формулу, по которой будет висеть цепь - как оценить массу цепи?
.... а вот зато численные методы! (и метод конечных элементов)
Длина кривой по известному уравнению непрерывной кривой вычисляется элементарно через первую производную и определенный интеграл, это и есть матанализ. Вполне очевидно - считаем приращения (дифференциал) на единицу координаты и интегрируем по всему интервалу. Хотите тервер и матстатистику вместо матанализа - пожалуйста, и так можно, посчитайте случайные попадания случайной величины известного распределения в узких столбцах ниже и выше кривой и тоже получите ее длину. Линейная алгебра тоже даст ответ - используем конформное отображение гауссианы в круг, а длину окружности мы знаем. А если с помощью конформного отображения гауссианы построите оптимальное распределение случайной величины для оценки длины кривой методом Монте-Карло - то еще и считаться будет быстро с заданной точностью.
Ну, я написал, что нужно больше всего, а не что может быть полезным в принципе ;)
В моем опыте (до ML/DS) иногда весьма экзотические вещи использовал, типа хитрых методов суммирования рядов на основе гипергеометрических функций, но это не значит, что такие странные штуки полезны всем.
Так тонко, как автор (почти), шутить не умею, но попробую :)
" Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат. " - ага, т.е. знания таблички умножений таки недостаточно :( Ладно будем осиливать дискриминант. Потом интригалы и вот эти всякие алгебры, кольца, группы, цепи, ... на начальном этапе. А потом (лет через 5-10) даже начинаешь понимать зачем это "фсьо" надо. Так и до чтения Бурбаки в качестве научпопа дойти можно :)
... а двухтомник Лорана Шварца лучше :)
вдсина платит за статьи со своим брендом, что ли, не пойму?
А как вы отличаете ситуацию, когда действительно верно описали зависимость, от той, когда она вам показалась? Каким методом устанавливаете однородность эмпирических распределений, и требуется ли такое вообще в DS и зачем?
По-идее, качества на валидационной и тестовой выборках достаточно, если правильно понял вопрос
В целом, первый вопрос поняли в той степени, в которой сталкивались с этой проблемой, видимо. Он минимум с двумя подводными камнями: (а) зачем при нынешних вычислительных мощностях вообще описывать зависимость (распределение величин), (б) характер и объём данных может не позволять применить валидационную и тестовую выборки, например, когда каждый экземпляр единственен и уникален (например, химическое соединение, идентифицируемое формулой). А на второй вопрос ничего не написали, хотя он ещё более интересен.
Иногда, когда читаешь какие-то новые статьи с новыми моделями и новыми подходами - требуется хорошее понимание математики для того, чтобы разобраться, как это работает и как у себя можно такое заимплементить (думаю, что навык уметь воспроизводить статьи не считается чем-то совсем уже заоблачным и у джунов можно его просить). Если же статье 100000 лет - можно легко найти реализацию и не заморачиваться, поэтому, вопрос в том, насколько вы на острие науки.
PS, я не упомянул рисерчеров, которые эти новые подходы разрабатывают, потому что статья про то, что нужно для условного "джуна"
На первом графике в формуле где A, B, C... зачем у вас точки? У вас нет скалярного произведения, вы не перемножаете числа, вы не пишете программу в Маткаде.
Эксперт - это тот, кто может точно и правдоподобно объяснить, почему не сбылся его прогноз. К сожалению, в наше время знания предметной области, общих и частных разделов математики не являются ни достаточным, ни даже необходимым условием для того, чтобы быть экспертом.
Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат.
Простите меня, но Вы сами понимаете, что вы сказали? Если возможно переформулируйте, пожалуйста, желательно с учетом какой-то элементарной хотя бы википедии, которая, может быть, скажет, что "вышмат" - это название курса (как правило слабого, и поверхностного) в техническом вузе и более ничего. А математика - это серьrзная наука в виде всей совокупности ее подразделов. Если лично вам какой-то раздел математики в работе не нужен, то хотелось бы, чтобы из этого не следовали неграмотные утверждения и определения на обложке вашей статьи и в вашем телеграм канале.
Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.
Вы знаете, наверное, в дата сайенс есть своя специфика, которая больше использует определенные разделы математики такие как математическая статистика и теория вероятностей, а не те тривиальные примеры из первого курса вот этого самого так называемого "вышмата". Более того, тем, кому в вузе довелось слушать не "вышмат", а все-таки курсы с более интересными названиями, например, математическая статистика, понимают, что весь этот ваш датасайенс это обычный университетский курс мат. статистики и почти даже ничего более, просто с новыми "современными" названиями и без глубоких доказательств. Например, какая-нибудь ваша линейная регрессия это получение параметров по методу максимального правдоподобия - достаточно тривиальный и понятный метод, изучаемый в самом простом курсе правда не "вышмата", а математической статистики. Я специально взял простейший пример, чтобы не залезать в дебри, хотя, может быть, стоило бы написать статью на этот счет. Никакие курсы по датасайенсу не нужны, если вы нормально учились в более-менее математическом вузе. А, вообще, я просто о том, что если, например, я в чем-то некомпетентен и чего-то не понимаю, то это не означает, что мне стоит транслировать эту некомпетентность в массы, чтобы случайно не оказаться под воздействием эффекта Даннинга — Крюгера.
детерминанты матриц не ищу
Вы знаете, а может и зря, что не ищете. Потому, что, например, детерминант ковариационной матрицы имеет вполне полезный статистический смысл, который может быть использован как один из параметров оценки вашей модели. Боюсь, правда, что на курсах датасаенса и парах "вышмата" этого, может быть, и не рассказывают. Решается это, однако, просто - достаточно взять какой-нибудь простенький непритязательный учебник по мат. стату и изучить его - это, кстати, универсальный совет желающим повысить свой уровень понимания "датасайенса" .
предложите пример такого учебника?
А чтоб убрать тренд в правом графике достаточно посчитать разницу между
соседними точками ряда. При работе с временными рядами — это частая практика
На этом конкретном графике сработает, но на большинстве наборов производная =/= тренд.
Полагаю в третьем задании вы имели ввиду, что зависимость у = exp(x) превратится в линейную, но не y = х, а ln(y) = x? То есть в других осях. Задачки у вас не строго сформулированы. Математики в шоке ))))
https://www.youtube.com/watch?v=WUvTyaaNkzM&t=36s
Дифференциалы и прочая "вышка" - наглядно и просто. Если бы так в школе объясняли...
На первом графике под заголовком Статистики и распределения чёрными линиями не квартили отмечаны?
Судя по процентам, точки делят данные на 4 равных части, но площади под кривой не соответствуют процентам
В Data Science не нужна математика (Почти)