Aleron75 12 июл 2022 в 12:00

В Data Science не нужна математика (Почти)

6 мин

87K

Блог компании RUVDS.comPython*Big Data*Математика*Data Engineering*

+129

Комментарии 87

datacompboy 12 июл 2022 в 12:08

А если я умею вот так это засчитывается?

+20

Aleron75 12 июл 2022 в 12:25

Да, сойдет. Заходи за зарплатой

+21

Andy_U 14 июл 2022 в 14:05

А, кстати, где там плюс/минус у корня от n? Впрочем, и у автора нет.

Refridgerator 14 июл 2022 в 14:22

Так n там всегда положителен (для действительных аргументов).

Andy_U 14 июл 2022 в 14:31

Если n=x^2, то x=(+/-)sqrt(n). Т.е. правая часть (без квадрата) равно плюс/минус корень из n

Refridgerator 14 июл 2022 в 14:42

Wolfram Alpha и выдал два решения для Z.

Andy_U 14 июл 2022 в 14:47

А, теперь увидел. Я как-то больше к Maple привык. Значит, это претензия только к автору статьи. Thx.

Refridgerator 14 июл 2022 в 15:00

Решений может быть больше, чем два, поэтому Wolfram выдаёт их списком. Если решений бесконечно, Wolfram добавляет дополнительный (или дополнительные) целочисленный аргумент к функции.

eimrine 12 июл 2022 в 12:34

Недавно занимался одной задачей из области Data Science, остановился на том что есть у меня гауссиана (колоколообразная кривая нормального распределения) и мне надо как-то вычислить длинну отрезка AB, где A — экстремум, а B — произвольная точка на кривой. Какие инструменты мне нужно, как гуглить или где читать? Посыпаю голову пеплом за то что профилонил все 4 семестра вышмата.

marsermd 12 июл 2022 в 13:00

Пусть плотность вашего распределения -- F, m -- координата медианы (экстремума), x -- координата точки B.

Тогда расстояние по теореме Пифагора
sqrt((m - x) ^ 2 + (F(m) - F(x))^2)

Или ты что-то другое имел в виду?

eimrine 12 июл 2022 в 13:07

Имел в виду отрезок который лежит на кривой, не просто прямая линия между A и B.

vassabi 12 июл 2022 в 13:30

у вас же компьютер есть! Надо что-то сложное посчитать - аппроксимируйте это : разбиваете промежуток от А до Б по оси х на промежутки - и в каждом считаете ф(х) (а потом простым пифагором - длину прямой между точками (х1,ф1) и (х2,ф2) ),

чем больше промежутков и чем они короче - тем точнее результат (дисклаймер - будьте внимательны со ступенчатыми данными и функциями с разрывами. Не бойтесь экспериментировать с количеством шагов :) )

А если хватает аналитического аппарата - то посчитайте интеграл.

Tyusha 12 июл 2022 в 14:08

https://yandex.ru/search/touch/?text=длина+кривой+заданной+функцией&clid=2451233&lr=21641

Refridgerator 12 июл 2022 в 14:38

Аналитически не решается, только численно (например). Однако этот интеграл можно аппроксимировать рациональным многочленом в том же Вольфраме и пользоваться уже им. Если на входе экспериментальные данные, то их нужно сначала аппроксимировать гауссианной с учётом масштабирования и смещения относительно нуля.

-2

street8boy 13 июл 2022 в 16:04

Косинусное расстояние векторов, например

AlanRow 12 июл 2022 в 12:35

На картинке под заголовком "Разогреваемся на простой математике" под знаком суммы, наверное, должна быть j, а не i. Сначала, думал, что это какой-то подвох, но не найдя нигде i предположил, что опечатка

Aleron75 12 июл 2022 в 12:36

Нет разницы как обозначать индекс. Не баг, а фича!

vesper-bot 12 июл 2022 в 12:54

Если под суммой индекс другой, чем в выражении, которое суммируется, можно получить неожиданный результат. Скажем, сумма по i от 2 до 4 от 2*j равна 6*j, а не какому-то конкретному числу. Это как с «d/dx монстром, который съел e^y», только в обратную сторону.

vesper-bot 12 июл 2022 в 12:50

Там под суммой j, только у неё хвост обрезан кривоватым кропом. Видно потому, что у j низ сильно ниже baseline'a.

Aleron75 12 июл 2022 в 13:22

Спасибо, исправил

vtal007 12 июл 2022 в 13:09

Так, а если от школы/вуза помню только про нормальные распределения, моды-медианы, квартили-процентили и еще в SPSS считали что надо (корреляции и факторный анализ), то все, путь в дата-саентисты закрыт? (и не надо учить питон)

Aleron75 12 июл 2022 в 13:24

Я лишь привел в пример, что сам частно в реальных боевых задачах использую.
Твой путь может быть иным) Начни со стажировок

vassabi 12 июл 2022 в 13:40

Раздел "Преобразование распределений" - напомнило про рисование красками "как из ярких разных цветов получить серобурый" :)

panteleymonov 12 июл 2022 в 13:58

Мне почему-то все это напомнило моделирование на shadertoy.

Tyusha 12 июл 2022 в 14:16

Когда говорят "высшая математика", то понятно, что это фигня на палочке на уровне первого курса. Никто, действительно знакомый с математикой, так еë никогда не назовëт.

И вот только в аспирантуре по терфизу начинаешь что-то подозревать о настоящем содержании давно знакомыми со школы слов "алгебра" и "математика", ибо понимаешь, что ты ещё только поскрëбла их по поверхности. 6 лет Физтеха недостаточно даже, чтобы понять всю глубину своего невежества. Чтобы хотя бы посмотреть в бездну, нужен Мехмат.

Савватеев как-то рассуждал о пяти этажах математики: что первый этаж это выпускник вуза, сам Савватеев (дфмн) оценивает себя на третьем этаже, а пятый этаж — это вообще космос, он не понимает даже, о чëм они вообще говорят, там обитают Уайлс и Перельман.

+40

artemisia_borealis 12 июл 2022 в 16:19

Именно. Помню, что посмотрев алгебраическую квантовую теорию поля, что сквозь эти тернии не продерусь никогда…

А ведь помимо дебрей математики, есть ещё метаматематика, там тоже своя вселенная, книги Чёрча, Клини, Карри, Тарского, Фейса,…

НЛО прилетело и опубликовало эту надпись здесь

Paul4850 13 июл 2022 в 14:17

Великий Арнольд уже много лет назад говорил о том, каким уровнем знаний должен обладать человек, называющий себя математиком. Весьма любопытно.

http://www.ega-math.narod.ru/Arnold.htm

Весьма сомневаюсь, что тот же Савватеев осилит этот "математический тривиум".

Refridgerator 13 июл 2022 в 14:47

Задачи интересные, но наблюдается выраженный перекос в сторону дифференциальных уравнений и полное отсутствие задач в стиле «описать математически то-то и то-то». Те же дифференциальные уравнения не из воздуха берутся при решении реальных прикладных задач. Вычислить 100-ю производную, построить графики — элементарно в любом мат.пакете, а вот вывести функцию для механизма Чебышева — уже нет.

Tyusha 14 июл 2022 в 16:36

Манифест Арнольда 1991 года, никаких матпакетов ещё. И он там сильно ещё переживает об актуальных на тот момент несправедливостях на Мехмате. (Сейчас наверное не всем понятно, поэтому поясню, что речь об антисемитизме)

Refridgerator 14 июл 2022 в 21:42

В 91-м я графики ещё на спектруме рисовал, а первая версия Mathematica их даже в текстовом виде выводить умудрялась. Но дело не в этом, а в том, что в задачах такого типа думать особо не надо — надо просто точно следовать определённому алгоритму для их решения, потому их и стало возможным автоматизировать. Намного сложнее задачи обратного характера — не рисовать график, а наоборот, вывести функцию, которая соответствует этому графику. Не считать предел в точке — а наоборот вывести функцию, предел в точке которой равен заданным значениям. Не раскладывать функцию в степенной ряд — а наоборот, по заданным коэффициентам определить производящую функцию.

NarcissisticNotebook 25 июл 2022 в 16:44

Вы случайно не можете подсказать что-то, где про подобные вещи можно почитать в контексте их выполнения? Учебник, методичка, статьи, что-то такое... Я осознал серьезную дыру в своих знаниях.

Refridgerator 26 июл 2022 в 05:54

Боюсь, что нет по этой теме ни методичек, ни учебников. Статьи неплохие на хабре попадаются, в зарубежных источниках аналога хабра нет, но есть en.wikipedia.org, quora.com, math.stackexchange.com и личные блоги некоторых авторов. Ну и — изучать математику без установленного математического пакета это как учиться ездить на велосипеде не имея его в наличии. Хотя бы MathCad должен быть, я сам предпочитаю Mathematica, и там и там справки замечательные.

Andy_U 26 июл 2022 в 11:15

В документации к мат.софту обычно есть информация, как посчитать типа какого-нибудь интеграла, но нет информации, как выбрать тот интеграл, etc., который нужно вычислить. А это самое главное.

Refridgerator 26 июл 2022 в 11:40

В документации упомянутых мною мат.пакетов есть туториалы и примеры с объяснениями, например. Ничего выбирать не нужно, нужно лишь точно знать что вы хотите вычислить — площадь, длину кривой, свёртку, Фурье-образ — для всего этого уже есть специальные функции. В этом и отличие мат.пакетов от обычного калькулятора — там ещё и справочник есть.

Andy_U 26 июл 2022 в 12:28

нужно лишь точно знать что вы хотите вычислить — площадь, длину кривой, свёртку, Фурье-образ

И объясняется, когда нужно пользоваться Фурье-преобразованием, а когда преобразованием Лапласа? Я говорил, про такой выбор (адекватной мат.модели).

Или, давайте чуть расширим задачу по вашей же ссылке: найти кривую на криволинейной поверхности минимальной длины, соединяющуюю две точки на этой же криволинейной поверхности. Весь мат.аппарат гарантированно есть что в Математике, что в Maple, но сначала таки придется книжки почитать.

Refridgerator 26 июл 2022 в 13:35

Если задача изначально стоит как нахождение Фурье образа — при чём тут преобразование Лапласа? Это значит, что можно писать
FourierTransform[f[x],x,w] а не Integrate[f[x] E^(I Pi w), {x, -Infinity, Infinity}], а в документации можно узнать и как этот интеграл выглядит, и почему первый вариант предпочтительнее. И с Лапласом та же ситуация, LaplaceTransform пишем, а не соответствующий ему интеграл.

А задачу с кривой вы не расширили, а заменили на другую. Возможно, в документации и для неё есть решение, геометрии там отдельный большой раздел посвящён.

Andy_U 26 июл 2022 в 15:01

если задача изначально стоит как нахождение Фурье образа — при чём тут преобразование Лапласа?

Нет, задача ставится так: есть линейная электрическая схема, состоящая из резисторов, конденсаторов и индуктивностей, на вход подается переменный ток, предсказать, что будет на выходе.

Возможно, в документации и для неё есть решение,

Есть, как минимум, 2 подхода... Иногда проще один, иногда другой. Чтобы выбрать, документации от мат.пакетов мало.

Refridgerator 26 июл 2022 в 17:02

есть линейная электрическая схема

Составляем передаточную функцию, а дальше всё уже есть. Или даже так. Это не значит, что других книжек читать не надо. Это значит, что не обязательно запоминать все именованные интегралы для их использования на практике.

Andy_U 26 июл 2022 в 18:06

Это не значит, что других книжек читать не надо.

Вот и договорились.

Это значит, что не обязательно запоминать все именованные интегралы для их использования на практике.

Да, но знание ускоряет поиск метода решения. И написание отчета. Особенно, если мат.статистика. Все распределения и критерии обычно именованные.

dee3mon 12 июл 2022 в 14:21

Интересуюсь в качестве саморазвития. А в DataScience не используются операторные преобразования типа Фурье, разложения по вейвлетам, фильтрация с окнами и прочие элементы теории систем сигналов? В списке в явном виде не нашел.

N-Cube 12 июл 2022 в 14:47

Смотря где… Порой нужна и намного более сложная математика. Учитывая, что преобразование Фурье это основа спектрального анализа, то следующим уровнем идет анализ полиспектральный (и двойственный к нему кумулянтный), и вот там еще больше интересного — можно находить фрактальные свойства, в казалось бы, случайных распределениях и так далее. Вот, скажем, рельеф местности фрактален - и имеет почти 100% корреляцию с космоснимками или гравитационным полем, а вы попробуйте это численно показать (подсказка - нужно сначала выделить одинаковые полосы пространственных частот). Далее, рудоносность привязана к изменению значения фрактальности (подсказка - гидротермальные рудные потоки движутся по трещинам, подходящие системы трещин выделяются по значению фрактальности территории), и это проявляется в спектрах высшего порядка (если спектральный анализ оценивает соотношения между парами компонент, смещенных во времени или пространстве, что достаточно для поиска гауссовых процессов, то биспектральный анализ оперирует уже триплетами и этого достаточно для анализа фрактальности). Аналогично можно находить и удалять невидимые облака и их тени на космоснимках и еще много всего. В университете на кафедре с помощью полиспектрального анализа звуковых записей на морской микрофон даже подлодки в океане за сотни километров удавалось опознавать по уникальным паттернам двигателей (все двигатели периодичны, это видно на спектре, а вот тонкие различия видны на биспектре). Я на хабре несколько статей обо всем этом писал, в том числе, про совмещение всей этой математики с машинным обучением.

+15

dee3mon 12 июл 2022 в 20:25

Но ведь названные у вас методы это ведь просто несколько более продвинутые виды анализа сигналов.. Там основным идеям и теориям порядка 50 лет, если не больше. Проблема была только в том, что закрытые аналитические решения находятся для считанных случаев. А для моделирования хоть сколько нибудь значимых ситуаций не хватало вычислительных мощностей.

N-Cube 12 июл 2022 в 21:50

Сейчас существуют методы решения и моделирования, которые хоть на программируемом калькуляторе можно реализовать для очень широкого класса задач - например, оценка сигналов непосредственно по их спектрам (и мультиспектрам), улучшение и восстановление изображений по их сверткам (тоже спектрам, только посчитанным и преобразованным в матричной форме), решение обратных задач путем линейного преобразования спектров... Если мы со спектрам считаем регрессии и корреляции, очевидно, здесь применимы и другие методы машинного обучения, скажем, анализ пространственных спектров рельефа с гауссовым ядром поможет выделить геологические структуры, анализ с асимметричными ядрами - определить направленность структур и так далее. Да даже корреляция уже не та, что была двадцать лет назад, когда только линейные связи надежно определялись, это ограничением осталось в прошлом - к примеру, distance correlation находит нелинейные зависимости в многомерных данных (разной размерности!), а вычисляется не сильно сложнее корреляции Пирсона (быструю многопоточную реализацию я писал сам, потому что такой библиотеки еще просто нет). Если вы точно понимаете, как соотносятся старые аналитические решения с новыми быстрыми матричными методами типа сверток в нейросетях (и как добиться сходимости и нужной точности) - то для вас за последние лет двадцать изменилось очень многое.

alex50555 13 июл 2022 в 10:54

Применяются. К примеру Фурье это сейчас мейнстрим в обработке аудио. Переводят временной ряд с помощью Фурье в картинку-спектрограмму, потом ещё парочка преобразований, а потом свертками по ней проходятся.

Вот небольшая статья на русском:

https://vc.ru/newtechaudit/358176-sposoby-predstavleniya-audio-v-ml

Dark_Hobbit 15 июл 2022 в 09:50

Из того что знаю - ряды Фурье используются для прогнозирования временных рядов. Например, достаточно популярная библиотека FbProphet использует именно этот подход.

red_elk 12 июл 2022 в 15:19

В вопросе про медиану первая мысль была что красный столбец - это мода. Но медиану проще конечно посчитать.

Matshishkapeu 12 июл 2022 в 15:21

Я просто оставлю это здесь

+48

НЛО прилетело и опубликовало эту надпись здесь

Aleron75 12 июл 2022 в 17:41

Интересно, откуда ты возьмешь функцию распределения на основе данных?
Можно апроксимировать распределение, но это тоже не всегда легко.
Будстап проще всего.

akhalat 12 июл 2022 в 17:44

Интересно, откуда ты возьмешь функцию распределения на основе данных?

А ещё интересней, что в вопросе явно сказано «математически» и явно дано равномерное распределение на отрезке.

Andy_U 12 июл 2022 в 23:52

Кумулятивное-то распределение?

nahlogin 22 июл 2022 в 16:31

А как бутстрапом сделать нормальное распределение из равномерного?
В посте намёк на ЦПТ, но она же про сумму, как она тут поможет?

akhalat 12 июл 2022 в 17:42

Зачем какой-то бутстрап для того,

Стильно, модно, молодежно…
В последние время уже не первый раз встречаю, как этот «бутстреп» пытаются везде запихнуть, без понимания где он нужен и не нужен. Видать очередной тренд.

nikolay_karelin 12 июл 2022 в 19:10

Из высшей математики больше всего нужны теория вероятности и математическая статистика. И конечно линейная алгебра. Мат анализ - в гораздо-гораздо меньшей степени.

Refridgerator 12 июл 2022 в 19:50

Ну вот тут человек выше захотел посчитать длину дуги гауссианы — и не смог. Ни теория вероятностей, ни математическая статистика, ни линейная алгебра в этом не помогут.

sci_nov 12 июл 2022 в 22:04

интересно, зачем это ему понадобилось? Ладно бы площадь под кривой... Длина даже в теории не используется, а на практике - большой вопрос...

kenoma 12 июл 2022 в 22:13

Вы неправильные вопросы задаете, так вы чудесных открытий не свершите.

sci_nov 12 июл 2022 в 23:11

может быть. люди разные, одни открывают, другие реализуют.

imageman 16 июл 2022 в 19:13

-- Вот есть у тебя лист металла толщиной 1 мм, а ты штампом будешь вытягивать её по кривой - какая толщина получится у новой формы?
-- Проектируешь какую-нибудь подвесную цепь и знаешь формулу, по которой будет висеть цепь - как оценить массу цепи?

vassabi 12 июл 2022 в 22:28

.... а вот зато численные методы! (и метод конечных элементов)

N-Cube 13 июл 2022 в 12:31

Длина кривой по известному уравнению непрерывной кривой вычисляется элементарно через первую производную и определенный интеграл, это и есть матанализ. Вполне очевидно - считаем приращения (дифференциал) на единицу координаты и интегрируем по всему интервалу. Хотите тервер и матстатистику вместо матанализа - пожалуйста, и так можно, посчитайте случайные попадания случайной величины известного распределения в узких столбцах ниже и выше кривой и тоже получите ее длину. Линейная алгебра тоже даст ответ - используем конформное отображение гауссианы в круг, а длину окружности мы знаем. А если с помощью конформного отображения гауссианы построите оптимальное распределение случайной величины для оценки длины кривой методом Монте-Карло - то еще и считаться будет быстро с заданной точностью.

nikolay_karelin 17 июл 2022 в 14:03

Ну, я написал, что нужно больше всего, а не что может быть полезным в принципе ;)

В моем опыте (до ML/DS) иногда весьма экзотические вещи использовал, типа хитрых методов суммирования рядов на основе гипергеометрических функций, но это не значит, что такие странные штуки полезны всем.

Red_Nose 12 июл 2022 в 23:38

Так тонко, как автор (почти), шутить не умею, но попробую :)
" Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат. " - ага, т.е. знания таблички умножений таки недостаточно :( Ладно будем осиливать дискриминант. Потом интригалы и вот эти всякие алгебры, кольца, группы, цепи, ... на начальном этапе. А потом (лет через 5-10) даже начинаешь понимать зачем это "фсьо" надо. Так и до чтения Бурбаки в качестве научпопа дойти можно :)

Andy_U 12 июл 2022 в 23:50

... а двухтомник Лорана Шварца лучше :)

akhalat 13 июл 2022 в 00:27

Шварц как раз-таки и входил в коллектив «Бурбаки».
И Бурбаки всё-таки «покруче»…

НЛО прилетело и опубликовало эту надпись здесь

justPersonage 13 июл 2022 в 10:01

А к чему он появляется?

НЛО прилетело и опубликовало эту надпись здесь

Refridgerator 14 июл 2022 в 09:20

Известная шутка: ученик Бурбаки на вопрос «сколько будет 2+3» ответил: «3+2, так как сложение коммутативно».

TotalAMD 13 июл 2022 в 04:41

вдсина платит за статьи со своим брендом, что ли, не пойму?

DabjeilQutwyngo 13 июл 2022 в 08:38

А как вы отличаете ситуацию, когда действительно верно описали зависимость, от той, когда она вам показалась? Каким методом устанавливаете однородность эмпирических распределений, и требуется ли такое вообще в DS и зачем?

FedorDS 13 июл 2022 в 15:41

По-идее, качества на валидационной и тестовой выборках достаточно, если правильно понял вопрос

DabjeilQutwyngo 14 июл 2022 в 02:43

В целом, первый вопрос поняли в той степени, в которой сталкивались с этой проблемой, видимо. Он минимум с двумя подводными камнями: (а) зачем при нынешних вычислительных мощностях вообще описывать зависимость (распределение величин), (б) характер и объём данных может не позволять применить валидационную и тестовую выборки, например, когда каждый экземпляр единственен и уникален (например, химическое соединение, идентифицируемое формулой). А на второй вопрос ничего не написали, хотя он ещё более интересен.

FedorDS 13 июл 2022 в 10:54

Иногда, когда читаешь какие-то новые статьи с новыми моделями и новыми подходами - требуется хорошее понимание математики для того, чтобы разобраться, как это работает и как у себя можно такое заимплементить (думаю, что навык уметь воспроизводить статьи не считается чем-то совсем уже заоблачным и у джунов можно его просить). Если же статье 100000 лет - можно легко найти реализацию и не заморачиваться, поэтому, вопрос в том, насколько вы на острие науки.
PS, я не упомянул рисерчеров, которые эти новые подходы разрабатывают, потому что статья про то, что нужно для условного "джуна"

Daddy_Cool 13 июл 2022 в 12:25

На первом графике в формуле где A, B, C... зачем у вас точки? У вас нет скалярного произведения, вы не перемножаете числа, вы не пишете программу в Маткаде.

punhin 14 июл 2022 в 16:13

Эксперт - это тот, кто может точно и правдоподобно объяснить, почему не сбылся его прогноз. К сожалению, в наше время знания предметной области, общих и частных разделов математики не являются ни достаточным, ни даже необходимым условием для того, чтобы быть экспертом.

ademchenko 16 июл 2022 в 00:07

Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат.

Простите меня, но Вы сами понимаете, что вы сказали? Если возможно переформулируйте, пожалуйста, желательно с учетом какой-то элементарной хотя бы википедии, которая, может быть, скажет, что "вышмат" - это название курса (как правило слабого, и поверхностного) в техническом вузе и более ничего. А математика - это серьrзная наука в виде всей совокупности ее подразделов. Если лично вам какой-то раздел математики в работе не нужен, то хотелось бы, чтобы из этого не следовали неграмотные утверждения и определения на обложке вашей статьи и в вашем телеграм канале.

Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.

Вы знаете, наверное, в дата сайенс есть своя специфика, которая больше использует определенные разделы математики такие как математическая статистика и теория вероятностей, а не те тривиальные примеры из первого курса вот этого самого так называемого "вышмата". Более того, тем, кому в вузе довелось слушать не "вышмат", а все-таки курсы с более интересными названиями, например, математическая статистика, понимают, что весь этот ваш датасайенс это обычный университетский курс мат. статистики и почти даже ничего более, просто с новыми "современными" названиями и без глубоких доказательств. Например, какая-нибудь ваша линейная регрессия это получение параметров по методу максимального правдоподобия - достаточно тривиальный и понятный метод, изучаемый в самом простом курсе правда не "вышмата", а математической статистики. Я специально взял простейший пример, чтобы не залезать в дебри, хотя, может быть, стоило бы написать статью на этот счет. Никакие курсы по датасайенсу не нужны, если вы нормально учились в более-менее математическом вузе. А, вообще, я просто о том, что если, например, я в чем-то некомпетентен и чего-то не понимаю, то это не означает, что мне стоит транслировать эту некомпетентность в массы, чтобы случайно не оказаться под воздействием эффекта Даннинга — Крюгера.

ademchenko 16 июл 2022 в 00:46

детерминанты матриц не ищу

Вы знаете, а может и зря, что не ищете. Потому, что, например, детерминант ковариационной матрицы имеет вполне полезный статистический смысл, который может быть использован как один из параметров оценки вашей модели. Боюсь, правда, что на курсах датасаенса и парах "вышмата" этого, может быть, и не рассказывают. Решается это, однако, просто - достаточно взять какой-нибудь простенький непритязательный учебник по мат. стату и изучить его - это, кстати, универсальный совет желающим повысить свой уровень понимания "датасайенса" .

Andronas 29 июл 2022 в 12:04

предложите пример такого учебника?

ademchenko 3 авг 2022 в 02:14

Из довольно простых, но хороших для базового понимания теории вероятности и мат. статистики на уровне, достаточном для практического применения в "дата сайенс" можно начать с двух следующих учебников:

Чистяков "Курс теории вероятностей"
George Casella, Roger L.Berger "Statistical Inference"

vashu1 16 июл 2022 в 07:00

А чтоб убрать тренд в правом графике достаточно посчитать разницу между
соседними точками ряда. При работе с временными рядами — это частая практика

На этом конкретном графике сработает, но на большинстве наборов производная =/= тренд.

an24 16 июл 2022 в 10:24

Полагаю в третьем задании вы имели ввиду, что зависимость у = exp(x) превратится в линейную, но не y = х, а ln(y) = x? То есть в других осях. Задачки у вас не строго сформулированы. Математики в шоке ))))

Aleron75 26 июл 2022 в 22:20

Согласен. Пытался сделать максимально понятно. Вышло не строго. Спасибо!

Yuriks111 16 июл 2022 в 18:14

https://www.youtube.com/watch?v=WUvTyaaNkzM&t=36s

Дифференциалы и прочая "вышка" - наглядно и просто. Если бы так в школе объясняли...

nahlogin 22 июл 2022 в 09:55

На первом графике под заголовком Статистики и распределения чёрными линиями не квартили отмечаны?
Судя по процентам, точки делят данные на 4 равных части, но площади под кривой не соответствуют процентам

Refridgerator 27 июл 2022 в 05:22

Рассчитать угол между векторами можно и без формулы косинуса между двумя векторами, используя только две математических операции.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий