А как иначе? Описывать поверхность формулой с бесконечным количеством трансцендентных коэффициентов?
Как то так, да. Только сферическими гармониками . Ими можно аппроксимировать произвольную сферическую функцию, они дают ортогональный базис и в чем-то являются аналогом классического преобразования Фурье(только в Фурье базис синус-косинус).
Если стоит вопрос, какие факторы(фичи) необходимо выбрать, то обычно просто все что придумают закидывают в модель. Строят модель и выкидывают бесполезные/избыточные или слабо влияющие факторы. Для линейных моделей, можно получить стягивание к нулю коэффициентов для "бесполезных" факторов, за счет L1 регуляризации. Для деревянных моделей, можно оценить важность факторов, и посмотреть что будет если выбросить наименее влияющие.
В общем случаи для любой линейной модели мы имеем некоторую "решающую" функцию: a_1*F_1 + a_2*F_2 + .. + a_n*F_n, где a_i это подбираемые константы, а F_i это некоторый произвольный фактор, им может быть и квадрат и логарифм и какая угодно функция от входных данных. Формально можно считать входные факторы точками в пространстве R^n, тогда линейная модель будет давать некоторую гиперплоскость в этом пространстве, или если нам интересны более "мощные" модели(ансамбли деревьев, SVM с нелинейным ядром и т.д.), то они будут давать некоторую разделяющую поверхность в этом пространстве. (в ML факторы называют фичами, и есть даже небольшая наука об этом feature engineering)
Да, любой линейный метод классификации для какой-то метрики(средне квадратичное отклонение, средняя абсолютная ошибка, максимизация margin) будет давать разделяющую гиперплоскость. А методов даже широко известных, вагон и маленькая тележка: LDA(linear discriminant analysis), logistic regression (с L1 и L2 регуляризацией), SVM. И работают они без проблем когда данных очень много, и практически не ограниченном количестве факторов(размере входного пространства).
Отличный социальный эксперимент, с этим все равно придется иметь дело и этот поток уже не заткнуть. Тем более за диплом ему поставили трояк, так что даже со стороны ВУЗа все нормально.
Коэфициенты на странице гитхаба, которые я видел, явно не про основной ранжировщик поисковой выдачи. Там и комментарии помоему были соответствующие, что это какой-то подпроект.
PS: сначала я подумал, что эти коэфициенты показывают feature importance, но они там были и отрицательные
Будут, только какое решение будет принято на основе конкретного значения факторов это вопрос. Если бы была линейная регрессия, то да "решающая формула" имела бы вид a_1*f_1 + a_2*f_2 + .. + a_n*f_n (a_i - подбираемые коэффициенты, f_n - факторы) с однозначной интерпретацией влияния факторов. Но там деревья https://en.wikipedia.org/wiki/Decision_tree а конкретно градиентный бустинг, соответственно результат зависит от некоторой входной совокупности факторов. Конечно, там есть некоторые факторы, которые можно определить, как однозначно "хорошие", которые чем больше тем лучше, но в общем случаи это не верно.
Вы же сами привели ссылку, там ясно написано, что если нуль-гипотеза верна. Формально это означает что мы берем значение статистики из того же распределения, что и априорно построено исходя из нуль-гипотезы. Естественно если распределения одинаковые, то и p-value будет равномерным.
Ваши же практические эксперименты все и опровергают, задайте больше итераций, и вы увидите что никакой сходимости к 0.05 нет и в помине. И это очевидно с теоретической точки зрения.
PS: или умозрительный эксперимент, который я предлагал, предположим что у вас бесконечная выборка, очевидно что p-value будет сжат к нулю, и распределение уж точно не равномерное.
Можете математически это аргументировать, исходя из определения p-value?
Смотрите, у нас есть нуль-гипотеза, с этой нуль гипотезой связано какое-то распределение статистики при условии что нуль-гипотеза верна. Если мы получаем некоторые экстремально далекие значения статистики от этого распределения, то мы можем отбросить нуль-гипотезу. Формально это задается через p-value, которая является вероятностью увидеть полученное значение статистики для априорно заданного нуль-гипотезой распределения.
Дальше, если мы берем и фиксируем какой-то статистический эксперимент, задаем входные параметры в виде форм распределения и размер выборки. То для каждого проведенного эксперимента мы получаем точечное значение статистики, и связанное с ней p-value. Если мы проводим эксперимент много раз, мы получаем распределение статистики и распределение p-value. Если мы возьмем к примеру очень хороший алгоритм или очень большую выборку(в пределе бесконечную), то распределение p-value должно свестись к двум точкам - 0 если нуль гипотеза отброшена и около 1 в остальных случаях.
Из выше обозначенного становится очевидно, что предположение P(p-value < 0.05) = 0.05 принципиально не верно. Приведенные вами результаты эксперимента (значения "power"), конечно можно рассматривать, как некоторое сравнение эффективности различных методов, при заданных входных формах распределения и параметрах выборки, так как они несут некоторую информацию о распределении p-value. Но делать из этого какие-то далеко идущие выводы я бы не стал.
Так же t-test делает гораздо большие предположения о входных параметрах распределения(гауссовость), и соответственно будет иметь значительно большую эффективность по сравнению с тестами, которые ни каких подобных предположений не делают.
Факторы ранжирования, это лишь половина вопроса. Там же машинное обучение на деревьях(градиентный бустинг) очень давно и matrixnet в частности. Факторы не независимы и действуют далеко не аддитивно(плохо/хорошо).
Так в техникумах, особенно региональных, нет этой конкретики. Из моего опыта(конца нулевых), все кто более менее успешно устроился в IT без образования. Получали "конкретику" из книжек, интернета, знакомых, собственных проектов или кому-то удавалось устроится сразу на какую-то работу. Может сейчас, конечно, с этим стало лучше. Но мое мнение, если от IT образования вам нужна информация, то лучше всего начать с изучения английского.
2 года это техникум? Может по рабочим специальностям там и есть смысл. Но с точки зрения програмизма/разработки, 2 года в региональном техникуме это еще более выброшенное время чем 4-5 лет в ВУЗе.
Вы так говорите так, как будто ремесленник это что-то плохое. 90% из закончивших региональные ВУЗы вообще отправляются на работу сравнимую по сложности с "с продавцом в пятерочке".
Это все просто крайние точки, реальный ландшафт сложнее. Гарантировать можно, если вы до этого делали практически тоже самое. И это если мы рассматриваем вопрос чисто с инженерной точки зрения. С точки зрения бизнеса, вы вполне можете понимать, что будет 3х, но обозначать 1х. В том числе из-за не совсем честных конкурентов.
Как то так, да. Только сферическими гармониками . Ими можно аппроксимировать произвольную сферическую функцию, они дают ортогональный базис и в чем-то являются аналогом классического преобразования Фурье(только в Фурье базис синус-косинус).
Если стоит вопрос, какие факторы(фичи) необходимо выбрать, то обычно просто все что придумают закидывают в модель. Строят модель и выкидывают бесполезные/избыточные или слабо влияющие факторы. Для линейных моделей, можно получить стягивание к нулю коэффициентов для "бесполезных" факторов, за счет L1 регуляризации. Для деревянных моделей, можно оценить важность факторов, и посмотреть что будет если выбросить наименее влияющие.
В общем случаи для любой линейной модели мы имеем некоторую "решающую" функцию: a_1*F_1 + a_2*F_2 + .. + a_n*F_n, где a_i это подбираемые константы, а F_i это некоторый произвольный фактор, им может быть и квадрат и логарифм и какая угодно функция от входных данных. Формально можно считать входные факторы точками в пространстве R^n, тогда линейная модель будет давать некоторую гиперплоскость в этом пространстве, или если нам интересны более "мощные" модели(ансамбли деревьев, SVM с нелинейным ядром и т.д.), то они будут давать некоторую разделяющую поверхность в этом пространстве. (в ML факторы называют фичами, и есть даже небольшая наука об этом feature engineering)
Да, любой линейный метод классификации для какой-то метрики(средне квадратичное отклонение, средняя абсолютная ошибка, максимизация margin) будет давать разделяющую гиперплоскость. А методов даже широко известных, вагон и маленькая тележка: LDA(linear discriminant analysis), logistic regression (с L1 и L2 регуляризацией), SVM. И работают они без проблем когда данных очень много, и практически не ограниченном количестве факторов(размере входного пространства).
А для остальных производителей есть комплектующие? Показывать прототипы и серийное производство, несколько разные вещи.
На любом языке, где есть перегрузка соответствующих операторов. А на плюсах наверняка можно получить и около нулевой оверхед.
И не только знание физики помогает обыграть казино в рулетку
Отличный социальный эксперимент, с этим все равно придется иметь дело и этот поток уже не заткнуть. Тем более за диплом ему поставили трояк, так что даже со стороны ВУЗа все нормально.
Так им и ненужна репрезентативная, для фактора достаточно, что она человечья, и трудно накручиваемая.
Да, вы правы, распределение плюс-минус сходится к равномерному. Спасибо!
Коэфициенты на странице гитхаба, которые я видел, явно не про основной ранжировщик поисковой выдачи. Там и комментарии помоему были соответствующие, что это какой-то подпроект.
PS: сначала я подумал, что эти коэфициенты показывают feature importance, но они там были и отрицательные
Будут, только какое решение будет принято на основе конкретного значения факторов это вопрос. Если бы была линейная регрессия, то да "решающая формула" имела бы вид a_1*f_1 + a_2*f_2 + .. + a_n*f_n (a_i - подбираемые коэффициенты, f_n - факторы) с однозначной интерпретацией влияния факторов. Но там деревья https://en.wikipedia.org/wiki/Decision_tree а конкретно градиентный бустинг, соответственно результат зависит от некоторой входной совокупности факторов. Конечно, там есть некоторые факторы, которые можно определить, как однозначно "хорошие", которые чем больше тем лучше, но в общем случаи это не верно.
Вы же сами привели ссылку, там ясно написано, что если нуль-гипотеза верна. Формально это означает что мы берем значение статистики из того же распределения, что и априорно построено исходя из нуль-гипотезы. Естественно если распределения одинаковые, то и p-value будет равномерным.
Ваши же практические эксперименты все и опровергают, задайте больше итераций, и вы увидите что никакой сходимости к 0.05 нет и в помине. И это очевидно с теоретической точки зрения.
PS: или умозрительный эксперимент, который я предлагал, предположим что у вас бесконечная выборка, очевидно что p-value будет сжат к нулю, и распределение уж точно не равномерное.
del
Смотрите, у нас есть нуль-гипотеза, с этой нуль гипотезой связано какое-то распределение статистики при условии что нуль-гипотеза верна. Если мы получаем некоторые экстремально далекие значения статистики от этого распределения, то мы можем отбросить нуль-гипотезу. Формально это задается через p-value, которая является вероятностью увидеть полученное значение статистики для априорно заданного нуль-гипотезой распределения.
Дальше, если мы берем и фиксируем какой-то статистический эксперимент, задаем входные параметры в виде форм распределения и размер выборки. То для каждого проведенного эксперимента мы получаем точечное значение статистики, и связанное с ней p-value. Если мы проводим эксперимент много раз, мы получаем распределение статистики и распределение p-value. Если мы возьмем к примеру очень хороший алгоритм или очень большую выборку(в пределе бесконечную), то распределение p-value должно свестись к двум точкам - 0 если нуль гипотеза отброшена и около 1 в остальных случаях.
Из выше обозначенного становится очевидно, что предположение P(p-value < 0.05) = 0.05 принципиально не верно. Приведенные вами результаты эксперимента (значения "power"), конечно можно рассматривать, как некоторое сравнение эффективности различных методов, при заданных входных формах распределения и параметрах выборки, так как они несут некоторую информацию о распределении p-value. Но делать из этого какие-то далеко идущие выводы я бы не стал.
Так же t-test делает гораздо большие предположения о входных параметрах распределения(гауссовость), и соответственно будет иметь значительно большую эффективность по сравнению с тестами, которые ни каких подобных предположений не делают.
Факторы ранжирования, это лишь половина вопроса. Там же машинное обучение на деревьях(градиентный бустинг) очень давно и matrixnet в частности. Факторы не независимы и действуют далеко не аддитивно(плохо/хорошо).
Так в техникумах, особенно региональных, нет этой конкретики. Из моего опыта(конца нулевых), все кто более менее успешно устроился в IT без образования. Получали "конкретику" из книжек, интернета, знакомых, собственных проектов или кому-то удавалось устроится сразу на какую-то работу. Может сейчас, конечно, с этим стало лучше. Но мое мнение, если от IT образования вам нужна информация, то лучше всего начать с изучения английского.
2 года это техникум? Может по рабочим специальностям там и есть смысл. Но с точки зрения програмизма/разработки, 2 года в региональном техникуме это еще более выброшенное время чем 4-5 лет в ВУЗе.
Вы так говорите так, как будто ремесленник это что-то плохое. 90% из закончивших региональные ВУЗы вообще отправляются на работу сравнимую по сложности с "с продавцом в пятерочке".
Это все просто крайние точки, реальный ландшафт сложнее. Гарантировать можно, если вы до этого делали практически тоже самое. И это если мы рассматриваем вопрос чисто с инженерной точки зрения. С точки зрения бизнеса, вы вполне можете понимать, что будет 3х, но обозначать 1х. В том числе из-за не совсем честных конкурентов.