All streams
Search
Write a publication
Pull to refresh
4
0
Send message

А как иначе? Описывать поверхность формулой с бесконечным количеством трансцендентных коэффициентов?

Как то так, да. Только сферическими гармониками . Ими можно аппроксимировать произвольную сферическую функцию, они дают ортогональный базис и в чем-то являются аналогом классического преобразования Фурье(только в Фурье базис синус-косинус).

Если стоит вопрос, какие факторы(фичи) необходимо выбрать, то обычно просто все что придумают закидывают в модель. Строят модель и выкидывают бесполезные/избыточные или слабо влияющие факторы. Для линейных моделей, можно получить стягивание к нулю коэффициентов для "бесполезных" факторов, за счет L1 регуляризации. Для деревянных моделей, можно оценить важность факторов, и посмотреть что будет если выбросить наименее влияющие.

В общем случаи для любой линейной модели мы имеем некоторую "решающую" функцию: a_1*F_1 + a_2*F_2 + .. + a_n*F_n, где a_i это подбираемые константы, а F_i это некоторый произвольный фактор, им может быть и квадрат и логарифм и какая угодно функция от входных данных. Формально можно считать входные факторы точками в пространстве R^n, тогда линейная модель будет давать некоторую гиперплоскость в этом пространстве, или если нам интересны более "мощные" модели(ансамбли деревьев, SVM с нелинейным ядром и т.д.), то они будут давать некоторую разделяющую поверхность в этом пространстве. (в ML факторы называют фичами, и есть даже небольшая наука об этом feature engineering)

Да, любой линейный метод классификации для какой-то метрики(средне квадратичное отклонение, средняя абсолютная ошибка, максимизация margin) будет давать разделяющую гиперплоскость. А методов даже широко известных, вагон и маленькая тележка: LDA(linear discriminant analysis), logistic regression (с L1 и L2 регуляризацией), SVM. И работают они без проблем когда данных очень много, и практически не ограниченном количестве факторов(размере входного пространства).

А для остальных производителей есть комплектующие? Показывать прототипы и серийное производство, несколько разные вещи.

На любом языке, где есть перегрузка соответствующих операторов. А на плюсах наверняка можно получить и около нулевой оверхед.

Отличный социальный эксперимент, с этим все равно придется иметь дело и этот поток уже не заткнуть. Тем более за диплом ему поставили трояк, так что даже со стороны ВУЗа все нормально.

Так им и ненужна репрезентативная, для фактора достаточно, что она человечья, и трудно накручиваемая.

Да, вы правы, распределение плюс-минус сходится к равномерному. Спасибо!

Коэфициенты на странице гитхаба, которые я видел, явно не про основной ранжировщик поисковой выдачи. Там и комментарии помоему были соответствующие, что это какой-то подпроект.

PS: сначала я подумал, что эти коэфициенты показывают feature importance, но они там были и отрицательные

Будут, только какое решение будет принято на основе конкретного значения факторов это вопрос. Если бы была линейная регрессия, то да "решающая формула" имела бы вид a_1*f_1 + a_2*f_2 + .. + a_n*f_n (a_i - подбираемые коэффициенты, f_n - факторы) с однозначной интерпретацией влияния факторов. Но там деревья https://en.wikipedia.org/wiki/Decision_tree а конкретно градиентный бустинг, соответственно результат зависит от некоторой входной совокупности факторов. Конечно, там есть некоторые факторы, которые можно определить, как однозначно "хорошие", которые чем больше тем лучше, но в общем случаи это не верно.

Вы же сами привели ссылку, там ясно написано, что если нуль-гипотеза верна. Формально это означает что мы берем значение статистики из того же распределения, что и априорно построено исходя из нуль-гипотезы. Естественно если распределения одинаковые, то и p-value будет равномерным.

Ваши же практические эксперименты все и опровергают, задайте больше итераций, и вы увидите что никакой сходимости к 0.05 нет и в помине. И это очевидно с теоретической точки зрения.

PS: или умозрительный эксперимент, который я предлагал, предположим что у вас бесконечная выборка, очевидно что p-value будет сжат к нулю, и распределение уж точно не равномерное.

Можете математически это аргументировать, исходя из определения p-value?

Смотрите, у нас есть нуль-гипотеза, с этой нуль гипотезой связано какое-то распределение статистики при условии что нуль-гипотеза верна. Если мы получаем некоторые экстремально далекие значения статистики от этого распределения, то мы можем отбросить нуль-гипотезу. Формально это задается через p-value, которая является вероятностью увидеть полученное значение статистики для априорно заданного нуль-гипотезой распределения.

Дальше, если мы берем и фиксируем какой-то статистический эксперимент, задаем входные параметры в виде форм распределения и размер выборки. То для каждого проведенного эксперимента мы получаем точечное значение статистики, и связанное с ней p-value. Если мы проводим эксперимент много раз, мы получаем распределение статистики и распределение p-value. Если мы возьмем к примеру очень хороший алгоритм или очень большую выборку(в пределе бесконечную), то распределение p-value должно свестись к двум точкам - 0 если нуль гипотеза отброшена и около 1 в остальных случаях.

Из выше обозначенного становится очевидно, что предположение P(p-value < 0.05) = 0.05 принципиально не верно. Приведенные вами результаты эксперимента (значения "power"), конечно можно рассматривать, как некоторое сравнение эффективности различных методов, при заданных входных формах распределения и параметрах выборки, так как они несут некоторую информацию о распределении p-value. Но делать из этого какие-то далеко идущие выводы я бы не стал.

Так же t-test делает гораздо большие предположения о входных параметрах распределения(гауссовость), и соответственно будет иметь значительно большую эффективность по сравнению с тестами, которые ни каких подобных предположений не делают.

Факторы ранжирования, это лишь половина вопроса. Там же машинное обучение на деревьях(градиентный бустинг) очень давно и matrixnet в частности. Факторы не независимы и действуют далеко не аддитивно(плохо/хорошо).

Так в техникумах, особенно региональных, нет этой конкретики. Из моего опыта(конца нулевых), все кто более менее успешно устроился в IT без образования. Получали "конкретику" из книжек, интернета, знакомых, собственных проектов или кому-то удавалось устроится сразу на какую-то работу. Может сейчас, конечно, с этим стало лучше. Но мое мнение, если от IT образования вам нужна информация, то лучше всего начать с изучения английского.

2 года это техникум? Может по рабочим специальностям там и есть смысл. Но с точки зрения програмизма/разработки, 2 года в региональном техникуме это еще более выброшенное время чем 4-5 лет в ВУЗе.

Вы так говорите так, как будто ремесленник это что-то плохое. 90% из закончивших региональные ВУЗы вообще отправляются на работу сравнимую по сложности с "с продавцом в пятерочке".

Это все просто крайние точки, реальный ландшафт сложнее. Гарантировать можно, если вы до этого делали практически тоже самое. И это если мы рассматриваем вопрос чисто с инженерной точки зрения. С точки зрения бизнеса, вы вполне можете понимать, что будет 3х, но обозначать 1х. В том числе из-за не совсем честных конкурентов.

Information

Rating
Does not participate
Registered
Activity

Specialization

Software Developer, Application Developer
Senior
C++
C++ STL
Linux
Python
Machine learning
Applied math
Algorithms and data structures
Code Optimization