Articles / Profile of kxx / Habr

@kxx

Пользователь

ProfileArticles10PostsNewsComments240

kxx Apr 5 2017 at 07:32

О линейной регрессии: байесовский подход к курсу рубля

9 min

25K

Data Mining * R * Algorithms * Mathematics * Machine learning *

Не секрет, что курс рубля напрямую зависит от стоимости нефти (и от кое-чего еще). Этот факт позволяет строить довольно интересные модели. В своей статье о линейной регрессии я коснулся некоторых вопросов, посвященных диагностике модели, а за кадром остался такой вопрос: есть ли более эффективная, но не слишком сложная альтернатива линейной регрессии? Традиционно используемый метод наименьших квадратов прост и понятен, но есть и другие подходы ~~(не такие понятные)~~.

Читать дальше →

+29

kxx Sep 20 2016 at 22:15

ANOVA, или кто комментирует?

8 min

25K

Machine learning * Mathematics * Algorithms * R * Data Mining *

В комментариях проскальзывала мысль, что люди мало комментируют статьи на Habrahabr, т.к. боятся потерять карму. Получается, что в основном пишут те, у кого карма побольше. Попробуем исследовать эту гипотезу подробнее и получить результаты, подкрепленные не только интуитивно, но и статистически.

Читать дальше →

+22

kxx Feb 5 2016 at 01:02

Как уменьшить количество измерений и извлечь из этого пользу

10 min

55K

Programming * Machine learning * R * Data Mining * Big Data *

Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.

Читать дальше →

+24

kxx Dec 17 2014 at 00:18

Нефтяные ряды в R

6 min

43K

Machine learning * Mathematics * R * Data Mining * Big Data *

«Графики цен великолепны, чтобы предсказывать прошлое»
Питер Линч

С временными рядами мне как-то не доводилось иметь дело на практике. Я, конечно, читал о них и имел некоторое представление в рамках учебного курса о том, как в общих чертах проводится анализ, но хорошо известно, что то, о чем рассказывают в учебниках по статистике и машинному обучению, не всегда отражает реальное положение дел.

Читать дальше →

+22

kxx Oct 14 2014 at 22:42

Добыча «тыжпрограммиста»

4 min

298K

DIY

Недавно мне принесли ноутбук — очень хороший ноутбук — по меркам 2004 года, конечно (за такой в то время можно было и убить

). И со знакомой многим мантрой «тыжпрограммист*ля» попросили разобраться, почему столько лет стабильно работавшее устройство вдруг отказалось загружаться. А я, в общем-то, не электронщик, и даже не совсем программист — так, с R/Matlab/Python балуюсь. Но знакомые были очень хорошие, и пришлось таки взять ноут.

Читать дальше →

+117

207

kxx Sep 1 2014 at 23:05

Несколько слов о «линейной» регрессии

5 min

55K

Machine learning * Mathematics * R * Data Mining * Big Data *

Иногда так бывает: задачу можно решить чуть ли не арифметически, а на ум прежде всего приходят всякие интегралы Лебега и функции Бесселя. Вот начинаешь обучать нейронную сеть, потом добавляешь еще парочку скрытых слоев, экспериментируешь с количеством нейронов, функциями активации, потом вспоминаешь о SVM и Random Forest и начинаешь все сначала. И все же, несмотря на прямо таки изобилие занимательных статистических методов обучения, линейная регрессия остается одним из популярных инструментов. И для этого есть свои предпосылки, не последнее месте среди которых занимает интуитивность в интерпретации модели.

Читать дальше →

+35

kxx May 16 2014 at 01:09

R + C + CUDA =…

4 min

13K

C * Data Mining * R * Algorithms * Programming *

Иногда возникает необходимость ускорить вычисления, причем желательно сразу в разы. При этом приходится отказываться от удобных, но медленных инструментов и прибегать к чему-то более низкоуровневому и быстрому. R имеет довольно развитые возможности для работы с динамическими бибиотеками, написанными на С/С++, Fortran или даже Java. Я по привычке предпочитаю С/С++.

Читать дальше →

+30

kxx Mar 15 2014 at 00:49

Анимированные графики в R (и немного про бифуркацию, хаос и аттракторы)

4 min

20K

Programming * Mathematics * Algorithms * R * Data Mining *

Однажды для презентации мне понадобились анимированные графики. С графиками, собственно, проблем не возникло, а для их анимации пришлось воспользоваться еще одним пакетом animation, который можно установить из CRAN.

Читать дальше →

+28

kxx Feb 2 2014 at 00:41

Let's fix NAs

5 min

7.3K

Programming * Machine learning * Algorithms * R * Data Mining *

Довольно часто встречаются неполные наборы данных, в которых некоторые переменные не определены. В языке R содержимое таких переменных задается как «Not Available» — или сокращенно NA. Соответственно, возникает вопрос, как поступать с неопределенными значениям: стоит ли их игнорировать или откорректировать каким-либо образом?

Читать дальше →

+12

kxx Dec 21 2013 at 19:30

Введение в параллельные вычисления в R

5 min

17K

Data Mining * R * Algorithms * Concurrent computing *

From sandbox

Эта статья посвящена языку R. Он не так широко распространен на территории ex-USSR, как Matlab и тем более Python, но, безусловно, заслуживает внимания. Нельзя не отметить, что R — фактически стандарт для Data Science (хотя тут хорошо написано, что не R единым живут data scientists). Богатый синтаксис, совместимость с legacy кодом (что весьма важно в научных приложениях), удобная среда разработки RStudio и наличие огромного числа библиотек в CRAN делают R таковым.

Читать дальше →

+24