Articles / Profile of kxx / Habr

@kxx

Пользователь

ProfileArticles10PostsNewsComments240

kxx Apr 5 2017 at 07:32

О линейной регрессии: байесовский подход к курсу рубля

9 min

24K

Data Mining*R*Algorithms*Mathematics*Machine learning*

Не секрет, что курс рубля напрямую зависит от стоимости нефти (и от кое-чего еще). Этот факт позволяет строить довольно интересные модели. В своей статье о линейной регрессии я коснулся некоторых вопросов, посвященных диагностике модели, а за кадром остался такой вопрос: есть ли более эффективная, но не слишком сложная альтернатива линейной регрессии? Традиционно используемый метод наименьших квадратов прост и понятен, но есть и другие подходы ~~(не такие понятные)~~.

Читать дальше →

+32

kxx Sep 20 2016 at 22:15

ANOVA, или кто комментирует?

8 min

25K

Machine learning*Mathematics*Algorithms*R*Data Mining*

В комментариях проскальзывала мысль, что люди мало комментируют статьи на Habrahabr, т.к. боятся потерять карму. Получается, что в основном пишут те, у кого карма побольше. Попробуем исследовать эту гипотезу подробнее и получить результаты, подкрепленные не только интуитивно, но и статистически.

Читать дальше →

+25

kxx Feb 5 2016 at 01:02

Как уменьшить количество измерений и извлечь из этого пользу

10 min

54K

Programming*Machine learning*R*Data Mining*Big Data*

Сначала я хотел честно и подробно написать о методах снижения размерности данных — PCA, ICA, NMF, вывалить кучу формул и сказать, какую же важную роль играет SVD во всем этом зоопарке. Потом понял, что получится текст, похожий на вырезки из опусов от Mathgen, поэтому количество формул свел к минимуму, но самое любимое — код и картинки — оставил в полном объеме.

Читать дальше →

+25

kxx Dec 17 2014 at 00:18

Нефтяные ряды в R

6 min

43K

Machine learning*Mathematics*R*Data Mining*Big Data*

«Графики цен великолепны, чтобы предсказывать прошлое»
Питер Линч

С временными рядами мне как-то не доводилось иметь дело на практике. Я, конечно, читал о них и имел некоторое представление в рамках учебного курса о том, как в общих чертах проводится анализ, но хорошо известно, что то, о чем рассказывают в учебниках по статистике и машинному обучению, не всегда отражает реальное положение дел.

Читать дальше →

+23

kxx Oct 14 2014 at 22:42

Добыча «тыжпрограммиста»

4 min

298K

DIY

Недавно мне принесли ноутбук — очень хороший ноутбук — по меркам 2004 года, конечно (за такой в то время можно было и убить

). И со знакомой многим мантрой «тыжпрограммист*ля» попросили разобраться, почему столько лет стабильно работавшее устройство вдруг отказалось загружаться. А я, в общем-то, не электронщик, и даже не совсем программист — так, с R/Matlab/Python балуюсь. Но знакомые были очень хорошие, и пришлось таки взять ноут.

Читать дальше →

+118

207

kxx Sep 1 2014 at 23:05

Несколько слов о «линейной» регрессии

5 min

54K

Machine learning*Mathematics*R*Data Mining*Big Data*

Иногда так бывает: задачу можно решить чуть ли не арифметически, а на ум прежде всего приходят всякие интегралы Лебега и функции Бесселя. Вот начинаешь обучать нейронную сеть, потом добавляешь еще парочку скрытых слоев, экспериментируешь с количеством нейронов, функциями активации, потом вспоминаешь о SVM и Random Forest и начинаешь все сначала. И все же, несмотря на прямо таки изобилие занимательных статистических методов обучения, линейная регрессия остается одним из популярных инструментов. И для этого есть свои предпосылки, не последнее месте среди которых занимает интуитивность в интерпретации модели.

Читать дальше →

+36

kxx May 16 2014 at 01:09

R + C + CUDA =…

4 min

13K

C*Data Mining*R*Algorithms*Programming*

Иногда возникает необходимость ускорить вычисления, причем желательно сразу в разы. При этом приходится отказываться от удобных, но медленных инструментов и прибегать к чему-то более низкоуровневому и быстрому. R имеет довольно развитые возможности для работы с динамическими бибиотеками, написанными на С/С++, Fortran или даже Java. Я по привычке предпочитаю С/С++.

Читать дальше →

+31

kxx Mar 15 2014 at 00:49

Анимированные графики в R (и немного про бифуркацию, хаос и аттракторы)

4 min

20K

Programming*Mathematics*Algorithms*R*Data Mining*

Однажды для презентации мне понадобились анимированные графики. С графиками, собственно, проблем не возникло, а для их анимации пришлось воспользоваться еще одним пакетом animation, который можно установить из CRAN.

Читать дальше →

+29

kxx Feb 2 2014 at 00:41

Let's fix NAs

5 min

7.3K

Programming*Machine learning*Algorithms*R*Data Mining*

Довольно часто встречаются неполные наборы данных, в которых некоторые переменные не определены. В языке R содержимое таких переменных задается как «Not Available» — или сокращенно NA. Соответственно, возникает вопрос, как поступать с неопределенными значениям: стоит ли их игнорировать или откорректировать каким-либо образом?

Читать дальше →

+13

kxx Dec 21 2013 at 19:30

Введение в параллельные вычисления в R

5 min

17K

Data Mining*R*Algorithms*Concurrent computing*

From sandbox

Эта статья посвящена языку R. Он не так широко распространен на территории ex-USSR, как Matlab и тем более Python, но, безусловно, заслуживает внимания. Нельзя не отметить, что R — фактически стандарт для Data Science (хотя тут хорошо написано, что не R единым живут data scientists). Богатый синтаксис, совместимость с legacy кодом (что весьма важно в научных приложениях), удобная среда разработки RStudio и наличие огромного числа библиотек в CRAN делают R таковым.

Читать дальше →

+25