Статьи / Закладки / Профиль Hu-man / Хабр

Alex V. @Hu-man^{read⁠-⁠only}

Pro_User

Профиль Закладки 75

avidclam 21 апр 2014 в 11:51

План-факт, динамика и прибыль на одной диаграмме c помощью R

2 мин

9.5K

R*Визуализация данных*

Каждый раз, когда подводятся финансовые итоги прошедшего года и готовится соответствующая презентация, люди ломают голову, как бы уместить основные цифры на одной диаграмме. Какова бы ни была сфера деятельности организации, подведение итогов, как правило, начинается с анализа основных финансовых показателей, отдельно по каждому из бизнес-направлений:

оборот в завершившемся году (фактические цифры);
установленные ранее планы на завершившийся год (для анализа выполнения);
оборот годом ранее (для понимания динамики);
прибыльность.

Стандартная столбчатая диаграмма, которую можно на скорую руку построить в Excel, даёт, мягко говоря, не совсем наглядный результат. К примеру, если у бизнеса четыре направления, то на диаграмме появятся 16 рядом стоящих столбцов, и кто-то может с непривычки спутать передовиков и отстающих.
Специалисты, знакомые с R, могут использовать ggplot2 для программного построения нужной диаграммы, например, такой как здесь. Для примера взяты цифры за 2012 год из годового отчета компании Unilever. Плановые показатели не относятся к публичным данным, поэтому пришлось их выдумать из головы, установив, для определенности, на уровне «прошлый год + 5%».
Исходные цифры находятся в Excel и выглядят так (данные в миллионах евро):

Построенная в RStudio диаграмма выглядит следующим образом:

Проверьте диаграмму на интуитивность, и не глядя на цифры, предположите, какому показателю какой элемент диаграммы соответствует, а объяснения будут далее.

Читать дальше →

kxx 21 дек 2013 в 23:30

Введение в параллельные вычисления в R

5 мин

17K

Data Mining*R*Алгоритмы*Параллельное программирование*

Из песочницы

Эта статья посвящена языку R. Он не так широко распространен на территории ex-USSR, как Matlab и тем более Python, но, безусловно, заслуживает внимания. Нельзя не отметить, что R — фактически стандарт для Data Science (хотя тут хорошо написано, что не R единым живут data scientists). Богатый синтаксис, совместимость с legacy кодом (что весьма важно в научных приложениях), удобная среда разработки RStudio и наличие огромного числа библиотек в CRAN делают R таковым.

Читать дальше →

+25

DeMoerto 25 сен 2013 в 14:00

Оценка результатов линейной регрессии

6 мин

103K

Data Mining*Математика*R*

Из песочницы

Введение

Сегодня уже все, кто хоть немного интересуется дата майнингом, наверняка слышали про простую линейную регрессию. Про нее уже писали на хабре, а также подробно рассказывал Эндрю Нг в своем известном курсе машинного обучения. Линейная регрессия является одним из базовых и самых простых методов машинного обучения, однако очень редко упоминаются методы оценки качества построенной модели. В этой статье я постараюсь немного исправить это досадное упущение на примере разбора результатов функции summary.lm() в языке R. При этом я постараюсь предоставить необходимые формулы, таким образом все вычисления можно легко запрограммировать на любом другом языке. Эта статья предназначена для тех, кто слышал о том, что можно строить линейную регрессию, но не сталкивался со статистическими процедурами для оценки ее качества.

Читать дальше →

+10

mephistopheies 2 авг 2013 в 16:04

Решение задачи кластеризации методом градиентного спуска

6 мин

26K

Data Mining*Алгоритмы*

Привет. В этой статье будет рассмотрен способ кластеризации данных, используя метод градиентного спуска. Честно говоря данный способ носит больше академический характер, нежели практический. Реализация этого метода мне понадобилась в демонстрационных целях для курса по машинному обучению, что бы показать как одинаковые задачи можно решить различными способами. Хотя конечно если вы планируете осуществить кластеризацию данных, используя дифференцируемую метрику, для которой вычислительно труднее найти центроид, нежели подсчитать градиент на некотором наборе данных, то этот метод может быть полезным. Итак если вам интересно как можно решить задачу k-means кластеризации с обобщенной метрикой используя метод градиентного спуска, прошу под кат. Код на языке R.

Читать дальше →

+46

mephistopheies 25 июн 2013 в 17:39

Фильтрация смс спама с помощью наивного байесовского классификатора (код на R)

8 мин

28K

Data Mining*Алгоритмы*

Привет. В этом посте мы рассмотрим простую модель фильтрации спама с помощью наивного байесовского классификатора с размытием по Лапласу, напишем несколько строк кода на R, и, наконец, протестируем на англоязычной базе данных смс спама. Вообще, на хабре я нашел две статьи посвященные данной теме, но ни в одной не было наглядного примера, чтобы можно было скачать код и посмотреть результат. Также не было упоминания про размытие, что существенно увеличивает качество модели, без особых затрат усилий, в отличие, скажем, от сложной предобработки текста. Но вообще, запилить очередной пост про наивного байеса меня побудило то, что я пишу методичку для студентов с примерами кода на R, вот и решил поделиться инфой.

Читать дальше →

+24

vladob 12 фев 2013 в 01:01

Мой опыт введения в R или «I Love R»

8 мин

35K

Из песочницы

Я — ученый [здесь про это подробнее]. «Пролетарий умственного труда». По образованию физик. Тружусь на ниве обработки медицинской и биологической информации 30+ лет.
В R работаю ровно 10 лет, мигрировав на него после 15 лет плотного сотрудничества с Matlab. Первопричиной миграции на другую рабочую платформу послужила моя собственная физическая миграция на противоположный край Земли в Окланд, Новая Зеландия. Здесь жизнь с первых дней толкнула меня в объятия R, о чем мне еще не приходилось жалеть.

Все чаще наблюдаю вспышки интереса к R в профессиональном ру.нете. Ну вот и на этом уважаемом ресурсе появляются статьи про него. Далее под катом моя первая попытка русскоязычного введения в R — первая (словесная) часть презентации, которую я делал для коллег факультета Animal Science, Iova State University три года назад.
(в сторону: а как, оказывется, трудно себя переводить...)

Читать дальше →

+33

aledovskiy 28 янв 2013 в 14:20

Статистические тесты в R. Часть 1: Бинарная классификация

5 мин

25K

Туториал

Из песочницы

Доброго времени суток. Хочу поделиться своими знаниями о работе со статистикой в R.
Многим из нас приходится сталкиваться с различными данными на работе и в повседневной жизни. Качественно и правильно их обработать и проанализировать не так сложно. В этой серии статей я покажу применения некоторых статистических тестов.

Заинтересовались? Добро пожаловать под кат.

Читать дальше →

+13

chersanya 10 янв 2013 в 18:46

Визуализация статистики использования компьютера с R

6 мин

21K

R*Python*Data Mining*

Думаю, многим интересно (хотя бы из любопытства), как именно они используют свой компьютер: самые нажимаемые кнопки, пройденное мышью расстояние, среднее время работы и другую информацию. В этой статье я расскажу один из вариантов того, как можно собрать такую информацию и затем представить её в виде интерактивных графиков. Все описанные действия производились на ноутбуке с ОС Debian Wheezy, Python 2.7.3, R 2.15.

Подробнее, с картинками и ссылками

+39

danilchenko 20 дек 2012 в 10:49

Параллелим R

3 мин

12K

Data Mining*R*

Туториал

Введение

Сейчас практически невозможно представить себе мир без параллельных вычислений. Параллелят все и вся, даже у мобильных телефонов теперь несколько ядер, а значит… ну вы понимаете. Но давайте поговорим не о мобильных приложениях, а о более полезных и интересных вещах. О машинном обучении. Тема тоже модная, разрекламированная, про машинное обучение слышали даже домохозяйки и только ленивый еще не трогал это руками. Для машинного обучения, и если быть более точным, для статистических расчетов есть множество разных фреймворков, на мой вкус лучший из них – R (да простят меня поклонники Octave). И речь пойдет именно о нем.

Disclaimer:
я не претендую на особую строгость изложения, моя задача донести до читателей общую мысль.

Читать дальше →

+20

molozhenko 16 мар 2012 в 14:06

Анализируем Twitter при помощи R

4 мин

9.5K

R*Twitter API*

Из песочницы

Здравствуйте, уважаемое хабрасообщество!
На Хабре уже несколько раз говорили о возможностях среды R, но я считаю, что дополнительная информация станет полезной, так как R — это очень интересный и мощный инструмент, который может быть применен в самых разных областях. Я попробую это доказать на примере анализа появления одного из трендов Twitter. Для этого нам понадобится библиотека twitteR, которая позволяет работать с Twitter через API. Но для начала расскажу подробнее об R.

Читать дальше →

+26

DreamWalker 12 фев 2013 в 08:14

Шпаргалка по языку R

2 мин

57K

R*Программирование*Веб-разработка*

Многие слышали про R — язык программирования и систему статистических вычислений. Язык весьма популярен за рубежом, а вот в России, к сожалению, на нём пишут относительно мало. Да и ресурсы на русском языке можно по пальцам пересчитать. Я считаю, что ситуацию нужно как-то исправлять.
На официальном сайте есть такая замечательная штука, как R reference card. В базовых пакетах R содержится множество очень полезных функций, которые делают программирование действительно быстрым и лаконичным. Но новички, как правило, большую часть самых прекрасных функций не знают. Да и не откуда узнать — мануалы очень большие, мало кто их полностью читает. А вот R reference card позволяет совершить быстрое путешествие по основной функциональности и вынести для себя много полезного.
Я решил перевести этот замечательный документ на русский язык. Но не просто перевести, а сделать его немного получше. Я чуток поменял структуризацию, для каждой функции поставил ссылку на документацию, убрал избыточные описания.
Предлагаю вам ознакомиться с результатом. Готов к любым замечаниям и предложениям, чтобы сделать этот список ещё лучше. Надеюсь, что данный обзор R окажется полезным для многих людей, которые решили начать писать на этом прекрасном языке.

Читать дальше →

+20

jandevel 6 мар 2018 в 13:59

Коэффициент Джини. Из экономики в машинное обучение

17 мин

134K

Блог компании Open Data ScienceData Mining*Python*Математика*Машинное обучение*

Интересный факт: в 1912 году итальянский статистик и демограф Коррадо Джини написал знаменитый труд «Вариативность и изменчивость признака», и в этом же году «Титаник» затонул в водах Атлантики. Казалось бы, что общего между этими двумя событиями? Всё просто, их последствия нашли широкое применение в области машинного обучения. И если датасет «Титаник» в представлении не нуждается, то об одной замечательной статистике, впервые опубликованной в труде итальянского учёного, мы поговорим поподробней. Сразу хочу заметить, что статья не имеет никакого отношения к коэффициенту Джини (Gini Impurity), который используется в деревьях решений как критерий качества разбиения в задачах классификации. Эти коэффициенты никак не связаны друг с другом и общего между ними примерно столько же, сколько общего между трактором в Брянской области и газонокосилкой в Оклахоме.

Коэффициент Джини (Gini coefficient) — метрика качества, которая часто используется при оценке предсказательных моделей в задачах бинарной классификации в условиях сильной несбалансированности классов целевой переменной. Именно она широко применяется в задачах банковского кредитования, страхования и целевом маркетинге. Для полного понимания этой метрики нам для начала необходимо окунуться в экономику и разобраться, для чего она используется там.

Читать дальше →

+65

Gavrin 21 авг 2019 в 22:13

С чего начать изучение Python: книги для начинающих

4 мин

250K

Big Data*Data Mining*Python*Программирование*

Друзья, забирайте в закладки подборку из 17 книг по Python.

Подборка поможет вам освоить язык программирования с нуля или с минимальными знаниями.
Готовы приступить к изучению Python?

Тогда начнем!

Читать дальше →

+21

pnovikov 23 авг 2017 в 15:56

Четыре типажа программистов

17 мин

215K

Карьера в IT-индустрииУправление персоналом*Управление проектами*

Привет.

Я впервые пишу в поток об управлении и найме персонала. Речь пойдет об одном из способов классифицировать ваших будущих или действующих программистов. Мой основной тезис: все разработчики, грубо говоря, делятся на 4 больших типажа и каждому из этих типажей есть своя область применения. Попытка направить неправильный типаж на решение неподходящих для него задач ведет к провалу (неэффективная работа, или сотрудник покидает команду). Хотите знать почему так — добро пожаловать под кат. Приготовьтесь, текста много.

Читать дальше →

+216

548

rivseller 5 авг 2020 в 18:51

Школа риск-технологов

10 мин

4.8K

Блог компании РосбанкКарьера в IT-индустрииУправление персоналом*Управление разработкой*Учебный процесс в IT

Технотекст 2020

Кто такой риск-технолог?

С давних времен… Так меня учила начинать повествование учительница по истории. Давным-давно.

Итак. Для того чтобы лучше понять потребность в создании школы, сначала расскажу кто такой риск-технолог.

Те, кто давно работает в банковской сфере, еще помнят время, когда никаких риск-технологов не существовало. Были просто «рисковики», которые занимались всем понемногу. То есть были T-shape еще до того, как это стало мейнстримом.

Они и методики оценки кредитоспособности сами писали, и первые скор-модели сами строили, и мошенников вычисляли, и про регуляторку не забывали, и за кредитным портфелем следили, и сами еще все это внедрять на коленке пытались.

Но в период бурного развития кредитования в России банки постепенно поняли, для того чтобы не отставать от спроса, нужно расширять штат сотрудников, контролирующих риск (экстенсивный путь) или автоматизировать процессы, цифровизируя кредитный конвейер (интенсивный путь). Как обычно получилось не «или-или», а «всё вместе».

Читать дальше →

1 2 3