Все потоки

R *

Язык для статистической обработки данных

СтатьиПостыНовостиАвторыКомпании

jzha 9 авг 2015 в 20:01

Таблицы сопряженности и факторизация неотрицательных матриц

6 мин

16K

Data Mining * R * Визуализация данных * Открытые данные *

Факторизация неотрицательных матриц (NMF) — это представление матрицы V в виде произведения матриц W и H, в котором все элементы трех матриц неотрицательны. Это разложение используется в различных областях знаний, например, в биологии, компьютерном зрении, рекомендательных системах. В этой публикации пойдет речь о таблицах сопряженности социологических и маркетинговых данных, факторизация которых помогает понять структуру данных этих таблиц.

Читать дальше →

+11

9851754 4 авг 2015 в 12:56

Анализ открытых данных в R, часть 1

5 мин

15K

R * Открытые данные *

Из песочницы

Введение

На момент написания статьи большинство приложений на основе открытых данных (на официальных сайтах data.mos.ru/apps и data.gov.ru) представляют собой интерактивные справочники по инфраструктуре города или поселения с наглядной визуализацией и часто с опцией выбора оптимального маршрута. Цель этой и последующих публикаций состоит в том, чтобы привлечь внимание сообщества к обсуждению стратегий анализа открытых данных, в т.ч. направленных на прогнозирование, построение статистических моделей и извлечение информации, не представленной в явном виде. В качестве инструментария используется язык R и среда разработки RStudio.

Читать дальше →

+6

qc-enior 3 авг 2015 в 06:07

Визуализация статических и динамических сетей на R, часть 1

4 мин

19K

Блог компании Инфопульс УкраинаВизуализация данных * R * Data Mining *

Туториал

Перевод

Очень многие системы и явления представимы в виде сетей, т.е. набора объектов и связей между ними. Сеть — не только абстракция, но и наглядный инструмент визуализации данных. Можно отобразить важность того или иного объекта, вес каждой связи, указать ключевые группы элементов, выделить их и подчеркнуть связи между ними. Главная задача визуализации — подать ключевую информацию о свойствах системы или явления максимально легким для восприятия способом. В идеальном случае анализ системы и визуализацию его результатов можно сделать в рамках одного инструмента. R с его обширным набором пакетов позволяет это.

Читать дальше →

+6

ph_piter 24 июл 2015 в 08:20

R и Python — достойные соперники?

7 мин

77K

Блог компании Издательский дом «Питер»Big Data * Python * R *

Перевод

Всем доброй пятницы, дорогие читатели!

В истории компьютерной редакции издательства «Питер» найдется немного столь успешных книг, как "Программируем на Python" Майкла Доусона и не больше таких противоречивых тем, как изумительный язык R, прочно закрепившийся в числе бестселлерных тем «Амазона». В настоящее время мы договариваемся с правообладателями о новой замечательной книге по Python, но в то же время хотели проверить общественное мнение о R — целесообразно ли издавать новые книги об этом элитарном языке для гуру большой статистики, либо Python легко его одолеет, не то что Аполлона?

Добро пожаловать под кат!

Читать дальше →

+11

jzha 13 июл 2015 в 15:54

Статистический анализ ассоциативных правил в результатах опросов

7 мин

7.1K

Открытые данные * Математика * R * Data Mining *

В предыдущей части статьи был рассмотрен метод поиска ассоциативных правил в данных европейского социального исследования. Эта часть о статистическом анализе полученных правил. Ключевой момент в том, что классические статистические методы, например, критерий согласия хи-квадрат, не имеют основания быть использованными для результатов опроса. Но по каким причинам? И как проверять гипотезы? Об этом пойдет речь в этой публикации.

Читать дальше →

+8

caveeagle 13 июл 2015 в 11:00

Чёрная археология датамайнинга: насколько опасны «сливы» больших данных

3 мин

20K

Информационная безопасность * R * Data Mining * Big Data *

В 2014 году в сеть утекла большая, на 6 млн. записей, база паролей различных почтовых сервисов. Давайте посмотрим, насколько эти пароли актуальны сейчас, в 2015 году.

Читать дальше →

+13

jzha 9 июл 2015 в 21:26

Поиск ассоциативных правил в результатах опросов

4 мин

11K

Data Mining * R * Открытые данные *

Поиск ассоциативных правил хорошо известный метод анализа данных. На Хабре уже была публикация с историей вопроса об этом методе и общими определениями. В этой статье пойдет речь об адаптации алгоритма поиска ассоциативных правил в данных полученных опросами респондентов. Результаты работы алгоритма продемонстрированы на данных европейского социального исследования (ESS).

Foto: Owen Humphreys/AP

Читать дальше →

+11

qc-enior 7 июл 2015 в 08:25

Анализ тональности высказываний в Twitter: реализация с примером на R

10 мин

19K

Блог компании Инфопульс УкраинаВизуализация данных * X API * R * Data Mining *

Туториал

Перевод

Социальные сети (Twitter, Facebook, LinkedIn) — пожалуй, самая популярная бесплатная доступная широкой общественности площадка для высказывания мыслей по разным поводам. Миллионы твитов (постов) ежедневно — там кроется огромное количество информации. В частности, Twitter широко используется компаниями и обычными людьми для описания состояния дел, продвижения продуктов или услуг. Twitter также является прекрасным источником данных для проведения интеллектуального анализа текстов: начиная с логики поведения, событий, тональности высказываний и заканчивая предсказанием трендов на рынке ценных бумаг. Там кроется огромный массив информации для интеллектуального и контекстуального анализа текстов.

В этой статье я покажу, как проводить простой анализ тональности высказываний. Мы загрузим twitter-сообщения по определенной теме и сравним их с базой данных позитивных и негативных слов. Отношение найденных позитивных и негативных слов называют отношением тональности. Мы также создадим функции для нахождения наиболее часто встречающихся слов. Эти слова могут дать полезную контекстуальную информацию об общественном мнении и тональности высказываний. Массив данных для позитивных и негативных слов, выражающих мнение (тональных слов) взят из Хью и Лью, KDD-2004.

Реализация на R с применением twitteR, dplyr, stringr, ggplot2, tm, SnowballC, qdap и wordcloud. Перед применением нужно установить и загрузить эти пакеты, используя команды install.packages() и library().

Читать дальше →

+15

caveeagle 28 июн 2015 в 19:02

Черная археология датамайнинга: что может быть эффективнее атаки по словарю?

5 мин

16K

Big Data * Data Mining * R * Информационная безопасность *

Для тех, кому лениво читать дальше, сразу скажу ответ: атака «логин равен паролю». По статистике, логин равный паролю встречается чаще, чем самый распространенный пароль из словаря. Далее в статье будут некоторые статистические исследования на эту тему, и история, с которой всё началось.

Читать дальше →

+13

Anatoliy_Karpov 23 июн 2015 в 13:32

Визуализация результатов в R: первые шаги

5 мин

31K

Блог компании Stepik.orgВизуализация данных * R * Data Mining *

В одном из предыдущих постов мы уже писали о центральном понятии в статистике — p-уровне значимости. И пока в научной среде не утихают споры об интерпретации p-value, значительная часть исследований проводится именно с использованием p-value для определения значимости полученных в исследовании различий. Сегодня же мы поговорим о самом творческом этапе обработки данных — как же значимые различия визуализировать.

Читать дальше →

+16

m31 3 июн 2015 в 09:44

AI, BigData & HPC Digest #1 (7 мая — 3 июня)

3 мин

9.1K

Блог компании FlyElephantBig Data * R * Высоконагруженные системы * Машинное обучение *

Команда FlyElephant подготовила свежий выпуск дайджеста, который включает в себя подборку со ссылками на новости и материалы по направлениям: искусственный интеллект, большие данные и высокопроизводительные вычисления. Приятного чтения!

Читать дальше →

+13

khmelkoff 29 мая 2015 в 07:04

Глубокое обучение на R, тренируем word2vec

10 мин

24K

Data Mining * R * Машинное обучение *

Word2vec является практически единственным алгоритмом deep learning, который сравнительно легко можно запустить на обычном ПК (а не на видеокартах) и который строит распределенное представление слов за приемлемое время, по крайней мере так считают на Kaggle. Прочитав здесь про то, какие фокусы можно делать с тренированной моделью, я понял, что такую штуку просто обязан попробовать. Проблема только одна, я преимущественно работаю на языке R, а вот официальную реализацию word2vec под R мне найти не удалось, думаю её просто нет.

Читать дальше →

+13

khmelkoff 7 мая 2015 в 10:16

Распознавание физической активности пользователей с примерами на R

8 мин

9.1K

R * Машинное обучение *

Туториал

Задача распознавания физической активности пользователей (Human activity Recognition или HAR) попадалась мне раньше только в качестве учебных заданий. Открыв для себя возможности Caret R Package, удобной обертки для более 100 алгоритмов машинного обучения, я решил попробовать его и для HAR. В UCI Machine Learning Repository есть несколько наборов данных для таких экспериментов. Так как тема с гантелями для меня не очень близка, я выбрал распознавание активности пользователей смартфонов.

Читать дальше →

+12

m31 7 мая 2015 в 08:42

AI, BigData & HPC дайджест #0. Пилотный выпуск

2 мин

10K

Блог компании FlyElephantВысоконагруженные системы * R * Data Mining * Big Data *

Привет, Хабр!
Меня зовут Дмитрий Сподарец. Я основатель проекта FlyElephant, который предоставляет научным сотрудникам и инженерам среду для выполнения вычислительных программ. В нашей команде мы активно следим за тремя направлениями: искусственный интеллект, большие данные и высокопроизводительные вычисления. Нам постоянно попадаются интересные материалы, с которыми мы будем знакомить вас в рамках этого дайджеста.

Читать дальше →

+14

atikhonov 27 апр 2015 в 05:48

Просмотр конфигурации массивов Storwize с R – Shiny Dashboard

4 мин

5.4K

Дисковые массивы Storwize компании IBM хорошо известны на рынке, а вот с удобным средством просмотра их конфигурации (тем более, не имея доступа к самому массиву), за исключением программного продукта Total Productivity Center от IBM, уже ничего и нет (perl скрипты svcmon более не поддерживаются). А у сотрудников и, или партнеров, анализирующих конфигурации данных массивов, часто возникает такая потребность. Поэтому, я предлагаю свое решение по просмотру xml файлов конфигурации данных массивов.

В этой статье я опишу, как можно прочитать xml информацию, представить её в виде таблиц, сводную информация на дэшбордах, и все это в виде web-приложения. Как следует из названия статьи – реализовано это на R, с пакетом (фреймворком) для web-приложений к R – Shiny dashboard.

Читать дальше →

+5

Dreamastiy 7 апр 2015 в 12:47

R в качестве инструмента мониторинга цен

6 мин

18K

R * Открытые данные * Программирование *

Из песочницы

В данной статье хотел бы коснуться такой темы как мониторинг конкурентов. Понимаю, что у данной темы есть как много сторонников, ведь так или иначе мониторинг необходим для успешного развития почти любой компании, так и противники, которые защищают интересы своего бизнеса от мониторщиков.

Те, кто как то связан с продажами на конкурентном рынке, наверняка знают, что мониторинг конкурентов является важной задачей. Результаты используются для совершенно различных целей — от изменения локальных политик ценообразования и ведения ассортимента до составления стратегических планов развития компании. Автор решил попрактиковаться в решении данной задачи и промониторить одного из крупных ритейлеров электроники в России, чьим регулярным клиентом автор является. Что из этого вышло —

далее под катом

+8

khmelkoff 7 апр 2015 в 09:12

Мешок слов и сентимент-анализ на R

5 мин

24K

Машинное обучение * R * Data Mining *

Из песочницы

Эта статья подготовлена по мотивам (первой части) учебного задания Bag of Words Kaggle, но это не перевод. Оригинальное задание сделано на Python. Я же хотел оценить возможности языка R для обработки текстов на естественном языке и заодно попробовать реализацию Random Forest в обертке R-пакета caret.

Смысл задания – построить «машину», которая будет определенным образом обрабатывать обзоры фильмов на английском языке и определять тональность обзора, относя его к одному из двух классов: негативные/позитивные. В качестве обучающей выборки в задании используется набор данных с двадцатью пятью тысячами ревю из IMDB, размеченных неизвестными добровольцами.

Читать дальше →

+10

atikhonov 18 мар 2015 в 12:36

Визуализация статистики производительности оборудования с R – Shiny

10 мин

20K

Data Mining * R *

Из песочницы

«Безграмотными в 21 веке будут не те,
кто не умеет читать и писать,
а те, кто не умеет учиться,
разучиваться и переучиваться»
Элвин Тоффлер

У ИТ-специалистов могут возникать задачи, связанные с анализом производительности оборудования или анализом результатов различных генераторов нагрузки (ioMeter, Vdbench и прочее). В большинстве случаев для этих целей используется Excel с построением временных рядов, с нахождением основных описательных статистик и попытками это все как-то проанализировать. Существует альтернативное средство более быстрого и удобного анализа описательных статистик с разнообразными диаграммами и возможностью создания web-приложения для общего доступа. Касаться настоящей статистики с различными методами анализа данных не буду, только базовая описательная статистика (без проверки тестов и даже p-значения не будет) и разные диаграммы.

В этой статье я опишу один из вариантов того, как можно проанализировать такую информацию, представлять её в виде диаграмм (трафик!), и все это в виде web-приложения. Как следует из названия статьи – реализовано это на R, с пакетом (фреймворком) для web-приложений к R – Shiny.

Читать дальше →

+13

Anatoliy_Karpov 13 фев 2015 в 11:01

Основы статистики: просто о сложных формулах

6 мин

328K

Блог компании Stepik.orgData Mining * R *

Из песочницы

Статистика вокруг нас

Статистика и анализ данных пронизывают практически любую современную область знаний. Все сложнее становится провести границу между современной биологией, математикой и информатикой. Экономические исследования и регрессионный анализ уже практически неотделимы друг от друга. Один из известных методов проверки распределения на нормальность — критерий Колмогорова-Смирнова. А вы знали, что именно Колмогоров внес огромный вклад в развитие математической лингвистики?

Еще будучи студентом психологического факультета СПбГУ, я заинтересовался когнитивной психологией. Кстати, Иммануил Кант не считал психологию наукой, так как не видел возможности применять в ней математические методы. Мои текущие исследования посвящены моделированию психических процессов, и я надеюсь, что такие направления в современной когнитивной психологии, как вычислительные и коннективисткие модели, смягчили бы его отношение!

Читать дальше →

+44

ph_piter 3 фев 2015 в 14:30

Язык программирования R

1 мин

23K

Блог компании Издательский дом «Питер»Программирование * R * Веб-разработка *

Здравствуйте!

Предлагаем уважаемому сообществу высказаться по поводу необходимости перевода книги по языку R.
Язык весьма популярен за рубежом, а вот на русском на нём информации практически нет. Нужно ли исправлять это положение? Есть несколько кандидатов:

Наиболее свежая (дек. 2013) и отличающаяся глубиной проработки эта книга:

R for Everyone: Advanced Analytics and Graphics

Есть ещё две книги О'Рейли в формате cookbook:

R Graphics Cookbook (2013)

R Cookbook (2011)

Голосовалка:

Читать дальше →

+16

1 2 ...

21