Все потоки
Поиск
Написать публикацию
Обновить
16.73

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Дайджест статей по анализу данных №2 (26.05.2014 — 8.06.2014)

Время на прочтение5 мин
Количество просмотров20K
Добрый день, уважаемые читатели.
Представляю вашему вниманию дайджест новостей и полезных материалов из мира анализа данных. Предыдущий дайджест пользовался большой популярностью и поэтому я решил сделать их регулярными. Периодичность таких подборок будет 1 раз в 2 недели.

В сегодняшней подборке вы узнаете что общего у статистики и науке об анализе данных, как можно выявить ложную корреляцию, а также какие алгоритмы правят современным миром. Помимо этого вы получите небольшие шпаргалки по методам машинного обучения и NoSQL базам данных, ну и еще много чего интересного.

Читать дальше →

250 миллионов международных событий в одном месте

Время на прочтение1 мин
Количество просмотров12K

Исследователь Кавел Литару, из Джордтаунского университета, собрал каталог из 250 миллионов событий произошедших в мире с 1979, который ежедневно обновляется и доступен каждому желающему кто хочет его изучить.

Каждая запись набора имеет 58 атрибутов. А сам набор делится на 300 различных категорий. На настоящий момент каталог имеет объем 100 Гб, а хостером является Goolge.
Читать дальше →

Twitter передал шести университетам всю базу твитов с 2006 года

Время на прочтение2 мин
Количество просмотров23K


Каждый день в Twitter публикуется 500 млн сообщений. Такой массив информации с персональными данными — настоящая золотая жила для дата-майнинга. На базе твитов учёные изучают паттерны в человеческом поведении, социальные связи, распространение инфекционных болезней, факторы риска для организма человека и многое другое, пишет июньский выпуск журнала Scientific American.
Читать дальше →

Анализ логов Mt.Gox выявил подозрительную активность бота Вилли

Время на прочтение20 мин
Количество просмотров19K
Обманутые пользователи биржи Mt.Gox давно подозревали, что пропажа $460 млн с биржи — не последствие программного бага, как заявляет руководство, а результат спланированной и замаскированной операции этого самого руководства в лице исполнительного директора компании Марка Керпелеса — программиста весьма сомнительной репутации.

Анализ логов торговых сделок на бирже Mt.Gox позволяет сделать вывод, что дело здесь действительно нечисто. Наибольшее подозрение вызывает деятельность некоего бота, который с разных аккаунтов более полугода методично скупал биткоины на бирже (каждые 5-10 минут, меняя сумму покупки случайным образом в пределах 10-20 BTC). Аккаунты для бота менялись каждые несколько дней, при этом их номера были в верхнем диапазоне User_ID, не доступном для свободной регистрации. Самое главное, что с аккаунтов бота не было списано ни доллара (графа «потраченные USD» содержит символы “??”). Бот работал даже тогда, когда биржа находилась в даунтайме. За три последних месяца, за которые сохранились логи, он успел скупить 270 000 BTC на $112 млн.

Бот активизировался в июле 2013 года. Неслучайно, что именно с этого момента начался бурный рост курса криптовалюты.
Читать дальше →

Дайджест статей по анализу данных и big data

Время на прочтение2 мин
Количество просмотров33K
Частенько читаю Хабр и заметил что в последнее время появились Дайджесты новостей по многим тематикам, таким как веб-разработка на php, разработка на Python, мобильные приложения, но не встретил ни одного подборки по популярному сейчас направлению, а именно анализу данных и big data.

Ниже я решил собрать небольшую подборку материалов по данной теме. Т.к. на русском материалов не так много, в данный дайджест попали в основном англоязычные статьи.

Кого заинтересовала данная тема прошу подкат. А также жду замечаний, пожеланий и дополнений, буду очень рад обратной связи.

Читать дальше →

Hive vs Pig. На что мне столько ETL?

Время на прочтение8 мин
Количество просмотров20K
image

Лучше день потерять, но потом за пять минут долететь (с)



Привет коллеги.
Хочу поделиться с вами соображениями о том, чем отличаются фреймворки Hive и Pig, входящие в экосистему Hadoop. По сути, это два очень похожих продукта, цель у которых одна — взять на себя всю техническую реализацию MapReduce, предоставив взамен возможность описывать процесс обработки данных на более абстрактном уровне. В этой статье мы увидим как выглядят выборки в этих двух системах, и попытаемся понять, в каких случаях надо использовать то или иное решение.
Читать дальше →

Обработка естественного языка в задаче мониторинга предвыборной агитации

Время на прочтение13 мин
Количество просмотров9.1K
В данной статье мы рассмотрим процесс разработки методики контроля предвыборной агитации в Ростовском региональном сегменте Интернет-СМИ с использованием обработки естественного языка и машинного обучения.
Также я остановлюсь на особенностях и нюансах, ведь задача стояла довольно специализированная: необходимо было выделять агитацию, и, если она может нарушать закон — оперативно уведомлять Избирком. Забегая вперед скажу, что с задачей я успешно справился.

В задаче разработки методики контроля предвыборной агитации в Ростовском региональном сегменте Интернет-СМИ применяются наработки из нескольких смежных областей знаний:
  • автоматизированная обработка текстов (текстмайнинг),
  • обработка естественного языка,
  • машинное обучение.

Читать дальше →

R + C + CUDA =…

Время на прочтение4 мин
Количество просмотров13K
Иногда возникает необходимость ускорить вычисления, причем желательно сразу в разы. При этом приходится отказываться от удобных, но медленных инструментов и прибегать к чему-то более низкоуровневому и быстрому. R имеет довольно развитые возможности для работы с динамическими бибиотеками, написанными на С/С++, Fortran или даже Java. Я по привычке предпочитаю С/С++.
Читать дальше →

Организация OLAP куба средствами Python

Время на прочтение4 мин
Количество просмотров26K
Добрый день, уважаемые читатели.
Сегодня я расскажу вам о том, как можно построить простенькую систему анализа данных на Python. В этом мне помогут framework cubes и пакет cubesviewer.
Сubes представляет собой framework'ом для работы с многомерными данными с помощью Python. Кроме того он включает в себя OLAP HTTP-сервер для упрощенной разработки приложений отчетности и общего просмотра данных.
Сubesviewer представляет собой web-интерфейс для работы с вышеуказанным сервером.

Читать дальше →

Автоматическое определение рубрики текста

Время на прочтение5 мин
Количество просмотров24K

Введение


В предыдущих статьях, посвященных организации данных в виде рубрикатора (Использование графа, как основы для создания рубрикатора и Проблемы, подстерегающие любого создателя рубрикаторов) были описаны общие идеи по организации рубрикатора. В этой статье я опишу один из возможных алгоритмов автоматического определения тематики текста на основе заранее подготовленного графа-рубрикатора. При этом я сознательно избегаю сложных формул, чтобы донести идею, лежащую в основе алгоритма, максимально просто.

Подготовка данных рубрикатора


Для начала определимся с тем, в каком виде мы будем готовить данные для рубрикатора.
  • 1. Рубрикатор – это граф, а не дерево
  • 2. Текст, тематика которого определяется, может быть отнесен к нескольким рубрикам одновременно
  • 3. Для каждого соотнесения с рубрикой указывается коэффициент точности определения рубрики
  • 4. Тематика текста определяется для каждого текста отдельно, и не зависит от того как были определены рубрики других текстов ранее

Последний пункт нуждается в небольшом пояснении. Независимость определения тематики текста очень хороша, когда не требуется последующая сортировка результатов. Когда тексты просто отнесены к рубрики или нет. Но при наличии в рубрике нескольких текстов, наверняка возникнет необходимость отсортировать их по критерию наилучшего попадания в рубрику. В данной статье этот вопрос опущен для ясности.

Алгоритм определения тематики текста, кратко


Описываем рубрикатор. Извлекаем из исследуемого текста ключевые слова, описанные в рубрикаторе. В результате извлечения получаем кусочки разорванного и чаще всего несвязного графа. Используем волновой (или любой другой, по желанию) алгоритм для «дотягивания» извлеченных кусочков графа до вершины «всё». Анализируем и выводим результаты.
Читать дальше →

Чтобы скрыть беременность от маркетинговых компаний, женщина использовала Tor

Время на прочтение3 мин
Количество просмотров118K
Два года назад многих удивила новость о том, что американская торговая сеть Target узнала о беременности девушки раньше, чем её отец. «Она ещё в школу ходит, а вы посылаете ей купоны на детскую одежду и памперсы?», — кричал тогда рассерженный отец. Ничего удивительного: простой дата-майнинг истории покупок с привязкой к дисконтной или банковской карте.

Оказывается, многие маркетинговые компании сейчас активно пытаются найти именно беременных женщин, потому что те находятся в преддверии большого количества предсказуемых покупок. Поэтому ритейлеры и производители детских товаров много платят за такую информацию. В эпоху таргетированной рекламы один только факт беременности примерно в 200 раз повышает стоимость профиля потребителя.
Читать дальше →

Классификация с использованием муравьиного алгоритма

Время на прочтение4 мин
Количество просмотров22K
На хабре уже был рассмотрен муравьиный алгоритм, позволяющий используя простые правила решить задачу поиска оптимального маршрута. В данной статье рассмотрено применение этого алгоритма к задаче классификации.
Читать дальше →

Кирилл Сафонов: «Это как участвовать в гонках через океан на небольших яхтах»

Время на прочтение10 мин
Количество просмотров4.7K
Представляем первый выпуск подкаста о технологиях, процессах, инфраструктуре и людях в IT-компаниях (нулевой выпуск можно послушать и почитать здесь). Сегодня в гостях у “CTOcast” — Кирилл Сафонов, технический директор компании RuTarget.
Читать дальше →

Ближайшие события

Часть первая, а вторую часть всё равно никто не читает

Время на прочтение5 мин
Количество просмотров33K

О чем собственно речь


Как-то раз одним поздним декабрьским вечером завершился сбор материала для хабра-статьи, посвященной SAT. Материала оказалось слишком много и передо мной встал выбор: разделить статью на две части или собрать весь материал вместе в одной статье. Выбор был сделан в пользу разделения на части (первая и вторая). К моему удивлению, вторая часть получила значительно меньше внимания, чем первая — фактически её прочитали в два раза меньше человек.

Время шло, и я стал замечать, что это происходило не только с моими статьями, но и со многими другими статьями в нескольких частях. Тогда у меня возник вопрос, а верно ли в общем, что вторая часть получает меньше внимания (просмотров, плюсов, и записей избранного)?

(сделано на основе хабра-статьи Как лгать с помощью статистики)

Структура статьи
  1. О чем собственно речь
  2. Данные
  3. Сравниваем части
  4. Серии статей
  5. Заключение
  6. Дальнейшее чтение

Читать дальше →

CTOcast #1: Кирилл Сафонов (RuTarget)

Время на прочтение8 мин
Количество просмотров5.6K
Представляем первый выпуск подкаста о технологиях, процессах, инфраструктуре и людях в IT-компаниях (нулевой выпуск можно послушать и почитать здесь). Сегодня в гостях у “CTOcast” — Кирилл Сафонов, технический директор компании RuTarget.
Читать дальше →

2ndb — тетрадка для записей, которая изучает, а затем улучшает того, кто в ней пишет

Время на прочтение18 мин
Количество просмотров15K
У вас есть такие друзья, которые всё время что-то записывают в тетрадку или в файлик в Google Docs? Вы спрашивали у них о том, зачем они это делают, и что именно они туда пишут? Если нет, то отвечу за них (не за всех, но за многих):

Это употребляемая еда (в том числе её энергетическая ценность), расходы, время, затрачиваемое на сериалы (игры, работу, спорт), их планы на будущее, их ощущения от того, что они потребляют (например, оценка шоколадок) и прочие метрики и сведения об их жизни.

Но задумайтесь: если информации настолько много, и она настолько подробна, то ведь наверняка из этих данных можно что-то получить? Используя их, можно вычислить что-то ещё. Найти тенденции, закономерности. И тогда это уже будет не просто тетрадка, а действительно ценный и незаменимый инструмент, который не только позволяет хранить информацию, но и может давать советы. Он мог бы рекомендовать человеку скорректировать что-то в своей жизни таким образом, который, согласно результатам статистического вычисления, с наибольшей вероятностью даст желаемый результат.

Именно такую систему я бы и хотел описать более подробно: программный продукт, способный собирать информацию (на начальных этапах это в основном те данные, которые пользователь предоставляет самостоятельно, регулярно занося их в систему) и, анализируя её, находить в ней различные тенденции, связывать разнообразные аспекты человеческой жизни по каким-либо общим параметрам (например, обнаруживая хронологическую связь) и информировать пользователя в том случае, если у системы есть для него какие-либо рекомендации, советы или предостережения.
Читать дальше →

Прогноз количества лайков у поста. SNA Hackathon 2014

Время на прочтение3 мин
Количество просмотров3.7K
Что хорошего можно извлечь из социальных сетей? Можно найти себе футбольную команду, басиста в группу, братьев по разуму, жену, сдать/снять квартиру/комнату/виллу на берегу океана. А если подключить анализ данных? Можно найти свое место в обществе. Например, если я слушаю XXX, читаю YYY и пью ZZZ, то нас таких всего 100 на этом шаре. А если я еще буду красить ногти в зеленый, то точно буду единственным и неповторимым?

Можно понять, что нравится людям, что им можно продать, можно делать прогнозы и в сотый раз проверять теорию шести рукопожатий. В области Social Network Analysis существует множество задач, одну из которых мы предлагаем решить на онлайн этапе SNA Hackathon 2014.

Читать дальше →

Как ваши твиты раскрывают ваше местоположение

Время на прочтение4 мин
Количество просмотров28K

Исследователи из IBM разработали алгоритм, позволяющий определять место жительства пользователя с точностью до 70% путём анализа 200 его последних твитов.



USA tweets
Читать дальше →

В LA Times новость о землетрясении написал робот

Время на прочтение2 мин
Количество просмотров31K


Всего через три минуты после землетрясения в Калифорнии 17 марта газета LA Times опубликовала заметку на эту тему. Сообщение выглядит вполне обычным: указано точное время, сила землетрясения и его радиус. Единственный признак чего-то необычного — приписка в конце: «Пост создан алгоритмом, написанным автором». Другими словами, статью написал робот.
Читать дальше →

Предполагаемый размер базы транзакций Bitcoin

Время на прочтение1 мин
Количество просмотров30K


Мне стало интересно какого размера станет база транзакций Bitcoin на реальных объемах. Т.е. представим, что Bitcoin стал официальной валютой России.
Для примера я взяла такую статистику центрального банка России.
В целом, точные цифры неинтересны, нам важны порядки значений.
Допустим, 2013 год — 5 млрд. операций. Одну bitcoin-транзакцию сделаем минимальной — равной 1кБайт.

Итак, 5 000 000 000 * 1000 = рост базы 5ТБайт/год для одной страны.

Интересно, успеет ли закон Мура по персональным накопителям данных за развитием Bitcoin? Готов ли Bitcoin в роли децентрализованного инструмента к таким объемам? Не приведет ли слишком дорогостоящая поддержка майнинга к централизации майнеров и ослаблению системы?

Хотелось бы услышать мнение хабравчан по этому поводу.