Все потоки

Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

moat 18 июн 2014 в 11:19

Обзор наиболее интересных материалов по анализу данных и машинному обучению №1 (9 — 16 июня 2014)

3 мин

17K

Data Mining * Big Data *

Из песочницы

Данный выпуск дайджеста наиболее интересных материалов, посвященных теме анализа данных содержит достаточно много статей, которые рассматривают теоретические аспекты вопросов, связанных с Data Science. Есть несколько статей, которые будут интересны новичкам. Также представлены ссылки на серию интересных статей о работе со схемами данных в MongoDb. Есть несколько ссылок на материалы, в которых рассматривается важная проблема переобучения (overfitting) в процессе машинного обучения. Некоторые статьи посвящены литературе, рекомендуемой к прочтению для тех кому интересна тема анализа данных.

Читать дальше →

+19

kuznetsovin 8 июн 2014 в 14:44

Дайджест статей по анализу данных №2 (26.05.2014 — 8.06.2014)

5 мин

20K

Data Mining * Big Data *

Добрый день, уважаемые читатели.
Представляю вашему вниманию дайджест новостей и полезных материалов из мира анализа данных. Предыдущий дайджест пользовался большой популярностью и поэтому я решил сделать их регулярными. Периодичность таких подборок будет 1 раз в 2 недели.

В сегодняшней подборке вы узнаете что общего у статистики и науке об анализе данных, как можно выявить ложную корреляцию, а также какие алгоритмы правят современным миром. Помимо этого вы получите небольшие шпаргалки по методам машинного обучения и NoSQL базам данных, ну и еще много чего интересного.

Читать дальше →

+37

kuznetsovin 30 мая 2014 в 07:10

250 миллионов международных событий в одном месте

1 мин

12K

Data Mining * Big Data *

Исследователь Кавел Литару, из Джордтаунского университета, собрал каталог из 250 миллионов событий произошедших в мире с 1979, который ежедневно обновляется и доступен каждому желающему кто хочет его изучить.

Каждая запись набора имеет 58 атрибутов. А сам набор делится на 300 различных категорий. На настоящий момент каталог имеет объем 100 Гб, а хостером является Goolge.

Читать дальше →

+23

alizar 27 мая 2014 в 11:09

Twitter передал шести университетам всю базу твитов с 2006 года

2 мин

23K

Информационная безопасность * Data Mining * X API *

Каждый день в Twitter публикуется 500 млн сообщений. Такой массив информации с персональными данными — настоящая золотая жила для дата-майнинга. На базе твитов учёные изучают паттерны в человеческом поведении, социальные связи, распространение инфекционных болезней, факторы риска для организма человека и многое другое, пишет июньский выпуск журнала Scientific American.

Читать дальше →

+29

alizar 26 мая 2014 в 09:30

Анализ логов Mt.Gox выявил подозрительную активность бота Вилли

20 мин

19K

Обманутые пользователи биржи Mt.Gox давно подозревали, что пропажа $460 млн с биржи — не последствие программного бага, как заявляет руководство, а результат спланированной и замаскированной операции этого самого руководства в лице исполнительного директора компании Марка Керпелеса — программиста весьма сомнительной репутации.

Анализ логов торговых сделок на бирже Mt.Gox позволяет сделать вывод, что дело здесь действительно нечисто. Наибольшее подозрение вызывает деятельность некоего бота, который с разных аккаунтов более полугода методично скупал биткоины на бирже (каждые 5-10 минут, меняя сумму покупки случайным образом в пределах 10-20 BTC). Аккаунты для бота менялись каждые несколько дней, при этом их номера были в верхнем диапазоне User_ID, не доступном для свободной регистрации. Самое главное, что с аккаунтов бота не было списано ни доллара (графа «потраченные USD» содержит символы “??”). Бот работал даже тогда, когда биржа находилась в даунтайме. За три последних месяца, за которые сохранились логи, он успел скупить 270 000 BTC на $112 млн.

Бот активизировался в июле 2013 года. Неслучайно, что именно с этого момента начался бурный рост курса криптовалюты.

Читать дальше →

+28

kuznetsovin 23 мая 2014 в 09:34

Дайджест статей по анализу данных и big data

2 мин

33K

Data Mining * Big Data *

Частенько читаю Хабр и заметил что в последнее время появились Дайджесты новостей по многим тематикам, таким как веб-разработка на php, разработка на Python, мобильные приложения, но не встретил ни одного подборки по популярному сейчас направлению, а именно анализу данных и big data.

Ниже я решил собрать небольшую подборку материалов по данной теме. Т.к. на русском материалов не так много, в данный дайджест попали в основном англоязычные статьи.

Кого заинтересовала данная тема прошу подкат. А также жду замечаний, пожеланий и дополнений, буду очень рад обратной связи.

Читать дальше →

+39

2ANikulin 23 мая 2014 в 02:43

Hive vs Pig. На что мне столько ETL?

8 мин

20K

Big Data * Data Mining * Hadoop *

Туториал

Лучше день потерять, но потом за пять минут долететь (с)

Привет коллеги.
Хочу поделиться с вами соображениями о том, чем отличаются фреймворки Hive и Pig, входящие в экосистему Hadoop. По сути, это два очень похожих продукта, цель у которых одна — взять на себя всю техническую реализацию MapReduce, предоставив взамен возможность описывать процесс обработки данных на более абстрактном уровне. В этой статье мы увидим как выглядят выборки в этих двух системах, и попытаемся понять, в каких случаях надо использовать то или иное решение.

Читать дальше →

+18

mechkladenets 19 мая 2014 в 14:29

Обработка естественного языка в задаче мониторинга предвыборной агитации

13 мин

9.1K

Data Mining * Алгоритмы *

Из песочницы

В данной статье мы рассмотрим процесс разработки методики контроля предвыборной агитации в Ростовском региональном сегменте Интернет-СМИ с использованием обработки естественного языка и машинного обучения.
Также я остановлюсь на особенностях и нюансах, ведь задача стояла довольно специализированная: необходимо было выделять агитацию, и, если она может нарушать закон — оперативно уведомлять Избирком. Забегая вперед скажу, что с задачей я успешно справился.

В задаче разработки методики контроля предвыборной агитации в Ростовском региональном сегменте Интернет-СМИ применяются наработки из нескольких смежных областей знаний:

автоматизированная обработка текстов (текстмайнинг),
обработка естественного языка,
машинное обучение.

Читать дальше →

+1

kxx 16 мая 2014 в 01:09

R + C + CUDA =…

4 мин

13K

C * Data Mining * R * Алгоритмы * Программирование *

Иногда возникает необходимость ускорить вычисления, причем желательно сразу в разы. При этом приходится отказываться от удобных, но медленных инструментов и прибегать к чему-то более низкоуровневому и быстрому. R имеет довольно развитые возможности для работы с динамическими бибиотеками, написанными на С/С++, Fortran или даже Java. Я по привычке предпочитаю С/С++.

Читать дальше →

+30

kuznetsovin 12 мая 2014 в 04:41

Организация OLAP куба средствами Python

4 мин

26K

Python * Data Mining *

Добрый день, уважаемые читатели.
Сегодня я расскажу вам о том, как можно построить простенькую систему анализа данных на Python. В этом мне помогут framework cubes и пакет cubesviewer.
Сubes представляет собой framework'ом для работы с многомерными данными с помощью Python. Кроме того он включает в себя OLAP HTTP-сервер для упрощенной разработки приложений отчетности и общего просмотра данных.
Сubesviewer представляет собой web-интерфейс для работы с вышеуказанным сервером.

Читать дальше →

+12

DimonSmart 5 мая 2014 в 10:45

Автоматическое определение рубрики текста

5 мин

24K

Data Mining * Поисковые технологии *

Введение

В предыдущих статьях, посвященных организации данных в виде рубрикатора (Использование графа, как основы для создания рубрикатора и Проблемы, подстерегающие любого создателя рубрикаторов) были описаны общие идеи по организации рубрикатора. В этой статье я опишу один из возможных алгоритмов автоматического определения тематики текста на основе заранее подготовленного графа-рубрикатора. При этом я сознательно избегаю сложных формул, чтобы донести идею, лежащую в основе алгоритма, максимально просто.

Подготовка данных рубрикатора

Для начала определимся с тем, в каком виде мы будем готовить данные для рубрикатора.

1. Рубрикатор – это граф, а не дерево
2. Текст, тематика которого определяется, может быть отнесен к нескольким рубрикам одновременно
3. Для каждого соотнесения с рубрикой указывается коэффициент точности определения рубрики
4. Тематика текста определяется для каждого текста отдельно, и не зависит от того как были определены рубрики других текстов ранее

Последний пункт нуждается в небольшом пояснении. Независимость определения тематики текста очень хороша, когда не требуется последующая сортировка результатов. Когда тексты просто отнесены к рубрики или нет. Но при наличии в рубрике нескольких текстов, наверняка возникнет необходимость отсортировать их по критерию наилучшего попадания в рубрику. В данной статье этот вопрос опущен для ясности.

Алгоритм определения тематики текста, кратко

Описываем рубрикатор. Извлекаем из исследуемого текста ключевые слова, описанные в рубрикаторе. В результате извлечения получаем кусочки разорванного и чаще всего несвязного графа. Используем волновой (или любой другой, по желанию) алгоритм для «дотягивания» извлеченных кусочков графа до вершины «всё». Анализируем и выводим результаты.

Читать дальше →

+28

alizar 2 мая 2014 в 10:01

Чтобы скрыть беременность от маркетинговых компаний, женщина использовала Tor

3 мин

118K

Информационная безопасность * Data Mining *

Два года назад многих удивила новость о том, что американская торговая сеть Target узнала о беременности девушки раньше, чем её отец. «Она ещё в школу ходит, а вы посылаете ей купоны на детскую одежду и памперсы?», — кричал тогда рассерженный отец. Ничего удивительного: простой дата-майнинг истории покупок с привязкой к дисконтной или банковской карте.

Оказывается, многие маркетинговые компании сейчас активно пытаются найти именно беременных женщин, потому что те находятся в преддверии большого количества предсказуемых покупок. Поэтому ритейлеры и производители детских товаров много платят за такую информацию. В эпоху таргетированной рекламы один только факт беременности примерно в 200 раз повышает стоимость профиля потребителя.

Читать дальше →

+119

mediocre 29 апр 2014 в 18:20

Классификация с использованием муравьиного алгоритма

4 мин

22K

Из песочницы

На хабре уже был рассмотрен муравьиный алгоритм, позволяющий используя простые правила решить задачу поиска оптимального маршрута. В данной статье рассмотрено применение этого алгоритма к задаче классификации.

Читать дальше →

+49

ViktoryiaFedzkovich 21 апр 2014 в 04:45

Кирилл Сафонов: «Это как участвовать в гонках через океан на небольших яхтах»

10 мин

4.7K

Блог компании CaspowaData Mining *

Представляем первый выпуск подкаста о технологиях, процессах, инфраструктуре и людях в IT-компаниях (нулевой выпуск можно послушать и почитать здесь). Сегодня в гостях у “CTOcast” — Кирилл Сафонов, технический директор компании RuTarget.

Читать дальше →

+4

varagian 18 апр 2014 в 05:00

Часть первая, а вторую часть всё равно никто не читает

5 мин

33K

Блог компании DM LabsData Mining *

О чем собственно речь

Как-то раз одним поздним декабрьским вечером завершился сбор материала для хабра-статьи, посвященной SAT. Материала оказалось слишком много и передо мной встал выбор: разделить статью на две части или собрать весь материал вместе в одной статье. Выбор был сделан в пользу разделения на части (первая и вторая). К моему удивлению, вторая часть получила значительно меньше внимания, чем первая — фактически её прочитали в два раза меньше человек.

Время шло, и я стал замечать, что это происходило не только с моими статьями, но и со многими другими статьями в нескольких частях. Тогда у меня возник вопрос, а верно ли в общем, что вторая часть получает меньше внимания (просмотров, плюсов, и записей избранного)?

(сделано на основе хабра-статьи Как лгать с помощью статистики)

Структура статьи

Читать дальше →

+54

ViktoryiaFedzkovich 16 апр 2014 в 05:13

CTOcast #1: Кирилл Сафонов (RuTarget)

8 мин

5.6K

Блог компании CaspowaData Mining *

Представляем первый выпуск подкаста о технологиях, процессах, инфраструктуре и людях в IT-компаниях (нулевой выпуск можно послушать и почитать здесь). Сегодня в гостях у “CTOcast” — Кирилл Сафонов, технический директор компании RuTarget.

Читать дальше →

+5

aruseni 5 апр 2014 в 01:19

2ndb — тетрадка для записей, которая изучает, а затем улучшает того, кто в ней пишет

18 мин

15K

Data Mining * Математика *

У вас есть такие друзья, которые всё время что-то записывают в тетрадку или в файлик в Google Docs? Вы спрашивали у них о том, зачем они это делают, и что именно они туда пишут? Если нет, то отвечу за них (не за всех, но за многих):

Это употребляемая еда (в том числе её энергетическая ценность), расходы, время, затрачиваемое на сериалы (игры, работу, спорт), их планы на будущее, их ощущения от того, что они потребляют (например, оценка шоколадок) и прочие метрики и сведения об их жизни.

Но задумайтесь: если информации настолько много, и она настолько подробна, то ведь наверняка из этих данных можно что-то получить? Используя их, можно вычислить что-то ещё. Найти тенденции, закономерности. И тогда это уже будет не просто тетрадка, а действительно ценный и незаменимый инструмент, который не только позволяет хранить информацию, но и может давать советы. Он мог бы рекомендовать человеку скорректировать что-то в своей жизни таким образом, который, согласно результатам статистического вычисления, с наибольшей вероятностью даст желаемый результат.

Именно такую систему я бы и хотел описать более подробно: программный продукт, способный собирать информацию (на начальных этапах это в основном те данные, которые пользователь предоставляет самостоятельно, регулярно занося их в систему) и, анализируя её, находить в ней различные тенденции, связывать разнообразные аспекты человеческой жизни по каким-либо общим параметрам (например, обнаруживая хронологическую связь) и информировать пользователя в том случае, если у системы есть для него какие-либо рекомендации, советы или предостережения.

Читать дальше →

+1

DMwarden 31 мар 2014 в 07:16

Прогноз количества лайков у поста. SNA Hackathon 2014

3 мин

3.7K

Блог компании DM LabsData Mining *

Что хорошего можно извлечь из социальных сетей? Можно найти себе футбольную команду, басиста в группу, братьев по разуму, жену, сдать/снять квартиру/комнату/виллу на берегу океана. А если подключить анализ данных? Можно найти свое место в обществе. Например, если я слушаю XXX, читаю YYY и пью ZZZ, то нас таких всего 100 на этом шаре. А если я еще буду красить ногти в зеленый, то точно буду единственным и неповторимым?

Можно понять, что нравится людям, что им можно продать, можно делать прогнозы и в сотый раз проверять теорию шести рукопожатий. В области Social Network Analysis существует множество задач, одну из которых мы предлагаем решить на онлайн этапе SNA Hackathon 2014.

Читать дальше →

+3

uaoleg 25 мар 2014 в 10:46

Как ваши твиты раскрывают ваше местоположение

4 мин

28K

Перевод

Исследователи из IBM разработали алгоритм, позволяющий определять место жительства пользователя с точностью до 70% путём анализа 200 его последних твитов.

USA tweets

Читать дальше →

+25

alizar 24 мар 2014 в 04:54

В LA Times новость о землетрясении написал робот

2 мин

31K

Всего через три минуты после землетрясения в Калифорнии 17 марта газета LA Times опубликовала заметку на эту тему. Сообщение выглядит вполне обычным: указано точное время, сила землетрясения и его радиус. Единственный признак чего-то необычного — приписка в конце: «Пост создан алгоритмом, написанным автором». Другими словами, статью написал робот.

Читать дальше →

+30

1 2 ...

102

103 104 ...