Как стать автором
Поиск
Написать публикацию
Обновить
23.57

Data Mining *

Глубинный анализ данных

Сначала показывать
Порог рейтинга
Уровень сложности

Предсказание революций путём анализа открытых источников

Время на прочтение2 мин
Количество просмотров924
Разработчики Университета Иллинойса создали программное обеспечение, которое якобы способно предсказывать места новых «оранжевых революций» путём ретроспективного анализа «тона» информационных сообщений в СМИ за последние тридцать лет. Авторы заявляют, что их программа успешно предсказала начало революций в Египте и Ливии. Более того, задолго до его уничтожения Усамы бин Ладена программа установила Северный Пакистан как самое вероятное его местонахождение.

Программа анализирует информационные сообщения практически со всех стран мира. Основные источники — глобальные базы данных Open Source Center (финансируется правительством США для нужд внешней разведки) и аналогичная британская база BBC Monitoring, а также архив New York Times. В сумме, все эти источники содержат более 100 млн новостных статей, в результате картирования которых составлено около 100 трлн связей. Обработка информации осуществляется на суперкомпьютере SGI Altix мощностью 8,2 TFLOPS.
Читать дальше →

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной переменной, на примере индекса DJI

Время на прочтение5 мин
Количество просмотров7K
Попробуем проверить гипотезу о том, являются ли приращения значений индекса DJI статистически независимыми. При этом в качестве референсного источника данных, с которым будем проводить сравнение, возьмем искусственный временной ряд, сгенерированный из собственно приращений исходного ряда, но при этом случайно перемешанных. В качестве меры статистической независимости воспользуемся статистикой взаимной информации.

Читать дальше →

Анализ текстов SMS пользователей ЗАО «Мегафон»

Время на прочтение2 мин
Количество просмотров3.4K
image

Мы проанализировали 862 уникальных текста SMS на частотность употребляемых слов, распределили по городам и сгруппировали по получателям. За основу были взяты тексты, находящиеся короткое время в открытом доступе на популярном поисковом сервисе.

Чтобы нельзя было идентифицировать получателя сообщения, мы удалили телефонные номера, тексты, содержащие пароли, и другую информацию, которая может повредить отправителям или получателям.

Данный проект интересен нам исключительно в исследовательских и промо целях.

Некоторые результаты под катом.
Читать дальше →

Использование графа, как основы для создания рубрикатора

Время на прочтение6 мин
Количество просмотров11K

Определения


В этой статье я опишу способы создания, и использования рубрикаторов, в основе которых лежит структура графа.
Рубрикатор, категоризатор, каталог категорий, предметный указатель, индекс. Для удобства будем считать, что все эти термины описывают примерно одно и то же. А там, где будут существенные отличия, мы будем явно на них указывать.
Информационный элемент – чаще всего файл, но в общем случае любая информация представленная как единое целое.

Введение


Рубрикаторы используются для решения самых разнообразных задач:
  • Для ускорения поиска и облегчения навигации по большим массивам информации.
  • Для пометки (тегирования) информации с целью организации выборок по определенным рубрикам
  • Для сортировки информации по:
    областям знаний (физика, математика, биология)
    способам использования (Книги — читать, музыка — слушать, фильмы — смотреть)
    принадлежности (папки мои и общие документы)
    важности (папки inbox и spam) и т.п.

Читать дальше →

Проблемы, подстерегающие любого создателя рубрикаторов

Время на прочтение4 мин
Количество просмотров9.8K

Введение


Работая в издательстве журнала, я много раз становился свидетелем попыток создания хорошего рубрикатора. Большинство попыток сводились или к делению одной большой рубрики на несколько мелких, или, наоборот, к объединению нескольких мелких рубрик в одну крупную. Все попытки создать идеальный рубрикатор превращались в нахождение компромисса между сложным и очень сложным рубрикатором.
Так же хотелось бы отметить, что все виденные мной рубрикаторы были организованны в виде классического дерева с глубиной вложенности 2-3 уровня. И не было замечено попыток организовать рубрикатор иным образом (Речь идет только о печатных рубрикаторах).
В итоге у меня накопился список вопросов, которые приходится решать любому составителю рубрикатора.
Читать дальше →

Spark: дата-майнинг до 30x быстрее Hadoop

Время на прочтение3 мин
Количество просмотров10K
В Калифорнийском университете в Беркли разработали фреймворк Spark для распределённых вычислений в кластерах. На некоторых задачах он превосходит Hadoop в 10-30 раз, сохраняя при этом масштабируемость и надёжность MapReduce.

Увеличение производительности до 30х возможно на специфических задачах, в которых идёт постоянное обращение к одному и тому же набору данных. Например, это интерактивный дата-майнинг и итерационные алгоритмы, которые активно используются, например, в системах машинного обучения. Собственно, для этих двух задач проект и создавался. Но Spark превосходит Hadoop не только в системах машинного обучения, но и в традиционных приложениях по обработке данных.
Читать дальше →

Результаты зарплатного опроса

Время на прочтение2 мин
Количество просмотров2.8K
Какое-то время назад я проводил анкетирование на тему зарплат разработчиков. Пришло время рассказать о полученных результатах.

Всего было заполнено около 1900 анкет разработчиками из более чем 300 городов, преимущественно из России и Украины.

В первую очередь хотелось бы поблагодарить всех добровольцев, которые не пожалели нескольких минут на заполнение анкеты и всех, кто поддержал инициативу на хабре.

Читать дальше →

Tim Salimans o выигрыше в конкурсе предсказаний результатов шахматных партий от Kaggle

Время на прочтение4 мин
Количество просмотров4.3K
Kaggle организует соревнования для людей, которые занимаются data mining. Сейчас открыты два конкурса. Один на 3 миллиона долларов, цель которого улучшить систему, по которой людей кладут в больницы. Второй — с призовым фондом 3000 долларов, чтобы улучшить измерения эллиптичности галактик, что позволит лучше измерить так называемую «темную материю» во вселенной.

Уже прошло около двух десятков конкурсов. О своем опыте участники делятся на блоге. Ниже — перевод поста Tim Salimans о его опыте участия в конкурсе предсказания результатов шахматных встреч на основе прошедших результатов.

Участникам конкурса предоставлялись результаты более 1,84 миллиона встреч более чем 54.000 шахматистов. Задача была предсказать результаты 100.000 игр между этими же шахматистами за следующие три месяца. В конкурсе приняли участие 189 команд.

Вот что Tim Salimans написал о том, как он его выиграл.

Исследование рынка труда по разработке программного обеспечения

Время на прочтение1 мин
Количество просмотров1.6K
Многие мои публикации на хабре связаны с Data Mining и Data Extracting. Мне приятно, что они пользуются популярностью. В основном, это теоретические статьи с описанием методов, алгоритмов, но есть ряд практических статей.

В этот раз мне хотелось бы применить знания по обработке данных с практической пользой. Поэтому предлагаю всем желающим принять участие в анонимном опросе.

Лично мне интересны не статистические данные — медиана, средняя температура по больнице и т.д., а именно скрытые взаимосвязи. Например, «разработчик на Assembler менее склонен к переезду в другой город» или «Java программисты с 10 годами опыта считают, что 5-летние С++ разработчики получают больше».

Я не знаю, насколько неожиданными могут быть результаты такого исследования, но, думаю, попробовать стоит. О тулзах, алгоритмах и т.д. расскажу после обработки анкет.

В общем, если у вас есть несколько минут, потратьте их на заполнение этой анкеты.

Спасибо.

Суперкомпьютер IBM Watson усвоил знания 2-го курса медицинского вуза

Время на прочтение3 мин
Количество просмотров12K
На прошлой неделе компания IBM подтвердила серьёзные намерения по развитию дата-майнинга, объявив о выпуске системы на Hadoop для хранения и анализа данных, а также о больших инвестициях в это направление. Разрабатывая софт на базе open source технологии, IBM официально гарантирует Hadoop свою защиту и покровительство.

На другом фронте дата-майнинга IBM демонстрирует ещё более значительные успехи. Разработчики суперкомпьютера IBM Watson (который способен отвечать на вопросы, разбираясь в массиве неструктурированных данных) продолжают накачивать его БД медицинской информацией. По их словам, уже сейчас компьютер усвоил всю информацию, которую должен знать студент медицинского колледжа. И это только начало обучения.
Читать дальше →

Экономия бензина с помощью Google Prediction API

Время на прочтение1 мин
Количество просмотров3.5K


Исследователи из Ford начали тестировать новую функцию компьютерной системы управления, которая делает обоснованные предположения по будущему маршруту автомобиля и оптимизирует настройки. Выбор режима работы двигателя в некоторых случаях позволяет заметно уменьшить расход топлива.

Предсказание маршрута осуществляется на основе облачного сервиса Google Prediction API. На скриншоте видно слева, как просчитывается вероятность каждого маршрута.
Читать дальше →

Web Private Detective 1.0

Время на прочтение3 мин
Количество просмотров886

Вступление




В прошлый раз мы Вам говорили о том, каким образом можно осуществить поиск персон в тексте. Подобные вещи оказываются очень полезными для аналитиков, которые каждый день следят за новостями и вынуждены мониторить присутствие той или иной персоны в СМИ. Самые большие проблемы начинаются если эта персона еще и локального значения, и в интернете можно найти достаточно много информации о ней. Но все равно информация о ней очень дисперсирована и не структурирована. С кем связана эта персона? С кем она чаще всего взаимодействует? В контексте каких тем персона чаще всего поднимается в интернете?

Не обязательно чтобы эта персона была человеком. Было бы неплохо введя, например, название сериала “X-Files” получить информацию о том, кто в нем играет, какие персонажи там главные, какие основные объекты фильма (ФБР например;) ) и т.д.

Развивая идею можно сказать, что очень замечательно бы было еще и иметь возможность мониторить все связи искомого объекта в реальном времени. А что? Не плохо было бы специалисту из отдела внутренней безопасности прийти на работу и увидеть извещение о том, что один из подопечных вдруг начал вести активную деятельность под своим “персональным” почтовым адресом на форуме конкурентов.
И хоть последний абзац пока для нас является, так сказать, RoadMap-ом, то первые два уже можно считать явью и реализованными хоть в какой-то мере.
Встречайте: Web Private Detective 1.0

Licenzero: ищем порно по цвету кожи

Время на прочтение3 мин
Количество просмотров9.8K
Маска по цвету кожиПродолжаем описание классификатора порнографического видеоконтента, разработанного компанией Inventos (Licenzero, присутствующее в заголовке это не отдельная компания, а подразделение в компании Инвентос).

Детектор цвета кожи является одним из детекторов, при помощи которых мы классифицируем видео. Он не такой сложный, как детектор движения, или детектор фрагментов, можно даже сказать совсем простой. Вначале у нас была куча идей, связанных с цветом кожи в видео. Но попробовав самый простой подход к классификации, мы решили (возможно временно) на нем остановиться, поскольку полученные результаты нас вполне устроили. Итак.
Читать дальше →

Ближайшие события

Data Mining Cup 2011

Время на прочтение2 мин
Количество просмотров3.8K
Хотелось бы рассказать про соревнованию по анализу данных, которое скоро начнется. Полная информация про него может быть найдена на официальном сайте. В соревновании могут участвовать только студенты, поэтому если Вы студент и Вас интересует анализ данных – то вы можете зарегистрироваться (email можно использовать обычный, а не университетский, если такого нет) и поучаствовать.
Дальше Вы найдете расписание конкурса, основные правила этого соревнования. Так же ссылку на условия предыдущих лет (для тренировки и тех, кто уже не студент).
Читать дальше →

Licenzero: простые движения

Время на прочтение6 мин
Количество просмотров7.3K
Двустороннее движениеЭтим постом мы продолжаем цикл статей о том, как мы делали порнофильтр. Сейчас речь пойдет о попытке классифицировать порнографический контент по характерным движениям в кадре.

Началось это все как просто шутка из разговора. Ведь классифицировать порнографические движения довольно непросто — они слишком разные, чтобы найти в них что-то общее. Но мы попробовали, результат нас вполне устроил, и детектор движения занял свое место в общем классификаторе порнографического видеоконтента.
Читать дальше →

Классификация и регрессия с помощью деревьев принятия решений

Время на прочтение5 мин
Количество просмотров76K

Введение


В данной статье сделан обзор деревьев принятия решений (Decision trees) и трех основных алгоритмов, использующих эти деревья для построение классификационных и регрессионных моделей. В свою очередь будет показано, как деревья принятия решения, изначально ориентированные на классификацию, используются для регрессии.

Деревья принятия решений


Дерево принятия решений — это дерево, в листьях которого стоят значения целевой функции, а в остальных узлах — условия перехода (к примеру “ПОЛ есть МУЖСКОЙ”), определяющие по какому из ребер идти. Если для данного наблюдения условие истина то осуществляется переход по левому ребру, если же ложь — по правому.
Читать дальше →

Licenzero: порно детектед

Время на прочтение3 мин
Количество просмотров18K
Licenzero У нас великолепная работа — нам платят за просмотр порнографических роликов. Ну а серьезнее, мы работаем в R&D отделе компании Inventos, которая занимается автоматической фильтрацией веб-контента: модерация, защита авторских прав и т. д. Перед нами была поставлена задача — построить систему для автоматического выявления роликов порнографического содержания. Здесь мы расскажем, как мы решали поставленную задачу.
Читать дальше →

Графематический модуль. Выделение предложений

Время на прочтение2 мин
Количество просмотров5.4K
Выделение предложений из сплошного текста – процедура необходимая для дальнейшего анализа текста в любой системе анализа естественных языков.

Что такое предложение?


Первый ответ на этот вопрос – это что-то, заканчивающееся на символы «.», «!», или «?». Но если рассмотреть встречающиеся тексты более внимательно, то можно обнаружить, что «.» используется не только для определения конца предложения, но и для аббревиатур и сокращений, а иногда выполняет обе эти роли. Вне зависимости от этого точка в 90% случаев является индикатором конца предложения (Riley 1989).
Читать дальше →

Автоматизированный поиск фактов в тексте (метод «окон-фактов»)

Время на прочтение5 мин
Количество просмотров3.7K
Сегодня мы будем говорить о том, как автоматизировать процесс анализа методом «Окон-Фактов». Об этом методе, к сожалению, достаточно мало информации, однако он остается одним из ключевых методов обработки информационных потоков. Более детально об анализе текста можно почерпнуть, например, тут. В общих чертах задача метода «Окон-фактов» сводится к поиску в тексте неоспоримых фактов. Но уточним, что же именно стоит понимать под фактом. 
Читать дальше →

Распознавание почтовых адресов

Время на прочтение15 мин
Количество просмотров25K
Дело началось с того, что одна небольшая английская компания решила рассылать рекламные листовки своим существующим и потенциальным клиентам.
Обнаружилась проблема: есть отдельная внутренняя база клиентов, делавших заказы по телефону; отдельная база веб-клиентов, делавших заказы на сайте; и несколько баз «потенциальных клиентов» от разных информаторов.
Тысячи клиентов попали сразу в несколько баз, или даже несколько раз в одну базу.
Если клиент, «засветившийся» пять раз, получит пять одинаковых рекламных листовок с немного отличающимся написанием имени или адреса, то эффект от такой кампании получится противоположный — не говоря уже о бессмысленных расходах на лишние листовки.
Как же отсеять повторы в списке рассылки?

Среди всех данных о клиенте самое однозначное, что его определяет — это почтовый индекс (postcode). Этого мало, но это хорошая отправная точка.
Читать дальше →