Все потоки

Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

kxx 1 сен 2014 в 23:05

Несколько слов о «линейной» регрессии

5 мин

55K

Машинное обучение * Математика * R * Data Mining * Big Data *

Иногда так бывает: задачу можно решить чуть ли не арифметически, а на ум прежде всего приходят всякие интегралы Лебега и функции Бесселя. Вот начинаешь обучать нейронную сеть, потом добавляешь еще парочку скрытых слоев, экспериментируешь с количеством нейронов, функциями активации, потом вспоминаешь о SVM и Random Forest и начинаешь все сначала. И все же, несмотря на прямо таки изобилие занимательных статистических методов обучения, линейная регрессия остается одним из популярных инструментов. И для этого есть свои предпосылки, не последнее месте среди которых занимает интуитивность в интерпретации модели.

Читать дальше →

+35

moat 1 сен 2014 в 09:14

Обзор наиболее интересных материалов по анализу данных и машинному обучению №11 (25 августа — 1 сентября 2014)

5 мин

9.9K

Data Mining * Big Data *

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много разноплановой информации. Есть много статей, посвященных теме Data Engineering. Есть материалы для новичков и несколько видеолекций. Как обычно упоминаются соревнования по машинному обучению на Kaggle. Интересная статья про стартапы в области Data Science. Любопытная статья про улучшение игрового AI при помощи использования машинного обучения.

Читать дальше →

+23

alisichkin 27 авг 2014 в 09:15

Data Mining. Оптимизация заказов товаров в аптеке (аптечном пункте)

6 мин

18K

C++ * Data Mining * Microsoft SQL Server *

Из песочницы

В небольшом аптечном пункте существует потребность гибкой системы заказов лекарственных средств и пара-фармацевтических товаров чувствительной к постоянным колебаниям рынка. В рамках современной действительности одиночные аптечные пункты не обладают достаточными складскими помещениями (материальными комнатами), что накладывает свой отпечаток и заставляет человека, ответственного за заказы, делать их ежедневно из сводного прайс-листа по нескольким поставщикам, не допуская дублирования, по минимальным ценам, исключая товары с неподходящими сроками годности. При этом общая номенклатура составляет несколько десятков тысяч единиц.

Мы живем в современном мире, где рутинные операции за нас выполняет компьютер. Поэтому Вы можете сказать: «Давайте используем компьютер, и он сделает всю черную работу за нас!». «У вас же есть база данных, содержащая статистику продаж различных лекарств?» – продолжите Вы – «Так почему же не использовать эту статистику для прогноза продаж и создания автоматической заявки на требуемые препараты?»

Читать дальше →

+21

moat 25 авг 2014 в 06:18

Обзор наиболее интересных материалов по анализу данных и машинному обучению №10 (18 — 25 августа 2014)

5 мин

9.4K

Big Data * Data Mining *

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных материалов для новичков. Присутствует пара интересных видеоматериалов. Есть материалы по теме Data Engineering. Как обычно некоторые количество статей посвящено примерам кода, связанного с анализом данных и машинным обучением. И уже традиционно несколько статей посвящено теме участия в соревнованиях по машинному обучению.

Читать дальше →

+18

Vad118 22 авг 2014 в 17:06

Применение машинного обучения в трейдинге

8 мин

43K

Data Mining * R *

Туториал

Перевод

Примечание переводчика 1. Я наткнулся на этот блог в одном из обзоров материалов по машинному обучению. Если вы хорошо разбираетесь в машинном обучении, то в этой статье вы не найдете для себя ничего интересного. Она достаточно поверхностная и затрагивает только основы. Если же вы, как и я, только начинаете интересоваться данной темой, то добро пожаловать под кат.
Примечание переводчика 2. Кода будет мало, а тот что есть написан на языке R, но не стоит отчаиваться, если вы его до сих пор никогда в глаза не видели. До этой статьи я тоже ничего о нем не знал, поэтому я специально отдельно написал «шпору» по языку, включив туда все, что вам встретится в статье. Если хотите сами разобраться, то начать рекомендую c маленького курса на CodeSchool. На хабре тоже есть интересная информация и полезные ссылки. И наконец вот тут есть большая шпаргалка.
Примечание переводчика 3. Статья из двух частей, однако самое интересное начинается только во второй части, поэтому я позволил себе объединить их в одну статью.

Часть 1

В этой серии статей, я собираюсь шаг за шагом построить и оттестировать простую стратегию управления активом, основанную на машинном обучении. Первая часть будет посвящена базовым концепциям машинного обучения и их применению к финансовым рынкам.

Машинное обучение является одним из наиболее многообещающих направлений в финансовой математике, в последние годы получившее репутацию изощренного и сложного инструмента. В действительности все не так сложно.

Читать дальше →

+26

moat 18 авг 2014 в 08:17

Обзор наиболее интересных материалов по анализу данных и машинному обучению №9 (11 — 18 августа 2014)

5 мин

10K

Data Mining * Big Data *

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных видеоматериалов. Некоторые количество материалов посвящено теме Data Engineering. В данном выпуске достаточно много практических примеров кода на языках программирования R и Python. Как обычно много материалов посвящено алгоритмам машинного обучения.

Читать дальше →

+26

moat 11 авг 2014 в 06:47

Обзор наиболее интересных материалов по анализу данных и машинному обучению №8 (4 — 11 августа 2014)

4 мин

9.7K

Big Data * Data Mining *

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много практических примеров кода на языках программирования R и Python. Также в данном обзоре есть достаточно много статей, которые будут интересны новичкам. Несколько статей посвящено онлайн-курсам. Как обычно много материалов посвящено алгоритмам машинного обучения.

Читать дальше →

+22

vikorbit 7 авг 2014 в 05:44

Сравнение алгоритмов распознавания аудио для Second Screen

6 мин

9.1K

Из песочницы

Введение

На сегодняшний день существует множество методов распознавания звука. В самом общем виде большинство методов состоят из алгоритма построения сигнатуры (fingerprints) сигнала (максимально компактного и при этом наиболее точно описывающего трек набора признаков), алгоритма ее поиска в базе данных и алгоритма отсечения ложных срабатываний. Перед нами стояла задача выбора технологии для построения second screen приложений.

При этом сравнение алгоритмов распознавания на основе известных точностных характеристик является довольно условным, поскольку эти характеристики получены на разных тестовых данных и при разных ошибках первого рода (false positives). Также, исходя из контекста задачи, нас интересовала эффективность алгоритма применительно к распознаванию аудиосигнала телеэфира, при искажениях обусловленных параметрами микрофонов современных мобильных устройств.

Поскольку в открытых источниках сравнительных данных, удовлетворяющих нашим требованиям, найдено не было, было решено провести собственное исследование алгоритмов распознавания звука, с учетом специфики аудиопотока и искажений. В качестве потенциальных кандидатов мы остановили свой выбор на алгоритмах J. Haitsma и A. Wang. Оба широко известны и основаны на анализе частотно-временных признаков, полученных с помощью оконного преобразования Фурье.

Читать дальше →

+19

maxttor 5 авг 2014 в 09:11

Эволюция списка рекомендаций в SmartProgress

4 мин

5.6K

Блог компании SmartProgressBig Data * Data Mining *

Выборка наиболее интересного пользовательского контента для пользователей — актуальная задача для многих проектов, и мы не исключение. В этой статье я хочу рассказать про то как мы решали эту задачу с момента старта проекта и до сегодняшнего дня на примере списка целей в SmartProgress.

Читать дальше →

+15

moat 4 авг 2014 в 07:10

Обзор наиболее интересных материалов по анализу данных и машинному обучению №7 (28 июля — 4 августа 2014)

4 мин

9.9K

Data Mining * Big Data *

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном обзоре есть несколько статей, которые будут интересны новичкам. Есть несколько любопытных видеолекций по тематике Data Science. В текущем выпуске как обычно много статей по машинному обучению и анализу данных с примерами кода на языка программирования R и Python. В обзоре также могут заинтересовать несколько обзоров книг по теме анализа данных.

Читать дальше →

+13

martyshev 29 июл 2014 в 05:59

Похожие поисковые запросы в hh.ru

7 мин

26K

Блог компании hh.ruПоисковые технологии * Data Mining *

У большинства крупных поисковиков и сервисов есть механизм похожих поисковых запросов, когда пользователю предлагаются варианты, тематически близкие к тому, что он искал. Так делают в google, yandex, bing, amazon, несколько дней назад это появилось и у нас на hh.ru!

В этой статье я расскажу о том, как мы добывали похожие поисковые запросы из логов сайта hh.ru.

Читать дальше →

+40

alizar 28 июл 2014 в 15:28

Трекинг аккумулятора в ноутбуке для личностной аналитики

2 мин

13K

Астрофизик Джеймс Дэвенпорт (James Davenport) в свободное время увлекается разными проектами по анализу данных.

Год назад он опубликовал статистику по состоянию аккумуляторов ноутбуков MacBook Air 2013, MacBook Air 2012 и MacBook Pro 2009, с которыми работал за последние два года. Ежеминутный съём показаний помогает произвести программа CoconutBattery.

Сейчас пришло время обновить статистику.

Джеймс с удовлетворением отмечает, что аккумулятор MacBook Air 2013 держится гораздо лучше, чем в MacBook Air 2012. Но речь совсем не о том.

Читать дальше →

+14

moat 28 июл 2014 в 09:10

Обзор наиболее интересных материалов по анализу данных и машинному обучению №6 (21 — 28 июля 2014)

4 мин

9.9K

Data Mining * Big Data *

В очередном выпуске обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения некоторое количество статей посвящено практическому применению различных видов регрессии. Есть интересная серия статей о применении машинного обучения в трейдинге. Как обычно много материалов посвящено алгоритмам машинного обучения (в том числе нейронным сетям). Есть несколько любопытных видеолекций, а также много статей про практическое применение языка R при анализе данных и машинном обучении.

Читать дальше →

+19

eandreeva 21 июл 2014 в 13:00

Эксперимент в Яндексе. Как идентифицировать взломщика с помощью машинного обучения

4 мин

44K

Блог компании ЯндексИнформационная безопасность * Data Mining *

На серверах Яндекса хранится много нужной и важной для людей информации, поэтому нам необходимо надёжно защищать данные наших пользователей. В этой статье мы хотим рассказать вам о наших исследованиях, в которых мы изучаем, как отличить владельца аккаунта от злоумышленника. Причем даже тогда, когда оба имеют логин и пароль от учетной записи. Мы разработали метод, который основан на анализе поведенческих характеристик пользователей. Он использует машинное обучение и позволяет отличать поведение настоящего владельца аккаунта от злоумышленника по ряду характеристик.

Такой анализ базируется на математической статистике и изучении данных об использовании сервисов Яндекса. Поведенческих характеристик недостаточно, чтобы однозначно идентифицировать пользователя и заменить тем самым использование пароля, но это позволяет определить взлом уже после авторизации. Таким образом, украденный пароль от почты не даст прикидываться её настоящим владельцем. Это по-настоящему важный шаг, который позволит по-другому взглянуть на системы безопасности в интернете и решить такие сложные задачи, как определение настоящего владельца аккаунта, а также момента и характера взлома.

Читать дальше →

+75

moat 21 июл 2014 в 09:47

Обзор наиболее интересных материалов по анализу данных и машинному обучению №5 (7 — 21 июля 2014)

5 мин

11K

Data Mining * Big Data *

Представляю очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. Как всегда есть материалы по алгоритмам машинного обучения (в том числе Deep Learning). Несколько практических статей по популярному пакету для машинного обучения Scikit-Learn для Python. Есть статьи, посвященные практическому применению языка R. Некоторое количество материалов посвящено теме Data Engineering. Присутствуют интересные статьи про популярные проекты 'Google Brain' и 'Project Adam'.

Читать дальше →

+13

w495 21 июл 2014 в 00:47

Некоторые методы поиска нечетких дубликатов видео

11 мин

20K

Data Mining * Алгоритмы * Обработка изображений *

Существует достаточно широкий круг задач, где требуется анализ, аудио-визуальных моделей реальности. Это относится и к статическим изображениям, и к видео.

Ниже приведен небольшой обзор некоторых существующих методов поиска и идентификации нечетких дубликатов видео, рассмотрены их преимущества и недостатки. На основе структурного представления видео построена комбинация методов.
Обзор совсем небольшой, за подробностями, лучше обращаться к первоисточникам.

Подробности

+30

varagian 18 июл 2014 в 05:16

Пишем простую систему рекомендаций на примере Хабра

4 мин

41K

Сегодня мы поговорим о рекомендательных системах, а точнее о самой простой форме коллаборативной фильтрации. В программе передач: что такое рекомендательная система, на чем основана, каков математический аппарат и как её можно воплотить в код. В качестве бонуса предоставим результаты в виде простого сервиса.

Что такое рекомендательная система
Интуиция
Теория
Реализация: код и данные
Сервис Хабра-рекомендаций
Хабра-аналитика

Читать дальше →

+20

moat 7 июл 2014 в 12:24

Обзор наиболее интересных материалов по анализу данных и машинному обучению №4 (23 июня — 7 июля 2014)

5 мин

9.5K

Big Data * Data Mining *

Прошлый выпуск обзора был полностью посвящен онлайн-курсам по тематике Data Science. Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению будет содержать ссылки на свежие материалы по тематике. В данном выпуске некоторое количество материалов посвящено важной теме визуализации данных. Есть несколько статей, которые описывают небольшие практические примеры анализа данных. Как обычно много статей посвящено алгоритмам машинного обучения, в том числе несколько статей посвящены популярным алгоритмам машинного обучения Deep Learning и Random Forest. Также есть несколько ссылок на интересные видеоматериалы.

Читать дальше →

+21

kuznetsovin 7 июл 2014 в 05:03

Дайджест статей по анализу данных №4 (23.06.2014 —06.07.2014)

2 мин

7.8K

Data Mining * Big Data *

Добрый день, уважаемые читатели.
Пролетели 2 недели и я представляю Вам новую подборку материалов на тему анализа данных. В этот раз материала получилось довольно не много, но от этого статьи и заметки попавшие в дайджест не становятся менее интересными.
Итак, из сегодняшней подборки вы узнаете как классифицировать текст с помощью наивного Байеса, узнаете как увеличить скорость градиентного спуска. Кроме этого будет очередная статья о том, чем должен пользоваться аналитик и какими навыками обладать и еще много чего интересного

Читать дальше →

+14

great_boba 3 июл 2014 в 07:54

Кластерный анализ (на примере сегментации потребителей) часть 1

4 мин

50K

Data Mining * Big Data *

Туториал

Перевод

Мы знаем, что Земля – это одна из 8 планет, которые вращаются вокруг Солнца. Солнце – это всего лишь звезда среди порядка 200 миллиардов звезд в галактике Млечный Путь. Очень тяжело осознать это число. Зная это, можно сделать предположение о количестве звезд во вселенной – приблизительно 4X10^22. Мы можем видеть около миллиона звезд на небе, хотя это всего лишь малая часть от всего фактического количества звезд. Итак, у нас появилось два вопроса:

Что такое галактика?
И какая связь между галактиками и темой статьи (кластерный анализ)

Читать дальше →

+2

1 2 ...

101

102 103 ...