Как стать автором

Data Mining *

Глубинный анализ данных

СтатьиПостыНовостиАвторыКомпании

yurkennis 3 апр 2013 в 11:23

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #2)

8 мин

25K

Блог компании ЯндексData Mining*Big Data*

Мы продолжаем серию публикаций о нашем фреймворке FML, который автоматизировал работу с машинным обучением и позволил разработчикам Яндекса использовать его в своих задачах проще и чаще. Предыдущий пост рассказывал о том, что такое функция ранжирования и как мы научились строить её, имея на входе лишь достаточно большое число оценок от асессоров и достаточно разнообразный набор признаков (факторов) документов по большому количеству запросов.

Из этого поста вы узнаете:

Почему нам нужно подбирать новую формулу ранжирования очень часто, и как именно нам в этом помогает FML;
Как мы разрабатываем новые факторы и оцениваем их эффективность.

Читать дальше →

+49

exeditor 28 мар 2013 в 18:24

Исследование статистики поисковых запросов позволяет обнаружить неизвестные ранее побочные эффекты лекарств

1 мин

12K

Поисковые технологии*Data Mining*Big Data*

Используя данные поисковых машин Google, Bing и Yahoo за 2010 год, группа исследователей из Microsoft Research, Стэнфорда и Колумбийского университета подтвердила возможность обнаружения побочных эффектов лекарств путём анализа информации из логов поисковых систем общего назначения. Для проверки использовалась информация о том, что совместное применение двух лекарств — пароксетина и правастатина может приводить к гипергликемии. Об этом стало известно только в 2011 году, то есть в 2010 никакой информации об этом в сети быть не могло.

Учёные проанализировали частоту появления поисковых терминов, связанных с симптомами гипергликемии, среди пользователей, которые ранее искали в сети информацию об этих двух лекарствах. Оказалось, что частота поисковых запросов о симптомах гипергликемии гораздо выше у тех, кто искал информацию по обеим лекарствам, чем у тех, кто искал только одно из них. На графиках видно, что разница была ощутима на протяжении всего года и не является каким-то временным или сезонным эффектом.

Читать дальше →

+30

yurkennis 26 мар 2013 в 09:06

Ранжирование в Яндексе: как поставить машинное обучение на поток (пост #1)

6 мин

51K

Блог компании ЯндексData Mining*Big Data*

Сегодня мы начинаем публиковать серию постов о машинном обучении и его месте в Яндексе, а также инструментах, которые избавили разработчиков поисковой системы от рутинных действий и помогли сфокусироваться на главном — изобретении новых подходов к улучшению поиска. Основное внимание мы уделим применению этих средств для улучшения формулы релевантности, и более широко — для качества ранжирования.

Читать дальше →

+49

jeston 23 мар 2013 в 19:37

Microsoft показала «умный» Excel — «формулы» можно задавать на «обычном» языке

2 мин

28K

Программирование*Data Mining*

Ресурс MSFT Kitchen опубликовал видео с Microsoft TechFest, в котором продемонстрирована работа проекта Project Analyze исследовательского подразделения Microsoft Research. Суть проекта заключается в том, что работа с табличным процессором Excel производится не путём ввода формул и щёлкания по ячейкам, а при помощи команд, похожих на естественный английский язык.

Начиная с первой минуты видео (всего около 8 минут), демонстрируется в качестве примера финансовый документ с готовыми данными, в котором требуется получить ещё одно поле, складывая два последних — Base pay и Of pay. Обычный действия заключаются в том, что необходимо разместить курсор в нужной ячейке, ввести в неё формулу и «протащить» её до нужного диапазона. Вместо этого в поле для формулы вводится команда "add the base pay and of pay" и в итоге Excel заполняет поле, складывая указанные в «формуле» значения ячеек в указанных столбцах. Примерно также находится и сумма — командой "add up".

Далее показана работа команд, в которых легко угадываются foreach или некое подобие WHERE в SQL (вообще сильно похоже на SQL), что, в принципе, делает показанные примеры не вполне впечатляющими. Однако, оказывается системе можно задать и не вполне «стандартный» вопрос "who has a pay larger than average" (в итоге нужные поля Excel подсвечивает), что уже более похоже на обычную речь и выглядит более эффектно. К сожалению, на этом «естественные» вопросы более не показаны, так что о дальнейших особенностях системы можно только догадываться. Тем не менее, вероятно, будущие версии Excel (в Office 16)будут обладать некоторым подобием «естественного языка формул» или, возможно, неким подобием голосового управления, что в свете таких проектов как Siri выглядит уже вполне реально.

Посмотреть видео

+23

0xy 21 мар 2013 в 10:19

Реестр стационарных объектов наблюдения (комплексы ФВФ)

2 мин

8.9K

Открытые данные*Data Mining*Микроформаты*

Для жителей Москвы на сайте www.data.mos.ru есть официальный список камер фото и видео регистрации ПДД. На вкладке «Для разработчиков» находится описание полей. Всю базу можно выгрузить в формате CVS.

www.data.mos.ru/datasets/621_reestr_statsionarnyh_obektov_nablyudeniya_kompleksy_fvf

На портале «Открытые данные» опубликована информация о 600 с лишним стационарных комплексах фото и видео фиксации нарушений ПДД, установленных на дорогах столицы. Данные доступны в виде таблицы, по которой автовладельцы смогут проверить свой обычный маршрут, а также доступны для выгрузки в формате CVS, который могут использовать разработчики для создания приложений, например, предупреждающих водителя о необходимости снизить скорость на определенном участке дороги (эдакие самописные радар-детекторы).

Читать дальше →

+23

itforge 19 мар 2013 в 22:11

Grab — новый интерфейс для работы с DOM-деревом HTML-документа

5 мин

36K

Data Mining*Python*

Исторический экскурс

Ранее я уже писал на хабре о Grab — фреймворке для написания парсеров сайтов: раз, два, три, четыре. В двух словах, Grab это удобная оболочка поверх двух библиотек: pycurl для работы с сетью и lxml для разбора HTML-документов.

Читать дальше →

+18

LexTalionis 16 мар 2013 в 21:53

Препроцессинг данных и анализ моделей

8 мин

32K

Data Mining*Python*Программирование*

Туториал

Всем привет. В прошлом посте я рассказывал про некоторые базовые методы классификации. Сегодня, в силу специфики последней домашки, пост будет не столько про сами методы, сколько про обработку данных и анализ полученных моделей.

Задача

Данные были предоставлены факультетом статистики Мюнхенского университета. Вот здесь можно взять сам датасет, а также само описание данных (названия полей даны на немецком). В данных собраны заявки на предоставление кредита, где каждая заявка описывается 20 переменными. Помимо этого, каждой заявке соответствует, выдали ли заявителю кредит, или нет. Вот здесь можно подробно посмотреть, что какая из переменных означает.

Нашей задачей стояло построить модель, которая предсказывала бы решение, которое будет вынесено по тому или иному заявителю.

Читать дальше →

+23

stemm 11 мар 2013 в 11:23

Энтропия и деревья принятия решений

8 мин

122K

Data Mining*Программирование*

Деревья принятия решений являются удобным инструментом в тех случаях, когда требуется не просто классифицировать данные, но ещё и объяснить почему тот или иной объект отнесён к какому-либо классу.

Давайте сначала, для полноты картины, рассмотрим природу энтропии и некоторые её свойства. Затем, на простом примере, увидим каким образом использование энтропии помогает при создании классификаторов. После чего, в общих чертах сформулируем алгоритм построения дерева принятия решений и его особенности.

Читать дальше →

+80

LexTalionis 5 мар 2013 в 14:00

Распознавание рукописных символов с использованием Python и scikit

5 мин

30K

Программирование*Python*Data Mining*

Туториал

Из песочницы

Привет. Наверняка многие интересуются методами машинного обучения и решения различных задач, которые обычными подходами не решаются. Недавно мне посчастливилось попасть на курс Data Mining, организованный в рамках программы GameChangers. Первым же домашним заданием было сделать сабмит на Kaggle — решить задачу Digit Recognizer.

Читать дальше →

+22

alizar 24 фев 2013 в 07:54

Дата-майнинг 10 000 актёров порно

2 мин

183K

Вокруг adult киноиндустрии существует много мифов и заблуждений. Например, многие склонны думать, что типичная актриса — блондинка с пышными формами. На самом деле это далеко не так. Джон Миллворд (Jon Millward) осуществил дата-майнинг кинематографической базы Internet Adult Film Database и проанализировал информацию о 125 тыс. фильмах, которые содержат информацию более чем о 115 тыс. актёрах. Для статистического анализа были сделана выборка 10 000 человек.

Читать дальше →

+210

alizar 11 фев 2013 в 19:27

IBM Watson закончил мединститут и пошёл на работу

2 мин

99K

Блог компании IBMData Mining*

Представители компаний IBM и WellPoint провели совместную конференцию, на которой объявили о начале коммерческой эксплуатации медицинской системы IBM Watson. Шесть экземпляров IBM Watson уже «трудоустроены» в больницы США в качестве врачей-диагностов.

Читать дальше →

+125

aleksandrit 2 фев 2013 в 16:18

Анализируя новости, исследователи могут предсказывать стихийные бедствия

2 мин

11K

Исследователи разработали программное обеспечение, которое предсказывает, когда и где могут возникнуть вспышки болезней, основываясь на двадцатилетнем архиве статей New York Times и других интернет-данных, сообщает Mashable. Авторами разработки являются Microsoft и Технион — Израильский технологический институт.

Система показывает поразительные результаты при тестировании на исторических данных. Например, сообщения о засухе в Анголе в 2006 году вызвали предупреждение о возможной вспышке холеры в стране, потому что предыдущие события научили систему, что вспышки холеры более вероятны в годы после засухи. Второе предупреждение о холере в Анголе было вызвано новостями о бурях в Африке в начале 2007 года; менее чем через неделю появились сообщения о том, что в регионе действительно распространилась холера. В подобных испытаниях, связанных с прогнозированием болезней, насилия и значительного числа смертей, предупреждения системы были правильными в 70—90 % случаев.

Читать дальше →

+25

alizar 2 фев 2013 в 07:07

Дата-майнинг для информационной безопасности

2 мин

12K

Блог компании IBMData Mining*Hadoop*Информационная безопасность*

На Хабре много писали о суперкомпьютере IBM Watson. Предполагается, что такая машина должна служить людям: помогать ставить диагнозы и решать другие сложные проблемы путём анализа массивов структурированных и неструктурированных данных. Но можно ли систему дата-майнинга приспособить для нужд информационной безопасности компании?

Читать дальше →

+10

alizar 1 фев 2013 в 08:58

Кто-то получил отчёт по природному газу на 400 миллисекунд раньше

1 мин

92K

Data Mining*Алгоритмы*

Вчера на американских биржах произошла маленькая, но очень интересная аномалия, о которой оперативно сообщила аналитическая компания Nanex Research.

31 января 2013 года примерно за 400 миллисекунд до официальной публикации недельногого отчёта по запасам природного газа резко увеличилась торговая активность по фьючерсам на природный газ и паям индексных фондов, таких как UGZ, UNG и BOIL.

Отчёт опубликован в 10:30:00. На графике вверху показана активность на торгах индексным фондом UGZ в промежутке с 10:29:59 до 10:30:02, с официальными метками времени транзакций от разных бирж.

Читать дальше →

+103

tyomitch 31 янв 2013 в 10:24

Поиск часто встречающихся элементов в массиве

5 мин

121K

Data Mining*Алгоритмы*Высоконагруженные системы*

Задача: в массиве длиной N найти элемент, который повторяется больше N/2 раз.

Казалось бы, чего тут думать? Возьмём Dictionary<значение элемента, число появлений>, за один проход по массиву сосчитаем появления каждого элемента, потом выберем из словаря искомый элемент. Решение за O(N), куда может быть ещё быстрее?

Есть один нюанс: для словаря нам потребуется O(N) дополнительной памяти — в несколько раз больше размера исходного массива, и это при реализации словаря хоть хэш-таблицей, хоть деревом. Что будем делать, если наша цель — обработка сигнала неким устройством с маленькой памятью? Массив — замеры уровня сигнала, из которых один — «настоящий» передаваемый уровень, а остальные — шум и помехи. Неужели придётся для определения «настоящего» уровня возиться с хэш-таблицами и деревьями?

К счастью, нет: достаточно O(1) дополнительной памяти, и по-прежнему одного прохода по массиву.

Читать дальше →

+91

CatalogLoader 31 янв 2013 в 07:05

ShopDataMining — как последнее слово в повышении конверсии сайта

6 мин

6.2K

С каждым годом доля электронной торговли увеличивается и соответственно растет конкуренция между интернет-магазинами. Учитывая, что количество пользователей Интернет уже не растет такими быстрыми темпами, приходится постоянно оптимизировать и совершенствовать механизмы не только привлечения посетителей, но и их обслуживания непосредственно на вашем веб-сайте. Именно поэтому, всё чаще возникает вопрос, как снизить показатель отказов интернет-магазина и повысить конверсию. Ниже мы рассмотрим несколько уже ставших привычными механизмов повышения продаж на сайте, а также познакомим вас с некоторыми новинками и тем, как они могут дополнять друг друга для достижения максимальной эффективности.

Читать дальше →

-1

shadoof 21 янв 2013 в 19:01

Data Mining: Первичная обработка данных при помощи СУБД. Часть 3 (Сводные таблицы)

7 мин

18K

Big Data*Data Mining*SQL*

Данная серия посвящена анализу данных для поиска закономерностей. В качестве примера используется одна из обучающих задач сообщества спортивного анализа данных Kaggle. Хотя размеры данных для задачи не большие, методы обработки, которые будут рассматриваться вполне применимы для больших объемов данных.
После выполнения Часть 1 и Части 2 сформировались две таблицы, содержащие преобразованные данные.
titanik_test_3 и titanik_train_3.

Читать дальше →

+6

DarkEol 21 янв 2013 в 10:01

Программа Watson компании IBM пошла учиться в мед. институт

6 мин

38K

Перевод

Эта ИИ программа уже освоила игру “Jeopardy!”. Теперь она приступит к изучению онкологических заболеваний.

В финале телевикторины Jeopardy, где против ИИ программы Watson компании IBM сражались лучшие игроки, один из участников, признав свое поражение, рядом с ответом на вопрос приписал: «От всей души приветствую наших новых компьютерных правителей»

Сейчас даже доктора высказываются схожим образом. «Мне хотелось бы пожать Watson руку», говорит Марк Крис, врач-онколог из онкологического центра Слоан-Кеттеринг в Нью-Йорке. Он с воодушевлением говорит о том дне в конце 2013 года, когда Watson, которая сейчас является его студенткой, окончит полный курс обучения и будет готова помогать врачам в онкологическом центре с постановкой верных диагнозов и определением подходящих курсов лечения.

Читать дальше →

+73

Maslukhin 21 янв 2013 в 03:36

Чем занимается Google на самом деле: дубль 2

3 мин

105K

Предисловие: мой предыдущий пост на эту тему попал в утиль — на хабре, увы, больше нет раздела «ссылки», а даже частичный копипаст в виде затравки с ссылкой на оригинальный текст, запрещен правилами. Тем не менее, я считаю случившееся событие очень важным, поэтому рискую еще раз вынести это текст на обсуждение. Чтобы остаться в рамках правил, постараюсь пересказать основной текст своими словами.

Итак, с середины с декабря прошлого года в Google начал работать известный изобретатель и футуролог Рей Курцвейл. Как пишет в свой статье Олег Парамонов (а это и есть основной текст, на который я хотел сослаться), событие это из ряда вон выходящее и, я не побоюсь этого слова, революционное.

Давайте сначала разберемся зачем гуглу вообще исскуственный интеллект. На фоне новостей про Android, гидроэлектростанции и прочее-прочее-прочее, легко забыть, что Google, это прежде всего поиск. Собственно, именно он приносит львиную часть доходов. Но что такое поиск завтрашнего дня?

Цитата 1:
«Ещё в 2000 году Ларри Пейдж, один из основателей Google, объявил, что идеальной версией поисковика будет искусственный интеллект.
Цитата 2 (из документа Google для внутреннего пользования 2006 года):
»Чтобы стать лучшими в поиске, мы должны создать исследовательский центр мирового класса, занимающийся искусственным интеллектом".»

Читать дальше →

+125

alizar 11 янв 2013 в 07:43

Суперкомпьютер IBM Watson выучил уличный жаргон: пришлось чистить ему память

1 мин

138K

Блог компании IBMData Mining*

Разработчики суперкомпьютера IBM Watson сделали большую ошибку, когда закачали в его память словарь уличного жаргона с сайта Urban Dictionary. IBM Watson обучен распознавать смысл предложений/вопросов и отвечать на них, используя усвоенные массивы неструктурированных данных (data mining). Благодаря этому компьютер выиграл у чемпионов телевикторины «Своя игра» (Jeopardy) в 2011 году, после чего начал изучать медицинские справочники с целью диагностировать болезни по симптоматике, как доктор Хаус.

Разработчики думали, что информация о дополнительных смыслах слов улучшит искусственный интеллект, поможет ему лучше понимать людей. Они ошиблись. Уличный жаргон оказался исключительно вреден суперкомпьютеру. Однажды он даже ответил на вопрос неприличным словом “Bullshit”.

Читать дальше →

+162

1 2 ...

104

105 106 107 108 109