Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Оффер за 2 дня в X5: для System Analyst

Блог компании X5 Group Анализ и проектирование систем *Big Data *Аналитика мобильных приложений *Карьера в IT-индустрии

Приглашаем на Weekend Offer в X5 Group. Мы сокращаем дистанцию для системных аналитиков до двух дней: 20-го июня интервью, 21-го июня оффер.

Подать заявку

Читать далее
Всего голосов 7: ↑4 и ↓3 +1
Просмотры 1.7K
Комментарии 0

Английская королева и тайна частной жизни

Чулан
Многие уже читали про это, однако, мне есть что сказать нового на эту тему. Мнение, скорей всего, придется не по душе большинству хабраколлег, и карма моя опять пойдет вниз. Но, в конце концов, не ради кармы я здесь публикуюсь :)

Уже второй раз досрочно завершается бесплатная расдача Windows Vista и Office 2007 в рамках кампании под названием Windows Feedback Program, организованной корпорацией Microsoft, основная задача которой заключается в получении информации о том, что делают пользователи на своих компьютерах. Пользователи буквально сметают запас выделенных для мероприятия бесплатных копий продуктов, и каждый раз кампанию приходится приостанавливать раньше отведенного срока. Следует заметить, что раздаются самые топовые версии ПО, Ultimate.

Суть Windows Feedback Program в том, что пользователь соглашается регулярно отвечать на вопросы опросов, проводимых корпорацией, и установить у себя на компьютер специальную программу, которая ежедневно передает в Microsoft информацию о действиях пользователя.

Мне кажется, эта новость в мире (ну и в Рунете, соответственно, тоже) слегка обделена вниманием. Точнее, она, конечно, освещалась, но…
«Некоторым пользователям идея постоянной „отчетности“ покажется неприемлемой, но, судя по всему, многим это же предложение придется по душе. Почему бы не принять предложение поучаствовать в Windows Feedback Program, и получить бесплатно то, что в розницу стоит почти тысячу долларов, и на вполне законном основании?»
— такого рода благодушные реплики завершают большинство новостных сообщений.

Итак, рассмотрим, что происходит, подробнее. Для участия вы сами должны установить на свой компьютер специальную программу, которая отслеживает, кроме всего прочего:
  • информацию о действия пользователя,
  • список установленного ПО и железа,
  • оглавления каталогов жесткого диска,
  • передаваемые по сети данные,
  • cookies браузера, а значит, все, что вводится при авторизации на веб-сайтах.
Перед участием в программе вы должны предоставить свое имя, пол, e-mail и почтовый адрес. Затем данными (заметьте, не обезличенными, как часто декларируют в различных privacy policy, а четко привязанными к личности участника!), которыми вы должны щедро поделиться, Microsoft и любой из его филиалов могут пользоваться любым необходимым им образом.

Для Microsoft — это исследовательское мероприятие. А для нас, — по сути, социальный эксперимент. Что же полезного говорят нам его результаты? Позвольте, вместо ответа… а дальше на моем блоге >>
Всего голосов 7: ↑2 и ↓5 -3
Просмотры 306
Комментарии 5

Unsupervised learning или «пойди туда, не знаю куда, найди то, не знаю что»

Искусственный интеллект
imageЭкспертные системы, нейронные сети, исчисление предикатов, хорновские дизъюнкты, теоремы сходимости…
Не знаю как у вас, у меня вся эта кухня вызывает восторг. Как замечательно, что компьютеры (конечно, наученные программистами, вооруженными серьезной математикой) могут хотя бы иногда приближаться к человеку по навыкам принятия решений. Особенно это хорошо у них получается, когда человек готов учить.

Иначе говоря, методы ИИ работают тем лучше, чем более формализованы как раз те знания, которые компьютер должен освоить. См, например, предыдущий пост про шахматы.

Неуправляемое обучение, обучение без учителя
Однако есть ситуации, и их довольно много, когда правильного ответа никто не знает. И даже непонятно что является ответом. И даже задача не вполне ясна. Есть только данные. Надо что-то полезное из них извлечь.
Согласитесь, задача гораздо более интересная и дающая простор для фантазии?
Читать дальше →
Всего голосов 105: ↑96 и ↓9 +87
Просмотры 6.5K
Комментарии 172

Data mining по отношению к сотрудникам online и offline – смех и слёзы

Информационная безопасность *
Если у вас нет паранойи – это не значит, что за вами не следят.

Навеял недавний топик про гугл. Так вот, насколько я знаю, датамайнинг по отношению к сотрудникам применяется фирмами давно и упорно, причём я почему–то к сожалению не слыхал о случаях, чтобы данные сотрудников собирались и применялись им на пользу. Сразу оговорюсь, что в большинстве случаев датамайнинг каким–либо образом легитимирован (в основном пассажами в трудовом договоре). Но эти формулировки трактуются предельно широко и всегда в одну сторону. Бывают, конечно, и случаи, когда фирма собирает данные тайно, путём задействования собственных отделов по борьбе с коррупцией либо специализированных субподрядчиков и надеется на то, что поиск и употребление данных о сотрудниках никому известно не станет.

Расскажу о нескольких случаях, а вы, пожалуйста, тоже расскажите и прокомментируйте. Цель топика – обменяться узнанным.
Так вот, о случаях:
Всего голосов 61: ↑53 и ↓8 +45
Просмотры 6.2K
Комментарии 68

Извлечение данных или знаний?

Data Mining *
Приветствую!

Стало любопытно, насколько представлена тема Data Mining на хабре. Увидел лишь одну статью, посвященную данной тематике. Хочу сделать свой небольшой вклад в развитие данной темы.

Исторически сложилось, что у термина Data Mining есть несколько вариантов перевода:
  • извлечение данных
  • извлечение знаний, интеллектуальный анализ данных

Если говорить о способах реализации, то первый вариант относиться к прикладной области, второй — к математике и науке, и, как правило, они мало пересекаются. Если говорить о возможности применения — тут вариантов очень много. Так получилось, что я работал как с первым вариантом (в университете — научная работа), так и с другим (работа, фриланс). Рассмотрим подробнее.

Извлечение данных


Извлечение данных — это процесс нахождения, сбора информации, а также сохранения (конвертация) их в разных форматах. По простому, программы для извлечения данных называют парсерами (parser), граберами (grabber), спайдерами (spider), кроулерами (crawler) и т.д. Фактически, такие программы существенно облегчают всем жизнь, так как позволяют систематизировать данные (именно данные, а не знания!). Такие программы могут собирать адреса компаний в вашей отрасли, ссылки из нужных форумов, парсить целые каталоги, также могут служить отличным средством для составления баз данных.

Читать дальше →
Всего голосов 59: ↑57 и ↓2 +55
Просмотры 9.7K
Комментарии 30

Бизнес кейсы использования Data Mining. Часть 1

Data Mining *
Привет, хабр.
Очень рад, что тема Data Mining интересна сообществу.

В данном топике (а если понравится, — в серии топиков) расскажу, какие примеры использования Data Mining есть в Российском и не только бизнесе. Почему я пишу об этом? Я работаю в компании, которая тесно связана с ВЦ РАН (Вычислительный центр Российской академии наук), что позволяет нам иметь отличный научно-исследовательский отдел и разрабатывать новые проекты, применяя отечественные достижения в математике. В данном топике будет больше бизнеса, чем науки, но если последняя все же вас интересует, тогда вам сюда: mmro.ru или сюда: www.machinelearning.ru

Итак, поехали:
Читать дальше →
Всего голосов 44: ↑44 и ↓0 +44
Просмотры 12K
Комментарии 70

Многомерные кубы, OLAP и MDX

SQL *
OLAP Довольно давно являюсь обитателем Хабра, но так и не доводилось читать статьи на тему многомерных кубов, OLAP и MDX, хотя тема очень интересная и с каждым днем становится все более актуальной.
Не секрет, что за тот небольшой промежуток времени развития баз данных, электронного учета и онлайн систем, самих данных накопилось очень много. Теперь же интерес также представляет полноценный анализ архивов, а возможно и попытка прогнозирования ситуаций для подобных моделей в будущем.
С другой стороны, большие компании даже за несколько лет, месяцев или даже недель могут накапливать настолько большие массивы данных, что даже их элементарный анализ требует неординарных подходов и жестких аппаратных требований. Такими могут быть системы обработки банковских транзакций, биржевые агенты, телефонные операторы и т.д.
Думаю, всем хорошо известны 2 разных подхода построения дизайна баз данных: OLTP и OLAP. Первый подход (Online Transaction Processing — обработка транзакций в реальном времени) рассчитан на эффективный сбор данных в реальном времени, второй же (Online Analytical Processing – аналитическая обработка в реальном времени) нацелен именно на выборку и обработку данных максимально эффективным способом.

Давайте рассмотрим основные возможности современных OLAP кубов, и какие задачи они решают (за основу взяты Analysis Services 2005/2008):
  • быстрый доступ к данным
  • преагрегация
  • иерархии
  • работа с временем
  • язык доступа к многомерным данным
  • KPI (Key Performance Indicators)
  • дата майнинг
  • многоуровневое кэширование
  • поддержка мультиязычности

Читать дальше →
Всего голосов 62: ↑59 и ↓3 +56
Просмотры 107K
Комментарии 34

Обзор литературы по Data Mining

Data Mining *
Добрый день!

Публикация нескольких статей о Data Mining показала высокий интерес сообщества к данной теме. Много вопросов было задано по типу «где почитать» и «с чего начать». Предлагаю вашему вниманию подборку литературы, ресурсов для уверенного старта в данной области.

Читать дальше →
Всего голосов 54: ↑50 и ↓4 +46
Просмотры 62K
Комментарии 22

Одно слово для выпускника: статистика (перевод)

Data Mining *
Перевод
For Graduates, Just One Word: Statistics

 

Оригинал

Взял на себя смелость перевести интересную статью из The New York Times.


 

Закончив Гарвард по специальности  “Археология и антропология”, Кэрри Граймс изучала виды поселений Майя, отмечая на карте места, где были найдены  артефакты. Но потом ее увлекло то, что она называет “все эти математические и компьютерные штуки”, которые были частью ее работы.

Читать дальше →
Всего голосов 60: ↑52 и ↓8 +44
Просмотры 2.5K
Комментарии 34

Data Extracting SDK: Часть 1

Я пиарюсь
Data Extracting SDK написан на .NET Framework 3.5 и содержит средства для извлечения и анализа данных из текстовых файлов и web-ресурсов. Прислушиваясь к результатам опроса выкладываю первую версию Data Extracting SDK CTP (Community Technical Preview) на всеобщее обозрение.

Основные возможности:
  • Html Processing — загрузка, анализ html
  • DOM анализ — получение ссылок, изображений, таблиц
  • извлечение ссылок, фильтры, возможность написания своих фильтром, глубокий анализ сайта
  • извлечение электронных адресов, телефонов, urls и т.д.
  • анализ контента сайта (количество элементов, плотность слов)
  • возможности для SEO анализа
Остановимся на основных возможностях SDK.
Читать дальше →
Всего голосов 47: ↑37 и ↓10 +27
Просмотры 1.4K
Комментарии 24

«Бизнес в обществе информации» — в Москве и Самаре

Чулан
image

Последние пять лет я внимательно наблюдаю за изменениями в обществе, за новыми технологиями, которые его меняют, за всякого рода «социальными маркетингами», «новыми медия» и т.п., в том числе. Немало в этом мне помогает Хабр.

У меня есть четкая уверенность — в ближайшие 10 лет мир сильно изменится. И эти изменения затронут бизнес. Да так затронут, что от многих камня на камне не останется. Собственно говоря, я и кризис не считаю кризисом. Для меня это долгожданное начало изменений.

Я работаю в сфере маркетинга, занимаюсь бизнес-консультированием, создаю бренды. Я не привык хранить знания, как Кощей смерть, поэтому я ими делюсь.

При поддержке бизнес-школы AIBEc (MBA) в Москве (1 февраля) и ТО «Новые Реагенты» в Самаре (30 января) я прочитаю лекцию. О том, что такое «общество информации» и что нужно менять в бизнесе уже сегодня, чтобы не оказаться вне бизнеса уже завтра.

Приглашаю.

Подробная программа под катом.

Читать дальше →
Всего голосов 22: ↑5 и ↓17 -12
Просмотры 186
Комментарии 4

Миллион книг и как их не читать

Чулан
Мир и любовь братьям-айтишникам от гуманитариев!

Решила поведать о том, как IT применяются (с пользой!) в сфере гуманитарных наук.

image

Million books — название проекта Google по оцифровке книг, результаты которого все видят в Google Books. Миллион книг был успешно переведён в электронный формат в 2007 году. Теперь новая задача Google — оцифровать 30 миллионов книг.

А перед гуманитариями встал новый вопрос: что теперь делать со всем этим морем литературы? Что делать с миллионами книг, которые публикуются в наше время?

Во-первых, ясно, что прочитать миллион книг нельзя.
Во-вторых, ясно, что гуманитарий прочитать это должен.
Ведь принципиальное отличие гуманитария от естественника — обязанность быть в курсе всего объёма художественной литературы. Пусть ты не читал «Калевалу», но ты должен представлять себе, о чём это и как это.

Что же делать?
Читать дальше →
Всего голосов 24: ↑18 и ↓6 +12
Просмотры 580
Комментарии 10

Data acquisition, часть 4

.NET *
В предыдущих частях я описал в общих чертах процесс сбора данных из веб-источников. В этом посте я покажу как сделать общий сервис (generic host) для процессирования различных сайтов с использованием WatiN. Также, я затрону проблему многопоточности в использовании WatiN. Исходники, как всегда, тут.
Читать дальше →
Всего голосов 15: ↑10 и ↓5 +5
Просмотры 1.5K
Комментарии 0

Data Mining: что внутри

Data Mining *

Уровни информации


Я не думаю, что открою Америку, если скажу, что не вся информация одинаково полезна. Иногда для объяснения какого-то понятия необходимо написать много текста, а иногда для объяснения сложнейших вопросов достаточно посмотреть на простую диаграмму. Для сокращения избыточности информации были придуманы математические формулы, чертежи, условные обозначения, программный код и т.д. Кроме того, важным является не только сама информация, но и ее представление. Понятно, что котировки акций более наглядно можно продемонстрировать с помощью графика, а математические формулы опишут законы Ньютона в более компактном виде.
Читать дальше →
Всего голосов 84: ↑70 и ↓14 +56
Просмотры 43K
Комментарии 47

Подходы к извлечению данных из веб-ресурсов

Data Mining *
В предыдущей статье мы рассмотрели основные понятия и термины в рамках технологии Data Mining. Сегодня более детально остановимся на Web Mining и подходах к извлечению данных из веб-ресурсов.

Web Mining — это процесс извлечения данных из веб-ресурсов, который, как правило, имеет больше практическую составляющую нежели теоретическую. Основная цель Web Mining — это сбор данных (парсинг) с последующим сохранением в нужном формате. Фактически, задача сводится к написанию HTML парсеров, и как раз об этом поговорим более детально.
Читать дальше →
Всего голосов 51: ↑34 и ↓17 +17
Просмотры 68K
Комментарии 45

Обзор алгоритмов кластеризации данных

Data Mining *
Приветствую!

В своей дипломной работе я проводил обзор и сравнительный анализ алгоритмов кластеризации данных. Подумал, что уже собранный и проработанный материал может оказаться кому-то интересен и полезен.
О том, что такое кластеризация, рассказал sashaeve в статье «Кластеризация: алгоритмы k-means и c-means». Я частично повторю слова Александра, частично дополню. Также в конце этой статьи интересующиеся могут почитать материалы по ссылкам в списке литературы.

Так же я постарался привести сухой «дипломный» стиль изложения к более публицистическому.
Читать дальше →
Всего голосов 82: ↑78 и ↓4 +74
Просмотры 329K
Комментарии 41

Как информация меняет нашу жизнь, 10 примеров

Data Mining *
Перевод
image
Социальный Лондон, проект Anil Bawa-Cavia, из University College London.

Доступность большого количества совершенно новых типов данных меняет коренным образом то как мы живем. Ниже приведено 10 примеров использования новой информации, которая меняет все, начиная от того как мы оцениваем войну, вплоть до способов доставки молока.

Торговля

Супермаркеты всегда следили за тем как покупатели совершают покупки, но в последние несколько лет количество и виды собираемой информации резко возросли. Tesco обладает большей частью акций в компании Dunnhumby Ltd, которая занимается дата майнингом и анализом информации, для большого количества компаний, занимающихся торговлей, включая: Coca-Cola, BT, Mars, Vodafone, и другие лидирующие бренды. Dunnhumby использует в своей работе информацию собранную с помощью клубных карт Tesco Clubcard, благодаря ей Tesco может прогнозировать когда люди пойдут за покупками, как они буду оплачивать свои покупки и даже количество калорий которое собираются потребить.
Dunnhumby недавно сообщил о 32 процентном росте операционной прибыли до £53.4 миллионов. Количество сотрудников компании выросло с 300, когда компания начинала в 2007, до 1250 в этом году. Информация собираемая Dunnhumby изменила то, как мы совершаем покупки.
Читать дальше →
Всего голосов 84: ↑77 и ↓7 +70
Просмотры 3.2K
Комментарии 12

Использование коэффициента Танимото для поиска людей с одинаковыми предпочтениями

Алгоритмы *
Из песочницы
Решая упражнения к книге «Программируем коллективный разум», я решил поделиться реализацией одного из алгоритмов упомянутого в этой книге (Глава 2 — Упражнение 1).

Исходные условия следующие: пусть мы имеем словарь с оценками критиков:

critics={'Lisa Rose'{'Superman Returns'3.5'You, Me and Dupree'2.5'The Night Listener'3.0}
           'Gene Seymour'
{'Superman Returns'5.0'The Night Listener'3.5'You, Me and Dupree'3.5}}

Чем выше оценка, тем больше нравится фильм.
Надо вычислить: насколько схожи интересы критиков для того, например, чтобы можно было на основе оценок одного рекомендовать фильмы другому?

Читать дальше →
Всего голосов 109: ↑100 и ↓9 +91
Просмотры 9.8K
Комментарии 22

Классификация данных методом опорных векторов

Data Mining *
Из песочницы
Добрый день!

В данной статье я хочу рассказать о проблеме классификации данных методом опорных векторов (Support Vector Machine, SVM). Такая классификация имеет довольно широкое применение: от распознавания образов или создания спам-фильтров до вычисления распределения горячих аллюминиевых частиц в ракетных выхлопах.

Сначала несколько слов об исходной задаче. Задача классификации состоит в определении к какому классу из, как минимум, двух изначально известных относится данный объект. Обычно таким объектом является вектор в n-мерном вещественном пространстве . Координаты вектора описывают отдельные аттрибуты объекта. Например, цвет c, заданный в модели RGB, является вектором в трехмерном пространстве: c=(red, green, blue).

Читать дальше →
Всего голосов 82: ↑78 и ↓4 +74
Просмотры 116K
Комментарии 27

Классификация и выделение объектов на изображениях

Обработка изображений *
Из песочницы
Здрайствуйте!
В связи со сферой своей деятельности, собрался, на мой взгляд, очень ценный материал, которым хочу поделиться с вами. Думаю некоторым он будет крайне важен и полезен, возможно мои наработки сэкономят Вам время, в случае чего буду рад. И так ближе к делу. На Хабре уже есть хороший обзор алгоритмов кластеризации данных. Детально рассмотрена теория, но практических результатов нет, как обычно практика не так легка, как кажется. Поэтому хочу представить вашему сведению реальные результаты, проблемы и их решений возникшее при кластеризации (точней сказать сегментации, потому что объект кластеризации — статическое изображение). Под катом будет и сегментация, и цифровая обработка изображений. Прошу…

Читать дальше
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 30K
Комментарии 7