@alexius2^{read⁠-⁠only}

User

sashaeve Aug 8 2009 at 11:11

Обзор литературы по Data Mining

7 min

66K

Добрый день!

Публикация нескольких статей о Data Mining показала высокий интерес сообщества к данной теме. Много вопросов было задано по типу «где почитать» и «с чего начать». Предлагаю вашему вниманию подборку литературы, ресурсов для уверенного старта в данной области.

Читать дальше →

+46

Vitko Aug 6 2009 at 01:26

Многомерные кубы, OLAP и MDX

5 min

120K

SQL*

Довольно давно являюсь обитателем Хабра, но так и не доводилось читать статьи на тему многомерных кубов, OLAP и MDX, хотя тема очень интересная и с каждым днем становится все более актуальной.
Не секрет, что за тот небольшой промежуток времени развития баз данных, электронного учета и онлайн систем, самих данных накопилось очень много. Теперь же интерес также представляет полноценный анализ архивов, а возможно и попытка прогнозирования ситуаций для подобных моделей в будущем.
С другой стороны, большие компании даже за несколько лет, месяцев или даже недель могут накапливать настолько большие массивы данных, что даже их элементарный анализ требует неординарных подходов и жестких аппаратных требований. Такими могут быть системы обработки банковских транзакций, биржевые агенты, телефонные операторы и т.д.
Думаю, всем хорошо известны 2 разных подхода построения дизайна баз данных: OLTP и OLAP. Первый подход (Online Transaction Processing — обработка транзакций в реальном времени) рассчитан на эффективный сбор данных в реальном времени, второй же (Online Analytical Processing – аналитическая обработка в реальном времени) нацелен именно на выборку и обработку данных максимально эффективным способом.

Давайте рассмотрим основные возможности современных OLAP кубов, и какие задачи они решают (за основу взяты Analysis Services 2005/2008):

быстрый доступ к данным
преагрегация
иерархии
работа с временем
язык доступа к многомерным данным
KPI (Key Performance Indicators)
дата майнинг
многоуровневое кэширование
поддержка мультиязычности

Читать дальше →

+56

sashaeve Aug 4 2009 at 16:58

Очищаем веб-страницы от информационного шума

5 min

3.7K

Data Mining*

Приветствую всех!

Предыдущие мои статьи были, в основном, о теоретической части Data Mining, сегодня хочу рассказать о практическом примере, который используется в кандидатской диссертации (в связи с этим данный пример на данном этапе развития нельзя считать полноценным работающим проектом, но прототипом его считать можно).

Будем очищать веб-страницы от «информационного шума».

Читать дальше →

+40

LaggyLuke Jun 1 2009 at 20:02

Наследование конфигов в Zend_Config

5 min

1.8K

Zend Framework*

Для тех, кому лень читать длинное предисловие: перемотайте до последней части «Простая идея, которая пришла мне в голову».
Я хотел поставить якорь, но хабрапарсер не разрешает :(

Zend_Config и секции

Официальная документация Zend Framework советует разделить конфигурационный файл на несколько секций, каждая из которых будет отвечать за разную среду, в которой должен работать проект.
При этом, одна секция конфига может наследовать другую, переопределяя только те параметры, которые должны быть изменены.

На первый взгляд, такая идея кажется разумной, но я столкнулся с некоторыми ограничениями этого подхода…

Читать дальше →

+18

Skaizer Aug 1 2009 at 09:31

Поиск нечетких дубликатов. Алгоритм шинглов для веб-документов

4 min

45K

Algorithms*

Ранее я показал элементарную реализацию алгоритма шинглов, позволяющую определять, являются ли два документа почти дубликатами или нет. В этот раз я поясню реализацию алгоритма, описанную Зеленковым Ю. Г. и Сегаловичем И.В. в публикации «Сравнительный анализ методов определения нечетких дубликатов для Web-документов».
Этим я начинаю серию из трех теоретических статей, в которых постараюсь доступным языком описать принцип алгоритмов шинглов, супершинглов и мегашинглов для сравнение веб-документов.

Читать дальше →

+51

103

yanajy Aug 1 2009 at 12:06

Как правильно говорить с «трудным» клиентом

3 min

63K

GTD*

Многим из нас время от времени попадаются «привередливые», «неадекватные» и «трудные» заказчики, партнёры, начальники, подчинённые и т.д. В этом посте я расскажу:

Как добиться своего в конфликтных ситуациях
Как вести разговор, не вызывая негативной реакции собеседника
Как держать конфликтную ситуацию под контролем
Как не допустить развития конфликта и как его устранить

Читать дальше →

+78

Rebus Jul 30 2009 at 17:50

Кешируем блоки HTML при помощи nginx

3 min

7.1K

Nginx*

Не секрет, что пользователи любят, когда контент на сайте обновляется чаще, чем раз в год. Эту любовь пользователей к динамическим страничкам разделяют и поисковики. Google, например, умеет определять наличие обновляющихся блоков на страничке и добавляет ей немного кармы (читай, PR).

Однако динамический контент довольно плохо сочетается с большими нагрузками. Для веб-сервера, отдача статической странички — намного более простая задача, чем запуск кода, который сгенерит эту страничку динамически. В некоторых случаях может выручить прегенерация всех возможных вариантов странички, но это не спасёт, если их слишком много, или страница обновляется слишком часто.

продолжение

+79

vadimus Jul 30 2009 at 10:22

Управление космическим кораблем с непонятными модулями, или как я боролся с друпалом

6 min

2.8K

Drupal*

Навеяно вот этим постом.

В 80-х годах все мечтали о японском магнитофоне. В начале 90-х появилась на рынке и другая техника, и Bang & Olufsen как-то съехидничало:

— Если вы хотите, что бы ваш магнитофон выглядел как приборная панель космического аппарата, покупайте магнитофон японского производства. Если вы хотите просто насладиться музыкой, покупайте нашу технику (цитата не точная).

С тех пор, как начал изучать Друпал, все время не могу избавиться от ощущения, что я за приборной доской необъятных размеров, что никогда точно не знаю, на какую кнопку надо нажимать, как тот инопланетянин из мультика Пиксар.

Как я боролся с Друпалом

+28

neochief Jul 29 2009 at 12:35

Чеклист запуска сайта

3 min

25K

Website development*

Этот чеклист будет полезен всем, кто запускает сайты или следит за этим увлекательным процессом. Ничего не пропустите!

Читать дальше →

+112

Gumoza Jul 29 2009 at 07:31

Бизнес кейсы использования Data Mining. Часть 1

3 min

13K

Data Mining*

Привет, хабр.
Очень рад, что тема Data Mining интересна сообществу.

В данном топике (а если понравится, — в серии топиков) расскажу, какие примеры использования Data Mining есть в Российском и не только бизнесе. Почему я пишу об этом? Я работаю в компании, которая тесно связана с ВЦ РАН (Вычислительный центр Российской академии наук), что позволяет нам иметь отличный научно-исследовательский отдел и разрабатывать новые проекты, применяя отечественные достижения в математике. В данном топике будет больше бизнеса, чем науки, но если последняя все же вас интересует, тогда вам сюда: mmro.ru или сюда: www.machinelearning.ru

Итак, поехали:

Читать дальше →

+44

CTAPuKAH Jul 28 2009 at 04:35

Просимся в поиск к пользователю с помощью OpenSearch

2 min

12K

Website development*

На картинке есть одна деталь, которую не все замечают. Подсветка стрелки выпадающего меню. Значит сайт, на котором вы находитесь, предлагает добавление поискового плагина. Работает в Firefox и IE.

Как это сделать на примере Хабрапоиска

+72

sashaeve Jul 26 2009 at 19:30

Извлечение данных или знаний?

3 min

12K

Data Mining*

Приветствую!

Стало любопытно, насколько представлена тема Data Mining на хабре. Увидел лишь одну статью, посвященную данной тематике. Хочу сделать свой небольшой вклад в развитие данной темы.

Исторически сложилось, что у термина Data Mining есть несколько вариантов перевода:

извлечение данных
извлечение знаний, интеллектуальный анализ данных

Если говорить о способах реализации, то первый вариант относиться к прикладной области, второй — к математике и науке, и, как правило, они мало пересекаются. Если говорить о возможности применения — тут вариантов очень много. Так получилось, что я работал как с первым вариантом (в университете — научная работа), так и с другим (работа, фриланс). Рассмотрим подробнее.

Извлечение данных

Извлечение данных — это процесс нахождения, сбора информации, а также сохранения (конвертация) их в разных форматах. По простому, программы для извлечения данных называют парсерами (parser), граберами (grabber), спайдерами (spider), кроулерами (crawler) и т.д. Фактически, такие программы существенно облегчают всем жизнь, так как позволяют систематизировать данные (именно данные, а не знания!). Такие программы могут собирать адреса компаний в вашей отрасли, ссылки из нужных форумов, парсить целые каталоги, также могут служить отличным средством для составления баз данных.

Читать дальше →

+55

AlexSam Jul 22 2009 at 09:16

MoneyBookers ч. 1

5 min

7.2K

Payment systems*

По просьбе слушателей пишу о работе с такой, на мой взгляд очень перспективной на просторах СНГ, платежной системой как MoneyBookers.

Сразу сделаю небольшую оговорочку — я из просторов Украины, поэтому мой опыт связан по большей части с этой страной, но на сколько я знаю, система работает идентично и для России.

И еще, я решил «начать все сначала», т.е. что-то типа «MoneyBookers для чайников», так что если вы пользуетесь системой уже давно, то вряд ли вам что-то будет в новинку.

Итак, поехали

+41

XaocCPS Jul 22 2009 at 09:03

Вышел Expression Web 3 + SuperPreview

1 min

1.6K

Website development*

Наконец-то, после появления Blend 3 RC, стал доступен Expression Web 3 Trial. Все бы ничего, но вместе с Expression Web 3 идет инструмент SuperPreview, который меняет представление о тестировании разметки в браузерах. Ранее уже писалось об этом инструменте, но он был доступен только для браузеров Internet Explorer. Теперь же появилась полноценная поддержка Firefox (и последних версий тоже).

На скриншоте вы видите работу инструмента: сайт habrahabr для примера. Сравнивается разметка, эталлоном выбран Firefox, на стороне рендеринга IE8 отображается отклонение выбранного элемента разметки. Сравнивать можно с загружаемым исходным изображением, а не только результатом работы браузера.

Поддерживаются браузеры Firefox и IE. В скором времени будет добавлена поддержка Safari. Expression Web — это платное ПО с триалом на 60 дней.

PS: это очень удобно!
PS: в комментариях сообщили что вышла вся линейка Expression! Скачать всю студию разом можно тут www.microsoft.com/expression/try-it/Default.aspx?filter=studio3

+43

frujo Jul 21 2009 at 10:25

Простой способ провести CSS-debug

1 min

7.1K

CSS*

Болтаясь сегодня по интернету в поисках чего-нибудь интересненького, наткнулся на вот такой простой (и столь же замечательный в своей простоте) способ отыскать «неполадку» в верстке.

CSS

* { outline: 2px dotted red; } * * { outline: 2px dotted green; } * * * { outline: 2px dotted orange; } * * * * { outline: 2px dotted blue; } * * * * * { outline: 1px solid red; } * * * * * * { outline: 1px solid green; } * * * * * * * { outline: 1px solid orange; } * * * * * * * * { outline: 1px solid blue; }

Цвет, тип и размер обводки каждый может выбрать по вкусу.

Поддержка браузерами:

К сожалению, в браузерах от Microsoft версий 6 и 7 (в 8-й — все окей) свойство outline не поддерживается. Для них, пожалуй, придется использовать border.

+89

mecommayou Jul 18 2009 at 10:30

1.9.0 Alpha

1 min

559

Zend Framework*

Translation

Команда Zend Framework объявила о доступности превью версии 1.9.0, находящейся, как обычно, по ардесу: framework.zend.com/download/latest, поскольку релиз не стабильный, он не будет размещен в CDN. В предварительном релизе продемонстрированы многие новые функции, которые будут в предстоящем стабильном релизе:

Читать дальше →

mefa Apr 20 2009 at 17:33

Системы рекоммендаций: советы от машины

3 min

2.5K

Data Mining*

^{Системы рекомендаций:

— Советы от машины

— Холодное начало

— Введение в гибридные системы

— искусственные имунные системы и эффект идиотипов}

Многие современные тенденции веб дизайна направлены на то, чтобы помочь пользователю лучше ориентироваться и по возможности облегчить выбор и принятие решений. Есть множество явных и неявных способов способов направлять и манипулировать поведением пользователя, фокусировать его внимание на нужных аспектах системы и влиять на принимаемые им решения. Но возможно ли, а главное, нужно ли избавить пользователя от необходимости выбора? Можно ли доверить часть решений автоматизированным системам рекомендаций?

Краткое введение

Хорошее и лаконичное определение системе рекомендаций дает Википедия:
Системы рекомендаций — это особенный вид техники фильтрации информации стремящийся представлять информацию (фильмы, музыку, книги, изображения, веб сайты и тп), которая скорее всего заинтересует пользователя. Обычно система рекомендаций сравнивает профиль пользователя с какой-то справочной информацией и старается предсказать «рейтинг», который пользователь даст объекту, над которым он еще даже не думал.

Читать дальше →

aleks_raiden Dec 1 2008 at 09:51

Краткий обзор MQ (Messages queue) для применения в проектах на РНР. Часть 2

4 min

7.3K

High performance*

Мы продолжаем исследовать тему такого класса ПО как очереди сообщений применительно к РНР веб-системам. В прошлой статье мы рассмотрели некоторое ПО, в частности представителей как самой верхней области (Apache Active MQ, возможности которого находятся на уровне уже корпоративного ПО), так и достаточно простые варианты, например, MQS. Но не рассмотренными остались еще несколько достаточно интересных проектов, так что наше исследование продолжается.

Читать дальше →

+19

aleks_raiden Nov 18 2008 at 15:22

Краткий обзор MQ (Messages queue) для применения в проектах на РНР. Часть 1

4 min

99K

High performance*

Параллельно к основной работе, я в «фоне» обдумываю и прикидываю реализации архитектуры для игровых проектов (напомню, что основная область моих интересов и работ — создание онлайновых браузерных игр). Последнее время я все чаще и чаще возвращаюсь к мысли, что интересно было бы реализовать основной игровой сервер на основе очередей сообщений (MQ или Messages queue). То есть, движок такой игры будет представлять собой набор компонентов, которые будут общаться между собой посредством асинхронных сообщений, а каждый компонент может быть как генератором сообщений, так и подписчиком, то есть исполнять другие сообщения.

Такой подход, насколько я понимаю, широко применяется в мире Java, там для этого есть стандарт Java Message Service (JMS) и применяются брокеры сообщений и на этом базируется архитектура Enterprise service bus (ESB), например, Apache ServiceMix. Но для нас это пока высокая сфера крупных проектов, а в специфике веба и веб-ориентированных приложений я бы хотел рассмотреть, можно ли что-то сделать подобное, но с меньшими затратами и обеспечить приложению отказоустойчивость, распределение нагрузки и асинхронную обработку. И конечно, очень желательно, чтобы это было реализовано на РНР как основном языке реализации всех компонентов сервера.

Читать дальше →

+41

rssbot Jul 16 2009 at 11:52

Делайте грамотные сайты с API Яндекс.Спеллера

1 min

3.5K

Яндекс corporate blog

Translation

Яндекс предоставил открытый доступ к API сервиса Яндекс.Спеллер, созданного для проверки правописания. Теперь каждый желающий может установить этот сервис у себя на сайте.

Технология Яндекс.Спеллера применяется в Яндекс.Почте и в Яндекс.Баре. Инструмент содержит самый большой в Рунете словарь русского языка – 3,6 млн словоформ.

Анализ статистики употребления слов, лежащий в основе сервиса, помогает максимально точно проверять слова и выбирать варианты для подсказки. У Спеллера – очень широкий для интернет-приложений набор опций, благодаря чему вы можете выбрать удобные для себя настройки.

Одной из особенностей Спеллера, как и других API-инструментов Яндекса, является простота в использовании и управлении. Чтобы встроить на свой сайт веб-клиент, требуется выполнить несколько несложных действий.

Язык – живая система, поэтому в будущем функционал инструмента будет расширяться и дополняться.

Сделайте свой сайт не только интересным, но и грамотным.

Алексей Байтин и команда исправления опечаток

+66

1 2 ...

27 28