Pull to refresh
0
@alexius2read⁠-⁠only

User

Send message

Разворачивание коротких ссылок в Firefox

Reading time4 min
Views6K
В какой-то момент мне надоело, что сервисы сокращения ссылок посылают меня неизвестно куда. Не так давно я писал о pdf эксплойте, и риск наткнуться на такое чудо, кликая по короткой ссылке в чьём-нибудь твиттере меня совершенно не радовала.

Способов бороться с этим я нашёл два: разворачивание ссылок и контроль переходов (коды HTTP 3xx).
Читать дальше →
Total votes 43: ↑39 and ↓4+35
Comments16

Обзор литературы по Data Mining

Reading time7 min
Views66K
Добрый день!

Публикация нескольких статей о Data Mining показала высокий интерес сообщества к данной теме. Много вопросов было задано по типу «где почитать» и «с чего начать». Предлагаю вашему вниманию подборку литературы, ресурсов для уверенного старта в данной области.

Читать дальше →
Total votes 54: ↑50 and ↓4+46
Comments22

Многомерные кубы, OLAP и MDX

Reading time5 min
Views119K
OLAP Довольно давно являюсь обитателем Хабра, но так и не доводилось читать статьи на тему многомерных кубов, OLAP и MDX, хотя тема очень интересная и с каждым днем становится все более актуальной.
Не секрет, что за тот небольшой промежуток времени развития баз данных, электронного учета и онлайн систем, самих данных накопилось очень много. Теперь же интерес также представляет полноценный анализ архивов, а возможно и попытка прогнозирования ситуаций для подобных моделей в будущем.
С другой стороны, большие компании даже за несколько лет, месяцев или даже недель могут накапливать настолько большие массивы данных, что даже их элементарный анализ требует неординарных подходов и жестких аппаратных требований. Такими могут быть системы обработки банковских транзакций, биржевые агенты, телефонные операторы и т.д.
Думаю, всем хорошо известны 2 разных подхода построения дизайна баз данных: OLTP и OLAP. Первый подход (Online Transaction Processing — обработка транзакций в реальном времени) рассчитан на эффективный сбор данных в реальном времени, второй же (Online Analytical Processing – аналитическая обработка в реальном времени) нацелен именно на выборку и обработку данных максимально эффективным способом.

Давайте рассмотрим основные возможности современных OLAP кубов, и какие задачи они решают (за основу взяты Analysis Services 2005/2008):
  • быстрый доступ к данным
  • преагрегация
  • иерархии
  • работа с временем
  • язык доступа к многомерным данным
  • KPI (Key Performance Indicators)
  • дата майнинг
  • многоуровневое кэширование
  • поддержка мультиязычности

Читать дальше →
Total votes 62: ↑59 and ↓3+56
Comments34

Очищаем веб-страницы от информационного шума

Reading time5 min
Views3.6K
Приветствую всех!

Предыдущие мои статьи были, в основном, о теоретической части Data Mining, сегодня хочу рассказать о практическом примере, который используется в кандидатской диссертации (в связи с этим данный пример на данном этапе развития нельзя считать полноценным работающим проектом, но прототипом его считать можно).

Будем очищать веб-страницы от «информационного шума».

Читать дальше →
Total votes 58: ↑49 and ↓9+40
Comments33

Наследование конфигов в Zend_Config

Reading time5 min
Views1.8K
Для тех, кому лень читать длинное предисловие: перемотайте до последней части «Простая идея, которая пришла мне в голову».
Я хотел поставить якорь, но хабрапарсер не разрешает :(

Zend_Config и секции


Официальная документация Zend Framework советует разделить конфигурационный файл на несколько секций, каждая из которых будет отвечать за разную среду, в которой должен работать проект.
При этом, одна секция конфига может наследовать другую, переопределяя только те параметры, которые должны быть изменены.

На первый взгляд, такая идея кажется разумной, но я столкнулся с некоторыми ограничениями этого подхода…
Читать дальше →
Total votes 28: ↑23 and ↓5+18
Comments21

Поиск нечетких дубликатов. Алгоритм шинглов для веб-документов

Reading time4 min
Views45K
Ранее я показал элементарную реализацию алгоритма шинглов, позволяющую определять, являются ли два документа почти дубликатами или нет. В этот раз я поясню реализацию алгоритма, описанную Зеленковым  Ю. Г. и Сегаловичем И.В. в публикации «Сравнительный анализ методов определения нечетких дубликатов для Web-документов».
Этим я начинаю серию из трех теоретических статей, в которых постараюсь доступным языком описать принцип алгоритмов шинглов, супершинглов и мегашинглов для сравнение веб-документов.
Читать дальше →
Total votes 55: ↑53 and ↓2+51
Comments103

Как правильно говорить с «трудным» клиентом

Reading time3 min
Views63K
Многим из нас время от времени попадаются «привередливые», «неадекватные» и «трудные» заказчики, партнёры, начальники, подчинённые и т.д. В этом посте я расскажу:
  • Как добиться своего в конфликтных ситуациях
  • Как вести разговор, не вызывая негативной реакции собеседника
  • Как держать конфликтную ситуацию под контролем
  • Как не допустить развития конфликта и как его устранить
Читать дальше →
Total votes 96: ↑87 and ↓9+78
Comments81

Кешируем блоки HTML при помощи nginx

Reading time3 min
Views7.1K
Не секрет, что пользователи любят, когда контент на сайте обновляется чаще, чем раз в год. Эту любовь пользователей к динамическим страничкам разделяют и поисковики. Google, например, умеет определять наличие обновляющихся блоков на страничке и добавляет ей немного кармы (читай, PR).

Однако динамический контент довольно плохо сочетается с большими нагрузками. Для веб-сервера, отдача статической странички — намного более простая задача, чем запуск кода, который сгенерит эту страничку динамически. В некоторых случаях может выручить прегенерация всех возможных вариантов странички, но это не спасёт, если их слишком много, или страница обновляется слишком часто.

продолжение
Total votes 81: ↑80 and ↓1+79
Comments60

Управление космическим кораблем с непонятными модулями, или как я боролся с друпалом

Reading time6 min
Views2.8K
Навеяно вот этим постом.

В 80-х годах все мечтали о японском магнитофоне. В начале 90-х появилась на рынке и другая техника, и Bang & Olufsen как-то съехидничало:

— Если вы хотите, что бы ваш магнитофон выглядел как приборная панель космического аппарата, покупайте магнитофон японского производства. Если вы хотите просто насладиться музыкой, покупайте нашу технику (цитата не точная).

С тех пор, как начал изучать Друпал, все время не могу избавиться от ощущения, что я за приборной доской необъятных размеров, что никогда точно не знаю, на какую кнопку надо нажимать, как тот инопланетянин из мультика Пиксар.
Как я боролся с Друпалом
Total votes 76: ↑52 and ↓24+28
Comments99

Бизнес кейсы использования Data Mining. Часть 1

Reading time3 min
Views13K
Привет, хабр.
Очень рад, что тема Data Mining интересна сообществу.

В данном топике (а если понравится, — в серии топиков) расскажу, какие примеры использования Data Mining есть в Российском и не только бизнесе. Почему я пишу об этом? Я работаю в компании, которая тесно связана с ВЦ РАН (Вычислительный центр Российской академии наук), что позволяет нам иметь отличный научно-исследовательский отдел и разрабатывать новые проекты, применяя отечественные достижения в математике. В данном топике будет больше бизнеса, чем науки, но если последняя все же вас интересует, тогда вам сюда: mmro.ru или сюда: www.machinelearning.ru

Итак, поехали:
Читать дальше →
Total votes 44: ↑44 and ↓0+44
Comments70

Просимся в поиск к пользователю с помощью OpenSearch

Reading time2 min
Views12K
Хабрапоиск
На картинке есть одна деталь, которую не все замечают. Подсветка стрелки выпадающего меню. Значит сайт, на котором вы находитесь, предлагает добавление поискового плагина. Работает в Firefox и IE.

Как это сделать на примере Хабрапоиска
Total votes 88: ↑80 and ↓8+72
Comments30

Извлечение данных или знаний?

Reading time3 min
Views11K
Приветствую!

Стало любопытно, насколько представлена тема Data Mining на хабре. Увидел лишь одну статью, посвященную данной тематике. Хочу сделать свой небольшой вклад в развитие данной темы.

Исторически сложилось, что у термина Data Mining есть несколько вариантов перевода:
  • извлечение данных
  • извлечение знаний, интеллектуальный анализ данных

Если говорить о способах реализации, то первый вариант относиться к прикладной области, второй — к математике и науке, и, как правило, они мало пересекаются. Если говорить о возможности применения — тут вариантов очень много. Так получилось, что я работал как с первым вариантом (в университете — научная работа), так и с другим (работа, фриланс). Рассмотрим подробнее.

Извлечение данных


Извлечение данных — это процесс нахождения, сбора информации, а также сохранения (конвертация) их в разных форматах. По простому, программы для извлечения данных называют парсерами (parser), граберами (grabber), спайдерами (spider), кроулерами (crawler) и т.д. Фактически, такие программы существенно облегчают всем жизнь, так как позволяют систематизировать данные (именно данные, а не знания!). Такие программы могут собирать адреса компаний в вашей отрасли, ссылки из нужных форумов, парсить целые каталоги, также могут служить отличным средством для составления баз данных.

Читать дальше →
Total votes 59: ↑57 and ↓2+55
Comments30

MoneyBookers ч. 1

Reading time5 min
Views7K
По просьбе слушателей пишу о работе с такой, на мой взгляд очень перспективной на просторах СНГ, платежной системой как MoneyBookers.

Сразу сделаю небольшую оговорочку — я из просторов Украины, поэтому мой опыт связан по большей части с этой страной, но на сколько я знаю, система работает идентично и для России.

И еще, я решил «начать все сначала», т.е. что-то типа «MoneyBookers для чайников», так что если вы пользуетесь системой уже давно, то вряд ли вам что-то будет в новинку.
Итак, поехали
Total votes 53: ↑47 and ↓6+41
Comments63

Вышел Expression Web 3 + SuperPreview

Reading time1 min
Views1.6K
Наконец-то, после появления Blend 3 RC, стал доступен Expression Web 3 Trial. Все бы ничего, но вместе с Expression Web 3 идет инструмент SuperPreview, который меняет представление о тестировании разметки в браузерах. Ранее уже писалось об этом инструменте, но он был доступен только для браузеров Internet Explorer. Теперь же появилась полноценная поддержка Firefox (и последних версий тоже).

image

На скриншоте вы видите работу инструмента: сайт habrahabr для примера. Сравнивается разметка, эталлоном выбран Firefox, на стороне рендеринга IE8 отображается отклонение выбранного элемента разметки. Сравнивать можно с загружаемым исходным изображением, а не только результатом работы браузера.

Поддерживаются браузеры Firefox и IE. В скором времени будет добавлена поддержка Safari. Expression Web — это платное ПО с триалом на 60 дней.

PS: это очень удобно!
PS: в комментариях сообщили что вышла вся линейка Expression! Скачать всю студию разом можно тут www.microsoft.com/expression/try-it/Default.aspx?filter=studio3
Total votes 77: ↑60 and ↓17+43
Comments32

Простой способ провести CSS-debug

Reading time1 min
Views7.1K
Болтаясь сегодня по интернету в поисках чего-нибудь интересненького, наткнулся на вот такой простой (и столь же замечательный в своей простоте) способ отыскать «неполадку» в верстке.

CSS

* { outline: 2px dotted red; }
* * { outline: 2px dotted green; }
* * * { outline: 2px dotted orange; }
* * * * { outline: 2px dotted blue; }
* * * * * { outline: 1px solid red; }
* * * * * * { outline: 1px solid green; }
* * * * * * * { outline: 1px solid orange; }
* * * * * * * * { outline: 1px solid blue; }
Цвет, тип и размер обводки каждый может выбрать по вкусу.

Поддержка браузерами:


Firefox Opera Google Chrome Safari

К сожалению, в браузерах от Microsoft версий 6 и 7 (в 8-й — все окей) свойство outline не поддерживается. Для них, пожалуй, придется использовать border.
Total votes 103: ↑96 and ↓7+89
Comments56

1.9.0 Alpha

Reading time1 min
Views546
Команда Zend Framework объявила о доступности превью версии 1.9.0, находящейся, как обычно, по ардесу: framework.zend.com/download/latest, поскольку релиз не стабильный, он не будет размещен в CDN. В предварительном релизе продемонстрированы многие новые функции, которые будут в предстоящем стабильном релизе:
Читать дальше →
Total votes 10: ↑7 and ↓3+4
Comments17

Системы рекоммендаций: советы от машины

Reading time3 min
Views2.5K
Системы рекомендаций:
— Советы от машины
Холодное начало
Введение в гибридные системы
искусственные имунные системы и эффект идиотипов


Многие современные тенденции веб дизайна направлены на то, чтобы помочь пользователю лучше ориентироваться и по возможности облегчить выбор и принятие решений. Есть множество явных и неявных способов способов направлять и манипулировать поведением пользователя, фокусировать его внимание на нужных аспектах системы и влиять на принимаемые им решения. Но возможно ли, а главное, нужно ли избавить пользователя от необходимости выбора? Можно ли доверить часть решений автоматизированным системам рекомендаций?

Краткое введение


Хорошее и лаконичное определение системе рекомендаций дает Википедия:
Системы рекомендаций — это особенный вид техники фильтрации информации стремящийся представлять информацию (фильмы, музыку, книги, изображения, веб сайты и тп), которая скорее всего заинтересует пользователя. Обычно система рекомендаций сравнивает профиль пользователя с какой-то справочной информацией и старается предсказать «рейтинг», который пользователь даст объекту, над которым он еще даже не думал.
Читать дальше →
Total votes 6: ↑5 and ↓1+4
Comments9

Краткий обзор MQ (Messages queue) для применения в проектах на РНР. Часть 2

Reading time4 min
Views7.3K
Мы продолжаем исследовать тему такого класса ПО как очереди сообщений применительно к РНР веб-системам. В прошлой статье мы рассмотрели некоторое ПО, в частности представителей как самой верхней области (Apache Active MQ, возможности которого находятся на уровне уже корпоративного ПО), так и достаточно простые варианты, например, MQS. Но не рассмотренными остались еще несколько достаточно интересных проектов, так что наше исследование продолжается.
Читать дальше →
Total votes 25: ↑22 and ↓3+19
Comments6

Information

Rating
Does not participate
Registered
Activity