Обновить
65
0
Дмитрий Ейбоженко@Meroving

Пользователь

Отправить сообщение

Извлечение данных или знаний?

Время на прочтение3 мин
Охват и читатели12K
Приветствую!

Стало любопытно, насколько представлена тема Data Mining на хабре. Увидел лишь одну статью, посвященную данной тематике. Хочу сделать свой небольшой вклад в развитие данной темы.

Исторически сложилось, что у термина Data Mining есть несколько вариантов перевода:
  • извлечение данных
  • извлечение знаний, интеллектуальный анализ данных

Если говорить о способах реализации, то первый вариант относиться к прикладной области, второй — к математике и науке, и, как правило, они мало пересекаются. Если говорить о возможности применения — тут вариантов очень много. Так получилось, что я работал как с первым вариантом (в университете — научная работа), так и с другим (работа, фриланс). Рассмотрим подробнее.

Извлечение данных


Извлечение данных — это процесс нахождения, сбора информации, а также сохранения (конвертация) их в разных форматах. По простому, программы для извлечения данных называют парсерами (parser), граберами (grabber), спайдерами (spider), кроулерами (crawler) и т.д. Фактически, такие программы существенно облегчают всем жизнь, так как позволяют систематизировать данные (именно данные, а не знания!). Такие программы могут собирать адреса компаний в вашей отрасли, ссылки из нужных форумов, парсить целые каталоги, также могут служить отличным средством для составления баз данных.

Читать дальше →

System.Addin или «Игры с надёжными плагинами». Часть 1

Время на прочтение4 мин
Охват и читатели3.7K
Введение.

Доброго времени суток. Я думаю, что абсолютное большинство из вас сталкивалось с проблемой расширяемости приложений. Точно также я думаю, что многим из вас приходилось копать Reflection для выяснения того, является ли сборка плагином к вашей программе. Многим не нравилось то, что в .NET сборки по умолчанию загружаются в один домен с приложением, а затем их нельзя было выгрузить. Многие, конечно, создавали объекты в отдельных доменах через CreateInstanceAndUnwrap, но всё это приходилось делать руками. В общем «мыши плакали и кололись…». С появлением System.Addin разработчики получили в свои руки инструмент для создания расширяемого приложения, который лишён этих проблем, что называется, «из коробки». Об этой технологии я и расскажу в нескольких статьях.
Читать дальше →

IronPython как движок для макросов в .NET приложениях

Время на прочтение6 мин
Охват и читатели12K
Подозреваю, многие из вас задумывались — как можно в .NET приложение добавить поддержку макросов — чтобы можно было расширять возможности программы без ее перекомпиляции и предоставить сторонним разработчикам возможность легко и просто получить доступ к API вашего приложения? В статье рассмотрено, как в качестве основы для выполнения макросов использовать IronPython — реализацию языка Python на платформе .NET.
Читать

Учебник по языку программирования Python (хабраиндекс)

Время на прочтение1 мин
Охват и читатели315K

Owlread — клиент для Твиттера в Google Apps стиле

Время на прочтение2 мин
Охват и читатели578
OwlRead logoДостаточно давно начал пользоваться Твиттером и обнаружил, что это просто прекрасное средство быстрого получение информации, позволяет буквально каждую секунду быть в курсе событий и новостей. Проблема была одна — я не нашел (на тот момент), приятных и удобных клиентов, подходящих под мои требования:
  1. Клиент должен быть онлайн. Я давний сторонник приложений в онлайне, поэтому активно пользуюсь Google Apps. Ведь так удобно сесть за любое компьютер, подключенный к интернету, и получить свою любимую рабочую среду.
  2. Клиент должен уметь разбивать друзей в Твиттере на группы. Вы пробовали когда-нибудь читать ленту сообщений в твиттере от 50 друзей? А от 100? Забегая вперёд скажу, что разбитые по тематикам они читаются гораздо лучше.
  3. Клиент должен уметь работать с несколькими аккаунтами. Я веду несколько аккаунтов в Твиттере и хотелось постить и отвечать с одного места.
  4. Клиент должен уметь работать с ветками в Твиттере. Да, в Твиттере есть возможность ветвистых дискуссий, такие же как комментарии на Хабре.
  5. Клиент должен иметь удобный интерфейс. На мой взгляд, Google Reader имеет замечательный интерфейс, удобный для чтения новостей.

Итак, решение было принято сразу — необходимо создать свой велосипедклиент для Твиттера.
Что получилось

Windows Azure + WPF + Wikipedia = Wikipedia Explorer

Время на прочтение1 мин
Охват и читатели1.2K
Dot Net Solutions, совместно с командой евангелистов Microsoft из Рэдмонда и Monochrome выпустили новую версию WPF-приложения Wikipedia Explorer, активно использующего Windows Azure.

Что из себя представляет Wikipedia Explorer?
Это приложение для визуализации связей между статьями Википедии, построенное на мощной технологии Windows Presentation Foundation.

Причем здесь Windows Azure?
Оригинальная версия приложения подгружала информацию с Википедии налету. Это оказалось довольно медленным процессом. Теперь же нагрузку можно разделить на большое число мощных серверов, что заметно увеличивает быстродействие. На данный момент используется 50 серверов. Операция, которая на одной машине заняла бы 6 месяцев, в Windows Azure занимает около 4 дней.
Узнать больше

Вступление

Время на прочтение2 мин
Охват и читатели4.3K
Был удивлён, не обнаружив подобного блога на Хабре. Ничего, постараемся восполнить этот пробел. В этом блоге я планирую как можно проще описать работу регулярных выражений, более склоняясь к полному разбору часто используемых примеров. Так же, в планах, рассказать об особенностях разных движков выражений, и их реализации в популярных языках программирования.

Для начала, поговорим о том, что такое регулярные выражения, и каково их практическое применение.
Читать дальше →

Parallel Extensions для .net 3.5

Время на прочтение8 мин
Охват и читатели6K
Aquafresh :-)Количество ядер у процессоров растет год от года. Но многие программы до сих пор умеют использовать только одно. В небольшой заметке хочу рассказать о дополнении к библиотеке System.Threading, которое называется Parallel Extensions. Это дополнение позволяет на высоком уровне выполнять задачи на всех доступных ядрах/процессорах.

Данная статья является лишь кратким вводным обзором в Parallel Extensions. Так же в конце статьи вы найдете ссылки на ресурсы, которые раскрывают тему во всех деталях.

Если интересно, то смело ныряем под кат.
Читать дальше →

Влюбляемся в F#: Доза 0.1: Как установить F#

Время на прочтение2 мин
Охват и читатели5.4K

Дорогие Хабраколлеги!


Благодарю за теплый прием моих заметок по F#. Откровенно говоря, не ожидал такого количества интересных и полезных комментариев! Заранее прошу простить, если я не успеваю отвечать на все — буду стараться.


Прежде чем начать влюбляться в F# по этим заметкам, я рекомендую вам установить себе соответствующую среду программирования. Заранее прошу прощения у тех, кто уже установил себе F# и ждет от меня более продвинутых постов: я стараюсь излагать все по порядку, так что первое время может быть скучно.


Существует несколько возможностей установить F# (на текущий момент, последняя версия – 1.9.6.2):


Читать дальше →

Влюбляемся в F#: Доза 1: Дух функционального программирования

Время на прочтение4 мин
Охват и читатели8.3K
Дорогие Хабраколлеги!

Наконец-то я приступаю к некоторому изложению идей функционального программирования вместе с основами языка F#. Сегодня нам нужно будет сделать самое главное – понять основные принципы функционального программирования и проникнуться его духом. Заранее прошу прощения у тех гуру-функциональщиков, кто ждет более содержательных уроков – но мне хотелось начать с начала. Соответственно, для начала, история из жизни:

Когда я был молодым и преподавал программирование на первом курсе факультета Прикладной математики МАИ, один из студентов никак не мог понять, что значит X:=X+1. “Как же так, как X может быть равен X+1?”. Мне пришлось объяснить ему, как такое возможно, и в этот момент в нем умер функциональный программист…


Почему? Давайте разберемся.

Читать дальше →

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург и область, Россия
Работает в
Дата рождения
Зарегистрирован
Активность