How to become an author

User

ProfileArticles5PostsNewsComments349

winger Aug 9 2009 at 19:40

Структуры данных: бинарные деревья. Часть 1

6 min

382K

Интро

Этой статьей я начинаю цикл статей об известных и не очень структурах данных а так же их применении на практике.

В своих статьях я буду приводить примеры кода сразу на двух языках: на Java и на Haskell. Благодаря этому можно будет сравнить императивный и функциональный стили программирования и увидить плюсы и минусы того и другого.

Начать я решил с бинарных деревьев поиска, так как это достаточно базовая, но в то же время интересная штука, у которой к тому же существует большое количество модификаций и вариаций, а так же применений на практике.

Читать дальше →

+92

sashaeve Aug 8 2009 at 11:11

Обзор литературы по Data Mining

7 min

66K

Добрый день!

Публикация нескольких статей о Data Mining показала высокий интерес сообщества к данной теме. Много вопросов было задано по типу «где почитать» и «с чего начать». Предлагаю вашему вниманию подборку литературы, ресурсов для уверенного старта в данной области.

Читать дальше →

+46

VenomBlood Aug 8 2009 at 18:42

Алгоритмы на графах — Часть 1: Поиск в глубину и проблема взаимоблокировок

6 min

67K

Недавно на Хабре была статья, посвященная алгоритмам на графах. С позволения автора, мой первый хабратопик продолжит цикл.

Хотелось бы осветить вопросы применения некоторых алгоритмов, для решения задач программирования.
Достаточно жизненный пример, с которым сталкивался не один разработчик — это deadlock. По сути deadlock – это взаимоблокировка, в результате которой система, или какие-то отдельные процессы начинают конкурировать за один ресурс.
В жизни такие ситуации встречаются, например, когда два человека желают пропустить друг друга на входе, предположим, в аудиторию. Однако после 3-4 фраз «только после вас!», кто-нибудь всё же пройдет первым.
На уровне программного обеспечения всё сложнее, пока программы не способны думать, машинный аналог фразы «только после вас!» будет повторяться вплоть до перезагрузки.
Как исполняющая система может повлиять на этот процесс? Вот тут нам на помощь и приходят алгоритмы на графах.
Для начала определимся, что же будет элементами нашего графа, и как его составить.

Читать дальше →

+39

KonstantinSolomatov Aug 8 2009 at 15:16

Более правильный способ тестирования Java программистов

1 min

2.7K

Многие тесты на сертификацию Java программистов содержат большое количество вопросов с вариантами выбора. От таких тестов толку немного: многие вещи, касающиеся API можно быстро узнать чтением документации или исходников. При этом, умение программировать, которое состоит по большей части из умения правильно сформулировать алгоритм и логически мыслить, совершенно не тестируется.

Компания betterprogramming.com из Сан-Франциско решила исправить эту проблему. Тест, находящийся на их сайте, вместо множества вопросов предлагает решить несколько задач. Задачи заключаются в реализации несложных алгоритмов (уровня районной олимпиады по программированию, первого тура ACM ICPC или легких задач в topcoder). Текст программы, написанный разработчиком исполняется на сервере, и по его результатам а также по времени, ушедшем на прохождения теста, выставляется оценка.

Попробовать этот тест можно здесь: www.betterprogrammer.com

+18

Kumarunster Aug 3 2009 at 23:04

Ищу сервисы/платформы для нэйминга и/или мозгового штурма

2 min

2.6K

Здравствуйте.

Так как я «начинающий стартапер», и чем больше мой проект обретает свои окончательные черты, тем насущнее дает о себе знать проблема наименования, т.е нейминга. Я бы хотел в этом посте собрать ссылки на онлайн-сервисы для нэйминга, ну или для мозгового штурма. Буду очень благодарен, если мне расскажут про то, чего я не знаю или не обратил еще внимания. Думаю, созданный таким образом каталог просто так не пропадет, а будет востребован (хотя бы для поиска идей или импульсов). Интересуют сервисы в зоне .ru, .de, .com, .org, .net, .info итд.

Вот список, собранный на данный момент

+14

sashaeve Aug 4 2009 at 16:58

Очищаем веб-страницы от информационного шума

5 min

3.7K

Приветствую всех!

Предыдущие мои статьи были, в основном, о теоретической части Data Mining, сегодня хочу рассказать о практическом примере, который используется в кандидатской диссертации (в связи с этим данный пример на данном этапе развития нельзя считать полноценным работающим проектом, но прототипом его считать можно).

Будем очищать веб-страницы от «информационного шума».

Читать дальше →

+40

sashaeve Aug 2 2009 at 19:53

Анализ рыночной корзины и ассоциативные правила

3 min

29K

В продолжении темы о Data Mining поговорим о том, с чего все начиналось. А начиналось все с анализа рыночной корзины (market basket analysis).

Из глоссария BaseGroup:

Анализ рыночной корзины — процесс поиска наиболее типичных шаблонов покупок в супермаркетах. Он производится путем анализа баз данных транзакций с целью определения комбинаций товаров, связанных между собой. Иными словами, выполняется обнаружение товаров, наличие которых в транзакции влияет на вероятность появления других товаров или их комбинаций.

Результаты, полученные с помощью анализа рыночной корзины, позволяют оптимизировать ассортимент товаров и запасы, размещение их в торговых залах, увеличивать объемы продаж за счет предложения клиентам сопутствующих товаров. Например, если в результате анализа будет установлено, что совместная покупка макарон и кетчупа является типичным шаблоном, то разместив эти товары на одной и той же витрине можно «спровоцировать» покупателя на их совместное приобретение.

Читать дальше →

+27

Skaizer Aug 1 2009 at 09:31

Поиск нечетких дубликатов. Алгоритм шинглов для веб-документов

4 min

45K

Ранее я показал элементарную реализацию алгоритма шинглов, позволяющую определять, являются ли два документа почти дубликатами или нет. В этот раз я поясню реализацию алгоритма, описанную Зеленковым Ю. Г. и Сегаловичем И.В. в публикации «Сравнительный анализ методов определения нечетких дубликатов для Web-документов».
Этим я начинаю серию из трех теоретических статей, в которых постараюсь доступным языком описать принцип алгоритмов шинглов, супершинглов и мегашинглов для сравнение веб-документов.

Читать дальше →

+51

GenriX Jul 29 2009 at 10:51

WRate.net: место встречи заказчиков и исполнителей

3 min

560

Многие хабра-жители знакомы с проблемой выбора исполнителя для создания и продвижения сайта. Клиенты и студии решали проблемы по-своему: первым зачастую приходилось переплачивать первой лучшей студии, вторым усиленно работать над SEO. Далеко от столиц, где веб-строительство развито в меньшей мере, проблема стоит более остро. В последние годы пришлось побывать в обеих шкурах и в итоге возникло желание реализовать сервис, который, будет полезен обеим сторонам. Получился из этого каталог веб-студий и рекламных агентств WRate.net.

Читать дальше →

+5

neochief Jul 29 2009 at 12:35

Чеклист запуска сайта

3 min

25K

Website development*

Этот чеклист будет полезен всем, кто запускает сайты или следит за этим увлекательным процессом. Ничего не пропустите!

Читать дальше →

+112

Gumoza Jul 29 2009 at 07:31

Бизнес кейсы использования Data Mining. Часть 1

3 min

13K

Привет, хабр.
Очень рад, что тема Data Mining интересна сообществу.

В данном топике (а если понравится, — в серии топиков) расскажу, какие примеры использования Data Mining есть в Российском и не только бизнесе. Почему я пишу об этом? Я работаю в компании, которая тесно связана с ВЦ РАН (Вычислительный центр Российской академии наук), что позволяет нам иметь отличный научно-исследовательский отдел и разрабатывать новые проекты, применяя отечественные достижения в математике. В данном топике будет больше бизнеса, чем науки, но если последняя все же вас интересует, тогда вам сюда: mmro.ru или сюда: www.machinelearning.ru

Итак, поехали:

Читать дальше →

+44

xpic99 Jul 25 2009 at 13:18

Алгоритмы на графах — Часть 0: Базовые понятия

5 min

264K

Вступление

Как оказалось тема алгоритмов интересна Хабра-сообществу. Поэтому я как и обещал, начну серию обзоров «классических» алгоритмов на графах.
Так как публика на Хабре разная, а тема интересна многим, я должен начать с нулевой части. В этой части я расскажу что такое граф, как он представлен в компьютере и зачем он используется. Заранее прошу прощения у тех кто это все уже прекрасно знает, но для того чтобы объяснять алгоритмы на графах, нужно сначала объяснить что такое граф. Без этого никак.

Читать дальше →

+106

ommo Jul 23 2009 at 12:58

Cloud computing: кто и как летает в облаках?

9 min

24K

Оверсан-Скалакси corporate blog

Сегодня «облачными» вычислениями не удивишь никого: они везде и повсюду. А в условиях мирового финансового кризиса многие крупные компании, изначально не обращающие внимания на «облачные» сервисы и услуги, резко перенаправили свои денежные потоки именно туда, осознав давние ошибки и просчеты. В этой статье я не буду рассказывать Вам все о cloud computing’e — это мы сделаем как-нибудь в другой раз. Наша цель — рассказать об обстановке в мире, т.е. рассмотреть вопросы, по типу «кто есть who» в мире «облачных» вычислений.

Читать дальше →

+34

kalpsik Jul 22 2009 at 11:40

Siege — утилита для нагрузочного тестирования веб-серверов

7 min

83K

Website development*

Translation

Надеюсь, что данный материал будет кому-нибудь полезен.

Siege – это утилита для нагрузочного тестирования веб-серверов. Она была создана для того чтоб дать разработчикам возможность проверить ресурсоёмкость своего кода в условиях, максимально приближенных к реальным. Так же Siege может имитировать обращения к сайту сразу нескольких пользователей. Это позволяет держать сервер как бы «под осадой» долгое время. Количество запросов, произведённых при «осаде», рассчитывается из общего количества пользователей и количества их обращений к серверу. Например 20 пользователей, обратившись по 50 раз, создают в общей сложности 1000 запросов. Результат, выводимый программой после тестирования, включает в себя время затраченное на проверку, общее количество переданной информации ( включая заголовки ), среднее время ответа сервера, его пропускную способность и число запросов на которые пришёл ответ с кодом 200. Эти данные формируются и выдаются при каждой проверке. Подробно они описываются ниже. Siege имеет 3 основных модели работы – режим регрессионного тестирования, режим имитации Интернета и режим грубой силы. Программа считывает порцию ссылок из конфигурационного файла и обращается к ним по очереди ( режим регрессионного тестирования ) или случайно ( имитация интернета ). Или же пользователь может указать один единственный адрес к которому будут производиться все обращения – режим грубой силы.

UPD: спасибо за плюсы, перенес в тематический блог.

Читать дальше →

+72

vorob Jul 21 2009 at 09:33

Организация среды веб-разработки

4 min

5.9K

Website development*

Продуктивность коллектива веб-студии напрямую зависит от удобства среды разработки. У нас сложилась стройная система организации работы с проектами, включающая в себя набор таких неотъемлемых компонентов, как IDE, SCM, PM-система, багтрекер и development-сервер. Этим постом я бы хотел начать цикл статей, посвященных настройке и использованию этих компонентов в нашей студии.

В первой части я расскажу о самом основном — среде разработки (о том, как мы организовали совместный доступ к проектам).

Идеи

Среда разработки должна быть единой для всех сайтов.
Девелоперы не должны тратить время на настройку каждый своей серверной части.
Работает ли над проектом один человек или несколько — контроль версий необходим.
Если рабочий каталог (IDE workspace) находится на сервере, то можно поработать и дома, не тратя время на повторную настройку окружения на домашнем десктопе или ноуте.

Концепция и реализация

+41

coolspot Jul 20 2009 at 10:57

Redis — высокопроизводительное хранилище данных

2 min

102K

Website development*

Бодрый день, хаброчеловеки!

Что такое Redis?

Redis — это высокопроизводительное нереляционное распределённое хранилище данных. В отличие от Memcached, который может в любой момент удалить ваши данные, вытесняя старые записи новыми, Redis хранит информацию постоянно, таким образом он похож на MemcacheDB.

Чем Redis отличается от существующих решений?

API для работы с Memcached (MemcacheDB) позволяет хранить массивы, но эти массивы будут сериализованы и сохранены как строки, таким образом атомарные операции над такими массивами не возможны.
Redis позволяет хранить как строки, так и массивы, к которым можно применять атомарные операции pop / push, делать выборки из таких массивов, выполнять сортировку элементов, получать объединения и пересечения массивов.

Производительность

110000 запросов SET в секунду, 81000 запросов GET в секунду на Linux-сервере начального уровня (тесты).

Высокая скорость работы Redis обеспечивается тем, что данные хранятся в оперативной памяти и сохраняются на диск либо через равные промежутки времени, либо при превышении определённого количества не сохранённых запросов. Из этого вытекает, что используя Redis, вы можете потерять результаты нескольких последних запросов, что вполне приемлимо для большинства веб-приложений, учитывая, что обращение к Redis по скорости сравнимо с обращением к оперативной памяти. Тем не менее, потерь можно избежать через избыточность — Redis поддерживает неблокирующую master-slave репликацию.

Sharding

Redis, как и Memcached, может работать как распределённое хранилище на многих физических серверах. Такой функционал реализуется в клиентских библиотеках, и к сожалению, «из коробки» этот функционал реализован пока только в Ruby API, однако это не мешает вам хешировать ключ самостоятельно и получать ID сервера, к которому с этим ключом обращаться.

API

API доступно для следующих языков:

Ruby
Python
PHP
Erlang
Tcl
Perl
Lua
Java

API для PHP доступно как в виде модуля, написанного на C, так и в виде PHP5 класса, который общается с Redis-сервером через сокеты, таким образом не требуется устанавливать модуль.
Кроме того существует PHP5 класс от отечественного разрабочика (с именем, заслуживающим доверия. Я серьёзно.) — IMemcacheClient. (Спасибо DYPA за наводку)

Перспективы развития

Разработка ведётся очень активно, комиты происходят почти каждый день, сейчас доступна версия Redis 0.900 (1.0 release candidate 1), которая очень скоро станет версией 1.0
В ближайшем будущем авторы обещают внедрить разные интересные фичи, в том числе и сжатие данных.

Лицензия и поддерживаемые платформы

Redis — написан на ANSI C и работает на большинстве POSIX-систем (Linux, MacOS X). Это бесплатное открытое ПО под BSD лицензией =)

Up: Rediska — удобный PHP-клиент для key-value базы Redis. Оф.сайт.

+71

torai Jul 19 2009 at 22:48

CrowdA — они опередили время?

2 min

667

Задавались вы вопросом насколько долго будет жить концепт социальных блогов? Та схема по которой работает и Хабр в том числе, когда куча авторов совершенно безвозмездно для себя пишут оригинальные тексты и публикуют их на Хабре и других подобных ресурсах. Через сколько лет начнется «война за контент»? На каком витке развития социальных блогов авторы захотят получать что-то за свой труд? На каком этапе развития сети площадки поймут что авторов надо как-то стимулировать и желательно денежными знаками?

Идея вознаграждения авторов контента не нова сама по себе, но работоспособную модель на сегодняшний день предоставляет только сервис CrowdA (если есть аналоги — укажите в коментах).
Вкратце о самом сервисе и моделях взаимовыгодного сотрудничества паблишеров (Publisher) и конрибьютеров контента(Contributors).

Читать дальше →

+38

fotonstep Jul 18 2009 at 17:26

Что сегодня авторы предлагают инвесторам? Разбор полетов

4 min

819

Давно уже собирался отписаться по результатам инвестиционного предложения, но не оформлялась мысль. Вот пришла, благодаря этому посту, про ошибки соискателей на инвестиции.

С недавней инвестсессии «Полигон» получил в общей сложности порядка 80 проектов, может, чуть больше. В один мы вложились, но думаю, всем полезно будет оценить, что в общем предлагают и о чём думают сегодня начинающие «предприниматели».

Читать дальше →

+106

mazurov Jul 11 2009 at 09:27

Что ожидается в App Engine

2 min

651

Google App Engine*

Сервис для работы с большими файлами.
Поддержка работы с входящей почтой
XMPP API.
Поддержка функций отображения (mapping) наборов данных (datasets).
Курсоры для запросов к базе — преодоление лимита в 1000 записей.
Система предупреждений (alerts) об исключительных ситуациях (exceptions) в пользовательских приложения.
Дамп и восстановление системы хранения.

Источник: App Engine Product Roadmap

мои комментарии...

+27

furspike Jul 8 2009 at 20:53

«Hard, harder, Notpron!»

2 min

5.3K

Entertaining tasks

Как говорится, музыкой навеяло.

Очень удивился, не найдя темы про этот интернет квест. Умопомрачительная игра, которую посадили пожизненно за воровство времени у населения планеты Земля.
Всего 168 человек прошли эту игру из 138 уровней целиком из 10+ миллионов пытавшихся.

Читать дальше →

+40

1 2 ...

10