Articles / Bookmarks / Profile of ilnarb / Habr

User

ProfileArticles3PostsNewsComments140

@demark Feb 23 2012 at 03:51

HyperDex — новое опенсорсное NoSQL key-value хранилище, заточенное на очень быстрый поиск

2 min

5.7K

Авторы позиционируют HyperDex как распределённое, отказоустойчивое, легко-маштабируемое, заточенное на очень быстрый поиск NoSQL key-value хранилище.

Главная фича — новый принцип хранения объектов в многомерном эвклидовом пространстве (рис. слева), используя гиперпространственное хэширование (hyperspace hashing) (на который, кстати, авторы сейчас получают патент), которое позволяет выполнять большинство типичных задач от 2 до 13 раз быстрее, чем в MongoDB, Redis, Cassandra.

О проекте и бенчмарки под катом

+68

@Wyrd Feb 21 2012 at 15:26

Производительность shared_ptr и C++11: почему я не верю библиотекам

5 min

25K

Здравствуйте!

Оптимизировал я однажды критический участок кода, и был там boost::shared_ptr… И понял я: не верю я библиотекам, хоть и пишут их дядьки умные.

Детали под катом.

Читать дальше →

+60

@Caiiiycuk Feb 14 2012 at 05:18

GCC Profile-guided optimization

6 min

25K

Profile-guided optimization (далее PGO) — техника оптимизации программы компилятором, нацеленная на увеличение производительности выполнения программы. В отличии от традиционных способов оптимизации анализирующих исключительно исходные коды, PGO использует результаты измерений тестовых запусков оптимизируемой программы для генерации оптимального кода.

Читать дальше →

+42

@AndrewSumin Feb 3 2012 at 12:13

Как мы разрабатывали темы для Почты

4 min

14K

VK corporate blog

Летом 2011 года мы внедрили новый дизайн Почты Mail.Ru. Интерфейс изменился не только визуально, но и был полностью переделан в техническом плане, что в разы ускорило его быстродействие и удобство. Но еще это было необходимо для реализации очень желанной для пользователей фичи — тем оформления интерфейса. О том, как мы внедряли темы в Почте, хочу рассказать в этом посте.

Подробности и забавная статистика о самых популярных темах

+23

@Malamut Jan 19 2012 at 18:59

Проброс блочных устройств в виртуальную машину XenServer

2 min

19K

Virtualization *

В современном мире наверно все адекватные системные администраторы корпоративных сетей используют виртуализацию. Для мелкого и среднего бизнеса одним из самых осмысленных выборов гипервизора является бесплатная версия Citrix XenServer. Основное его преимущество для небольшой фирмы, не имеющей возможности покупать железо под задачи — это огромная гибкость, во многом за счёт Linux, на котором базируется обозначенный гипервизор.

Огромнейшая проблема XenServer, как и Xen Cloud Platform, в очень ограниченном количестве документации. Точнее сказать — в полном её отсутствии для нестандартных ситуаций. В частности нигде в официальных источниках мне не удалось найти инструкции по пробросу блочного устройства непосредственно в виртуальную машину.

Для начала зачем это может понадобиться. Простейший пример — у вас есть сервер без надёжного аппаратного RAID контроллера. Но вы хотите рейд. Без проблем — Linux (и XenServer) содержит великолепнейшую штуку — mdadm. А нужен вам этот RAID для файлопомойки, причём файлопомойка займёт всё доступное место. Смысла городить RAID, а поверх него ещё делать XenServer StorageRepository (SR) с type=lvm, в котором создавать один-единственный диск на весь объём нет. Гораздо лучше создать RAID, и пробросить его блочное устройство непосредственно в виртуальную машину. Так и надёжней — в случае чего вы всегда сможете достать жёсткие диски из сервера и воткнуть их в любую Linux машину, которая тут же увидит все ваши данные.

Читать дальше →

+9

@mdef Nov 18 2011 at 05:54

Виртуализация для дома или Виртуализация на Atom

3 min

22K

Virtualization *

Появилось желание расширить функционал централизованного хранилища, а счета за электричество натолкнули на мысль о смене железа с Intel Celeron на Atom. Одним из преимуществ можно считать то, что Atom работоспособен даже без активного охлаждения. Таким образом, подверженными механическим поломкам остаются только жесткие диски. В случае, если бы оправдались заявления о проблемах с производительностью, он по-прежнему бы сгодился на FreeNAS хранилище. Итак, тесты:

Читать дальше →

+25

@JagaJaga Nov 15 2011 at 18:16

Алгоритмы LZW, LZ77 и LZ78

8 min

168K

Хочется продолжить свою предыдущую тему об алгоритмах сжатия. В этот раз я расскажу об алгоритме LZW и немного об его родственниках алгоритмах LZ77 и LZ78.

Алгоритм LZW

Алгоритм Лемпеля — Зива — Велча (Lempel-Ziv-Welch, LZW) — это универсальный алгоритм сжатия данных без потерь.

Читать дальше →

+57

@SkyManPHP Jan 26 2011 at 10:01

Динамический favicon или отображаем карму, не обновляя страницу

5 min

12K

У каждого из нас, полагаю, в любимом браузере постоянно открыты несколько вкладок одновременно. Не раз бывают случаи, что и заголовка вкладки не видно — лишь favicon'ки. Но часто они информации, кроме как отображения логотипа сайта, не дают. И, наверное, зря. Но мы постараемся и здесь использовать это место (целых 16px*16px!) так, как хотим. По крайней мере, будем знать, как это можно сделать.

Читать дальше →

+128

@dmitriid Aug 19 2011 at 07:54

Постоянные неблокируемые cookie с использованием HTTP-заголовков

3 min

9.8K

Information Security *

Translation

На прошлой неделе прогремела новость об исследовании, утверждающем, что аналитическая компания KissMetrics отслеживала пользователей на сайтах при помощи уникального значения заголовка ETag(спека). KissMetrics отрицали использование ETag ~~и в итоге подали в суд на авторов исследования~~(см. upd. в конце статьи).

Использование ETag (сокрашение от 'element tag', «метка элемента») для отслеживания пользователей известен и используется в партнерских сетях с начала прошлого десятилетия. Так же известно, что и заголовок Last-Modified(spec) теоретически может использоваться для отслеживания пользователей с помощью уникального значения времени обновления.

Мне, правда, кажется, что мало кто знает, что заголовок Last-Modified может принимать в качестве значения любую строку, то есть значение не обязательно должно быть правильной датой.

Читать дальше →

+69

@Invision Sep 29 2010 at 16:20

Классификация данных методом опорных векторов

4 min

156K

Добрый день!

В данной статье я хочу рассказать о проблеме классификации данных методом опорных векторов (Support Vector Machine, SVM). Такая классификация имеет довольно широкое применение: от распознавания образов или создания спам-фильтров до вычисления распределения горячих аллюминиевых частиц в ракетных выхлопах.

Сначала несколько слов об исходной задаче. Задача классификации состоит в определении к какому классу из, как минимум, двух изначально известных относится данный объект. Обычно таким объектом является вектор в n-мерном вещественном пространстве

. Координаты вектора описывают отдельные аттрибуты объекта. Например, цвет c, заданный в модели RGB, является вектором в трехмерном пространстве: c=(red, green, blue).

Читать дальше →

+74

@icegreenberry Aug 11 2011 at 13:54

Как поднять свой уровень в искусстве программирования. План из шести шагов

2 min

21K

Translation

Вольный перевод списка из довольно удачных способов для повышения своего уровня, как программиста.

Читать дальше →

+140

@leron Aug 9 2011 at 12:01

Кластеризация. Алгоритм а-квазиэквивалентности

3 min

7.7K

Странно, но статей о извлечение знаний (data mining) и кластеризации (как одном из основных инструментом, которие используются для извлечения знаний) на Хабре совсем немного. А если говорить говорить о конкретных алгоритмах, то рассматривались только hard/soft k-means.

В статье ниже описывается теория и реализация (Python + matplotlib) не очень известного, но крайне интересного иерархического метода который можно назвать алгоритмом а-квазиэквивалентности.

Читать дальше →

+27

@Invizory Aug 3 2011 at 08:28

Дерево ван Эмде Боаса

6 min

20K

Всем доброго времени суток!

Сегодня я расскажу вам об одной интересной структуре данных, про которую слышали лишь немногие и про которую очень незаслуженно мало написано в рунете, да и в англоязычном информации, в общем-то, тоже негусто. Решено было исправить ситуацию и поделиться с общественностью в доступной форме этой достаточно экзотической структурой данных.

Дерево ван Эмде Боаса (van Emde Boas tree) — ассоциативный массив, который позволяет хранить целые числа в диапазоне [0; U), где U = 2^k, проще говоря, числа, состоящие не более чем из k бит. Казалось бы, зачем нужно еще какое-то дерево, да еще позволяющее хранить только целые числа, когда существует множество различных сбалансриованных двоичных деревьев поиска, позволяющих выполнять операции вставки, удаления и прочие за O(log n), где n — количество элементов в дереве?

Главная особенность этой структуры — выполнение всех операций за время O(log(log(U))) независимо от количества хранящихся в ней элементов.

Что же там еще есть такого вкусного?

+189

@belk Jul 11 2011 at 08:43

Статистика по профилям пользователей ВКонтакте

6 min

101K

В этом посте я приведу статистику по данным, которые указали в своих профилях пользователи социальной сети ВКонтакте. Под катом также содержится ответ на интересующий многих вопрос — сколько всё-таки активных пользователей в этой соцсети? И, разумеется, пара слов о том, как всё это было собрано.

Читать дальше →

+263

@alexkbs Jul 22 2011 at 05:58

Прозрачное кэширование в nginx для всех и каждого

2 min

116K

Представим, что у нас есть сайт, на который регулярно дают ссылки с хабра.
Нам нужно подготовить его к резким всплескам посещаемости. Как это сделать?

С версии 0.8.46 в nginx появились опции, позволяющие легко и просто настроить прозрачное кэширование для анонимных пользователей.

Для работы этой схемы от сайта требуется очень мало: достаточно лишь не начинать сессию, то есть не отправлять сессионную куку, без явной на то необходимости. Редкий сайт нельзя довести до такого состояния, а значит большинство сайтов можно защитить от резких всплесков посещаемости с помощью nginx с минимальными затратами сил и времени.

Читать дальше →

+94

@k06a Jun 15 2011 at 22:25

Алгоритм Карацубы для умножения двух чисел

3 min

29K

Как-то раз пришлось реализовывать умножение длинных чисел, через половинки их представления на C++. 128-битные числа были представлены как пара 64-битных. Оказалось что перемножить два 128-битных числа и получить все 256 бит результата по сложности сравнимо с 4-мя произведениями 64-битных половинок. Как же это работает…

Читать дальше →

+41

@V_Komissarova Dec 20 2010 at 14:03

Жизнь в поисковых запросах: немного о связи между «свадьбой» и «платьем»

3 min

8.8K

VK corporate blog

С рождением Интернета и поисковых систем появились новые возможности для изучения человеческого поведения. Каждый раз, когда пользователь делает запрос в поисковой строке, он делится крупицей информации о своей жизни и интересах.

Обобщая запросы от миллионов людей, мы можем выявлять тенденции, динамику и некоторые взаимозависимости при изменении интересов у определённых групп людей.

Подобные исследования обеспечивают простор как для деятельности учёных, так и для роста эффективности работы поисковых систем. Например, анализируя взаимозависимости запросов пользователей в демографическом срезе, можно улучшить поисковые подсказки. Подобная технология уже используется в саджестах от Поиска@Mail.Ru.

Разработчики поисковых систем уделяют много внимания анализу логов поисковых запросов. Но часто такие исследования ограничиваются анализом пользовательских запросов в рамках одной поисковой сессии (обычно длящейся до 30 минут). Или же в процессе анализа больше внимания уделяется частоте запросов и обобщённым данным об их популярности. При этом, как правило, исследователи рассматривают эту информацию в краткосрочном срезе. Однако человеческая жизнь многогранна и интересы людей со временем меняются. Поэтому именно ретроспективный долгосрочный анализ логов поисковых запросов открывает по-настоящему богатые возможности для исследований.

Читать дальше →

+22

@michaelkl Jul 10 2009 at 12:38

Перевод: Я ненавижу тебя: твой код – хлам!

11 min

11K

Designing and refactoring *

Хочу представить свой перевод статьи «Your Code Sucks and I Hate You: The Social Dynamics of Code Reviews».

Я ненавижу тебя: твой код – хлам!
Взаимоотношения участников ревизий кода

Джонатан Лэндж (Jonathan Lange), 15.09.2008

Обзор

Ревизия кода это действительно полезная, но в то же время и невероятно отпугивающая процедура. Эта статья подскажет, как избежать «кулачных боёв» при проведении ревизий.

Мы кратко рассмотрим, почему следует проводить ревизии кода, и сделаем упор на вопросе, как складываются при этом взаимоотношения участников процесса, в особенности в проектах с открытым исходным кодом. Действительно, отчасти open source привлекает (а порой наоборот отпугивает!) людей именно потому, что ваш код будут просматривать эксперты со всего земного шара. Мы также рассмотрим влияние, оказываемое некоторыми существующими технологиями на культуру ревизий кода, рассмотрим, чего можно достичь с их помощью, и как проводятся ревизии в других сферах деятельности. Мы также обозначим некоторые «подводные камни» ревизий, которые легко не заметить.

Читать дальше →

+63

@javaspecialist May 3 2011 at 03:39

Построение отказоустойчивой (fault tolerant) системы

8 min

50K

Designing and refactoring *

В разработке банковского ПО данному аспекту системы уделяется наибольшее внимание. Часто, описывая отказоустойчивую систему, используют слова: Fault Tolerance, Resilience, Reliability, Stability, DR (disaster recovery). Данная характеристика — суть способность системы продолжать корректно работать при падении одной или нескольких подсистем, от которых она зависит. Я кратко опишу какие подходы могут применяться в данной области и приведу пару примеров.

Читать дальше →

+60

@sHinE Dec 17 2009 at 13:37

Математика с учетом области допустимых значений

1 min

2.5K

Search engines *

Разобравшись с органической химией, Нигма вернулась к математике. Теперь поисковик умеет решать уравнения с ОДЗ, неравенства, дробно-рациональные неравенства с модулями и многие другие.

Что самое классное — нигмовцы превзошли в этом американский поисковик Вольфрам-альфа. Зарубежный товарищ, судя по всему, про ОДЗ вообще не слышал, поэтому лажает даже на простых примерах.
В планах у Нигмы построение графиков функций с полным исследованием.
Для тех, кто забыл, что еще классного умеет Нигма — список решаемых задач.

+66

1 2 ...

16