Статьи / Закладки / Профиль akalend / Хабр

Александр Календарев @akalend

Ламер с 20 летнем стажем

ПрофильСтатьи40ПостыНовостиКомментарии2.2K

o6CuFl2Q 17 дек 2015 в 10:10

Эволюция структур данных в Яндекс.Метрике

17 мин

45K

Блог компании ЯндексBig Data * Data Mining * Высоконагруженные системы * Распределённые системы *

Яндекс.Метрика сегодня это не только система веб-аналитики, но и AppMetrica — система аналитики для приложений. На входе в Метрику мы имеем поток данных — событий, происходящих на сайтах или в приложениях. Наша задача — обработать эти данные и представить их в подходящем для анализа виде.

Но обработка данных — это не проблема. Проблема в том, как и в каком виде сохранять результаты обработки, чтобы с ними можно было удобно работать. В процессе разработки нам приходилось несколько раз полностью менять подход к организации хранения данных. Мы начинали с таблиц MyISAM, использовали LSM-деревья и в конце концов пришли к column-oriented базе данных. В этой статье я хочу рассказать, что нас вынуждало это делать.

Яндекс.Метрика работает с 2008 года — более семи лет. Каждый раз изменение подхода к хранению данных было обусловлено тем, что то или иное решение работало слишком плохо — с недостаточным запасом по производительности, недостаточно надёжно и с большим количеством проблем при эксплуатации, использовало слишком много вычислительных ресурсов, или же просто не позволяло нам реализовать то, что мы хотим.

Читать дальше →

+52

Procs 28 сен 2015 в 11:25

Бинарные деревья поиска и рекурсия – это просто

8 мин

658K

C++ * Алгоритмы * Программирование *

Из песочницы

Существует множество книг и статей по данной теме. В этой статье я попробую понятно рассказать самое основное.

Бинарное дерево — это иерархическая структура данных, в которой каждый узел имеет значение (оно же является в данном случае и ключом) и ссылки на левого и правого потомка. Узел, находящийся на самом верхнем уровне (не являющийся чьим либо потомком) называется корнем. Узлы, не имеющие потомков (оба потомка которых равны NULL) называются листьями.

Рис. 1 Бинарное дерево

Читать дальше →

+20

Dreadatour 24 сен 2015 в 07:58

19 советов по повседневной работе с Git

14 мин

289K

Блог компании VKGit * Программирование * Веб-разработка *

Туториал

Перевод

Если вы регулярно используете Git, то вам могут быть полезны практические советы из этой статьи. Если вы в этом пока новичок, то для начала вам лучше ознакомиться с Git Cheat Sheet. Скажем так, данная статья предназначена для тех, у кого есть опыт использования Git от трёх месяцев. Осторожно: траффик, большие картинки!

Содержание:

Параметры для удобного просмотра лога
Вывод актуальных изменений в файл
Просмотр изменений в определённых строках файла
Просмотр ещё не влитых в родительскую ветку изменений
Извлечение файла из другой ветки
Пара слов о ребейзе
Сохранение структуры ветки после локального мержа
Исправление последнего коммита вместо создания нового
Три состояния в Git и переключение между ними
Мягкая отмена коммитов
Просмотр диффов для всего проекта (а не по одному файлу за раз) с помощью сторонних инструментов
Игнорирование пробелов
Добавление определённых изменений из файла
Поиск и удаление старых веток
Откладывание изменений определённых файлов
Хорошие примечания к коммиту
Автодополнения команд Git
Создание алиасов для часто используемых команд
Быстрый поиск плохого коммита

Читать дальше →

+145

ol_an 18 дек 2014 в 09:11

Сборка пакетов библиотек для rpm-based дистрибутивов Linux

6 мин

40K

*nix *

Из песочницы

Во многих наших проектах используются open-source библиотеки. Когда разработка ведется под одну конкретную платформу, нет смысла собирать одни и те же библиотеки из исходников каждый раз, когда к проекту подключается новый разработчик. Кроме того, установка библиотек а-ля make && sudo make install считается плохим тоном, поскольку система засоряется «бесхозными» файлами, о которых нет информации в базе данных менеджера пакетов RPM.

В качестве решения предлагается из скомпилированных библиотек собирать RPM-пакеты и хранить их в едином репозитории, доступном для всех разработчиков. Ниже приводится инструкция и некоторые советы по сборке пакетов.

Читать дальше →

+15

spot62 2 дек 2014 в 07:45

Как использовать список ядра Linux для создания очереди

4 мин

12K

Системное программирование * C *

Из песочницы

Приветствую!

В данной статье рассматривается использование реализации двусвязного списка ядра Linux.

Двусвязный список в ядре Linux реализован в файле include/linux/list.h. Мы будем использовать адаптированный вариант list.h [1], который отличается от оригинального возможностью использовать его в userspace. Например, создадим очередь — структуру данных с доступом к элементам по принципу «первый пришёл — первый вышел» для произвольного типа данных на основе list.h.

Читать дальше →

+12

danikin 30 сен 2014 в 07:56

Как решать проблемы пользователей не за сутки, а за минуты: ускоряем поиск по логам

6 мин

29K

Блог компании VKTarantool * Высоконагруженные системы *

Мы в Почте Mail.Ru постоянно сталкиваемся с необходимостью работать с историей пользователей. Учитывая, что ежемесячная аудитория проекта составляет более 40 миллионов человек, история всех их действий – это порядка петабайта данных. Потребность в поиске по логам у нас возникает сотни раз в день, а на получение нужной информации в среднем уходило несколько часов. При этом, по нашим предположениям, извлечение информации из логов можно было ускорить до нескольких секунд.

Чтобы оценить целесообразность разработки системы для оптимизации поиска по логам, мы воспользовались вот этой таблицей с XKCD:

(на самом деле нет, но нам она все равно нравится).

Итак, мы всерьез взялись за оптимизацию. Итогом нашей работы стала разработка системы, благодаря которой мы можем поднять историю действий примерно в 100 000 (сто тысяч, это не опечатка) раз быстрее. Мы разработали big-data сервис, который позволяет хранить петабайты информации в структурированном виде: каждому ключу у нас соответствует лог каких-то событий. Хранилище устроено так, что оно способно работать и на самых дешевых SATA-дисках, и на больших многодисковых хранилищах с минимальным количеством процессорного времени, при этом оно полностью fault-толерантно — если вдруг какая-то машина выйдет из строя, это ни на что не влияет. Если в системе заканчивается место, в нее просто добавляется сервер или несколько: система автоматически увидит их и начнет записывать данные. Чтение данных происходит почти моментально.

Читать дальше →

+47

XakepRU 28 янв 2014 в 07:05

Распараллеливаем процессы для ускорения вычислений и выполнения заданий в Linux

11 мин

82K

Блог компании Журнал ХакерВысоконагруженные системы *

Почти все персональные компьютеры, выпущенные за последние несколько лет, обладают как минимум двухъядерным процессором. Если у тебя, читатель, не очень старый комп или не какой-нибудь бюджетный ноутбук, то, вероятнее всего, ты обладатель многопроцессорной системы. А если еще любишь играть в игры, то тебе доступно около сотни GPU-ядер. Однако львиную долю времени вся эта мощь пылится без дела. Попробуем это исправить.

Подробности

+52

quard 29 окт 2014 в 09:33

I am Groot. Делаем свою аналитику на событиях

6 мин

33K

Блог компании Онлайн-кинотеатр ИвиВысоконагруженные системы * Веб-разработка *

Весной этого года я узнал о возможности базы данных HP Vertica создавать запросы с матчингом паттернов событий. Так называемый Events Pattern Matching хорошо ложился под задачу анализировать поведение пользователей в продуктах ivi.ru. Мы решили попробовать разобраться с воронками оплаты, с поиском проблемных мест на устройствах, глубже погрузиться в анализ трафика. Нашей команде очень нравится, как реализована аналитика у Mixpanel и Localytics (она как раз основана на событиях и их свойствах), поэтому многие идеи были позаимствованы у них.

Читать дальше →

+23

Atakua 30 окт 2014 в 06:29

Адреса памяти: физические, виртуальные, логические, линейные, эффективные, гостевые

6 мин

113K

Блог компании IntelПрограммирование * Системное программирование *

Туториал

Мне периодически приходится объяснять разным людям некоторые аспекты архитектуры Intel® IA-32, в том числе замысловатость системы адресации данных в памяти, которая, похоже, реализовала почти все когда-то придуманные идеи. Я решил оформить развёрнутый ответ в этой статье. Надеюсь, что он будет полезен ещё кому-нибудь.
При исполнении машинных инструкций считываются и записываются данные, которые могут находиться в нескольких местах: в регистрах самого процессора, в виде констант, закодированных в инструкции, а также в оперативной памяти. Если данные находятся в памяти, то их положение определяется некоторым числом — адресом. По ряду причин, которые, я надеюсь, станут понятными в процессе чтения этой статьи, исходный адрес, закодированный в инструкции, проходит через несколько преобразований.

На рисунке — сегментация и страничное преобразование адреса, как они выглядели 27 лет назад. Иллюстрация из Intel 80386 Programmers's Reference Manual 1986 года. Забавно, что в описании рисунка есть аж две опечатки: «80306 Addressing Machanism». В наше время адрес подвергается более сложным преобразованиям, а иллюстрации больше не делают в псевдографике.

Читать дальше →

+46

ID_Daemon 27 июн 2013 в 17:14

Я, пират

17 мин

278K

Копирайт

Все-таки красные у меня глаза или нет? Кажется не очень. Может так и должно быть? Я внимательно разглядывал себя в зеркало. Нет, всё-таки красные, хоть и не так сильно. Может не стоит уже с утра проверять почту и ходить по всем этим сайтам? Ну напишут там что-то, а я не прочитаю, ну и что такого? Нет, каждый раз просыпаюсь и первым делом туда…

Так начинался фантастический рассказ — антиутопия про один день из жизни программиста в недалёком будущем, написанный мной в 2010 году. Меня просили продолжить, и через какое-то время появились идеи, но всё никак не было времени их реализовать. Однако в связи с последними событиями начинает казаться, что придуманный мной сюжет того гляди может стать реальностью. Поэтому сегодня представляю вам вторую главу. Рисунок был сделан в прошлом году совсем по другому поводу, но он хорошо подошел сюда как иллюстрация.

Читать дальше →

+182

quantum 19 июн 2013 в 03:55

Премьера отечественного постапокалиптического фильма «Полигон 27»

1 мин

26K

Научная фантастика

Сегодня автором был выложен в открытый доступ фильм «Полигон 27». Особенность его в том, что режиссером, сценаристом, оператором, композитором и специалистом по спецэффектам является один человек — Артем Мирошин, а актерами — энтузиасты из города Хабаровска.

Постядерный мир. Среди руин старого города возвышается город — убежище «Новый Хабаровск». В руки молодого парня и девушки попадает важная информация о местоположении технологий, с помощью которых можно восстановить экологию планеты. Оставшись без помощи и поддержки, они вынуждены совершить путешествие к этому месту и раскрыть заговор нависший над городом.

Трейлеры и ссылка на фильм

+89

104

nekoval 14 сен 2010 в 12:37

СУБД — поворот на 90 градусов

3 мин

6.3K

Чулан

Объемы данных и требования к скорости их обработки за последние десятилетия многократно выросли. Системы управления базами данных (СУБД) пытаются соответствовать новым реалиям и претерпевают значительные эволюционные и революционные изменения. Одним из таких эволюционных факторов является движение в сторону т.н. вертикальных (column-based) систем хранения.

Примеры на пальцах

+12

FractalizeR 23 июл 2010 в 16:31

Архитектура больших проектов: FaceBook

7 мин

9.8K

Чулан

Перевод

Архитектура больших проектов: Facebook

На том уровне, на котором работает Facebook, традиционные подходы к организации работы вебсайтов не работают вообще или, как минимум, не обеспечивают должной производительности. Огромная посещаемость проекта бросила вызов инженерам Facebook необходимостью поддерживать работоспособность сайта при почти полумиллиарде активных пользователей. Эта статья описывает программное обеспечение и техники, благодаря которым это стало возможно.

Читать дальше →

+47

de_arnst 4 фев 2013 в 03:48

Жизнь с планшетом или список приложений для Android

7 мин

313K

Android *

Recovery Mode

Привет!

Сегодня хочу рассказать о своей жизни с планшетом, ну а точнее поделиться списком приложений, которые помогают мне в моей жизни и работе.

Пост написан для устройств на базе операционной системы Android, но думаю и в других системах есть аналоги.

Читать дальше →

+65

SLY_G 18 окт 2014 в 13:40

Выразительный JavaScript: Структуры данных: объекты и массивы

22 мин

150K

JavaScript * Программирование *

Перевод

Содержание

Два раза меня спрашивали: «Скажите, м-р Бэббидж, а если вы введёте в машину неправильные данные, получится ли правильный ответ?». Непостижима та путаница в головах, которая приводит к таким вопросам.

Чарльз Бэббидж, «Отрывки из жизни философа» (1864)

Числа, булевские значения и строки – кирпичики, из которых строятся структуры данных. Но нельзя сделать дом из одного кирпича. Объекты позволяют нам группировать значения (в том числе и другие объекты) вместе – и строить более сложные структуры.

Написание программ, которым мы до сего момента занимались, сильно затруднял тот факт, что они работали только с простыми данными. Эта глава добавит вам в инструментарий понимание структур данных. К её концу вы будете знать достаточно для того, чтобы начать писать полезные программы.

Глава пройдётся по более-менее реалистичному примеру программирования, вводя понятия по мере необходимости. Код примеров будет строиться из функций и переменных, которые мы определяли ранее.

Читать дальше →

+27

MastaEx 29 сен 2014 в 09:06

Блокировки и уровни изоляции транзакций InnoDB в MySQL

5 мин

80K

MySQL * SQL *

Здравствуй, Хабр!
Предлагаю всем желающим вспомнить или познать суть блокировок движка InnoDB в MySQL.

КДПВ: deadlock в исполнении тропической фауны

Читать дальше →

+33

Badoo 25 сен 2014 в 14:18

Видео докладов с конференции DevConf 2014

2 мин

23K

Блог компании BadooВеб-разработка *

Этим летом в Москве проходила конференция профессиональных веб-разработчиков DevConf 2014. Мы в Badoo поддерживали конференцию, выступали с докладами и сделали видео докладов, которые были интересны нашим разработчикам. Так как спикеры были «за», то мы делимся видео с нашими подписчиками.

1. «StatsCollector, или «Мама! Он и меня посчитал!»».
Старынин Валерий, PHP разработчик отдела BI, Badoo.
Доклад о том, как мы собираем статистику для каждого пользователя, обсчитываем каждое открытие страницы (и не только!), обрабатываем 120000 событий в секунду и планируем расширяться.

Читать дальше →

+49

raiSadam 22 авг 2014 в 07:36

Отладка C++ программ в ОС GNU/Linux

2 мин

29K

C++ * Отладка *

Туториал

Из песочницы

Так уж случилось, что по долгу работы очень много времени провожу с операционными системами семейства GNU/Linux. Основным видом моей деятельности является разработка программного обеспечения на С++.

Так вот, основной проблемой при использовании отладчика – это отображение сложных контейнеров, например, stl-контейнеров.

Решение, которое я предлагаю, актуально для gdb. Этот отладчик поддерживает скрипты, написанные на языке python, а механизмы отображения сложных объектов, называются pretty printers. Т.е. чтобы отладчик отображал нам все правильно, необходимо указать ему где находятся скрипты с этими самыми pretty printers. Для указания отладчику дополнительных команд необходим файл .gdbinit.

Итак, попробую оформить все, как инструкцию, так и читать удобней, и сам не забуду.

Читать дальше →

+15

Vad118 22 авг 2014 в 17:06

Применение машинного обучения в трейдинге

8 мин

43K

Data Mining * R *

Туториал

Перевод

Примечание переводчика 1. Я наткнулся на этот блог в одном из обзоров материалов по машинному обучению. Если вы хорошо разбираетесь в машинном обучении, то в этой статье вы не найдете для себя ничего интересного. Она достаточно поверхностная и затрагивает только основы. Если же вы, как и я, только начинаете интересоваться данной темой, то добро пожаловать под кат.
Примечание переводчика 2. Кода будет мало, а тот что есть написан на языке R, но не стоит отчаиваться, если вы его до сих пор никогда в глаза не видели. До этой статьи я тоже ничего о нем не знал, поэтому я специально отдельно написал «шпору» по языку, включив туда все, что вам встретится в статье. Если хотите сами разобраться, то начать рекомендую c маленького курса на CodeSchool. На хабре тоже есть интересная информация и полезные ссылки. И наконец вот тут есть большая шпаргалка.
Примечание переводчика 3. Статья из двух частей, однако самое интересное начинается только во второй части, поэтому я позволил себе объединить их в одну статью.

Часть 1

В этой серии статей, я собираюсь шаг за шагом построить и оттестировать простую стратегию управления активом, основанную на машинном обучении. Первая часть будет посвящена базовым концепциям машинного обучения и их применению к финансовым рынкам.

Машинное обучение является одним из наиболее многообещающих направлений в финансовой математике, в последние годы получившее репутацию изощренного и сложного инструмента. В действительности все не так сложно.

Читать дальше →

+26

octo47 23 авг 2014 в 12:33

В чем польза ZooKeeper для админов и разработчиков. Семинар в Яндексе

7 мин

95K

Блог компании ЯндексHadoop * Программирование *

Привет! Меня зовут Андрей Степачев. В конце прошлого года я выступил перед коллегами с небольшим рассказом о том, что такое ZooKeeper, и как его можно использовать. Доклад изначально был рассчитан на широкий круг аудитории и может быть полезен и разработчикам, и админам, желающим разобраться, как все это примерно работает.

Начнем, пожалуй, с истории появления ZooKeeper. Сначала, как известно, в Google написали сервис Chubby для управления своими серверами и их конфигурацией. Заодно решили задачу с распределенными блокировками. Но у Chubby была одна особенность: для захвата локов необходимо открывать объект, потом закрывать. От этого страдала производительность. В Yahoo посчитали, что им нужен инструмент, при помощи которого они могли бы строить различные системы для конфигураций своих кластеров. Именно в этом основная цель ZooKeeper — хранение и управление конфигурациями определенных систем, а локи получились как побочный продукт. В итоге вся эта система была создана для построения различных примитивных синхронизаций клиентским кодом. В самом ZooKeeper явных понятий подобных очередям нет, все это реализуется на стороне клиентских библиотек.

Стоит отметить, что протокол, используемый Zookeeper называется ZAB, ссылки на описания протокола приведены в конце статьи.

Читать дальше →

+48

3 4 ...

11 12

В рейтинге: Не участвует

Откуда: Санкт-Петербург, Санкт-Петербург и область, Россия

Дата рождения: 24 марта 1962

Зарегистрирован: 16 сентября 2009

Активность: 8 января 2023 в 13:30

Архитектор программного обеспечения, Архитектор баз данных

Ведущий

От 325 000 ₽

PostgreSQL

Golang

C++

Python

Базы данных

Проектирование архитектуры приложений

Создание архитектуры проектов

Проектирование баз данных

Объектно-ориентированное проектирование

Оптимизация кода

Эволюция структур данных в Яндекс.Метрике

Бинарные деревья поиска и рекурсия – это просто

19 советов по повседневной работе с Git

Сборка пакетов библиотек для rpm-based дистрибутивов Linux

Как использовать список ядра Linux для создания очереди

Как решать проблемы пользователей не за сутки, а за минуты: ускоряем поиск по логам

Распараллеливаем процессы для ускорения вычислений и выполнения заданий в Linux

I am Groot. Делаем свою аналитику на событиях

Адреса памяти: физические, виртуальные, логические, линейные, эффективные, гостевые

Я, пират

Премьера отечественного постапокалиптического фильма «Полигон 27»

СУБД — поворот на 90 градусов

Архитектура больших проектов: FaceBook

Архитектура больших проектов: Facebook

Жизнь с планшетом или список приложений для Android

Выразительный JavaScript: Структуры данных: объекты и массивы

Содержание

Блокировки и уровни изоляции транзакций InnoDB в MySQL

Видео докладов с конференции DevConf 2014

Отладка C++ программ в ОС GNU/Linux

Применение машинного обучения в трейдинге

Часть 1

В чем польза ZooKeeper для админов и разработчиков. Семинар в Яндексе

Информация

Специализация