Comments / Profile of lemelisk / Habr

How to become an author

Пользователь

ProfileArticles1PostsNewsComments233

Проект Miranda NG получает приз «дикие указатели» (часть вторая)

lemelisk Nov 28 2014 at 18:02

Я тоже не знаю, где это можно применить. Насколько я понимаю, это побочный эффект того, что правила инициализации для ссылок-локальных переменных и ссылок-параметров функций одинаковы. А, скажем, для функции вида void f(const Base&) вызов f( Derived() ) вполне осмысленен.

Проект Miranda NG получает приз «дикие указатели» (часть вторая)

lemelisk Nov 28 2014 at 15:52

Кстати, есть ещё подобная красивая «магия» при биндинге временной переменной на ссылку:

const Base& base_ref = Derived(); // Или любая функция, возвращающая Derived по значению

По окончании времени жизни ссылки будет вызван деструктор Derived, а не Base.

Проект Miranda NG получает приз «дикие указатели» (часть вторая)

lemelisk Nov 28 2014 at 15:40

Главное при этом указатель правильного типа в конструктор (конструктор — шаблонный) передать, вот так будет работать:

std::shared_ptr<Base> a(new Derived);

а вот так уже, разумеется, нет:

Base* b = new Derived;
std::shared_ptr<Base> c(b);

Проект Miranda NG получает приз «дикие указатели» (часть вторая)

lemelisk Nov 28 2014 at 15:29

Чего-то я поспешил, согласно новому стандарту (C++11) здесь нету неопределенного поведения, вот если ++i заменить на i++, то появится. Старый стандарт (С++03) имел более строгие правила, согласно ему это UB.

Проект Miranda NG получает приз «дикие указатели» (часть вторая)

lemelisk Nov 28 2014 at 15:11

Тут проблема в ++i, вместо него должно быть (i + 1), и выражение обретает нормальный вид, не считая, конечно, явно впечатанной константы 50.

Проект Miranda NG получает приз «дикие указатели» (часть вторая)

lemelisk Nov 28 2014 at 08:41

The first argument of 'memcpy' function is equal to the second argument.

Это вообще UB согласно стандарту, потому что он требует, чтобы источник и приемник у memcpy не пересекались. Хотя на практике будет работать, конечно.

Проект Miranda NG получает приз «дикие указатели» (часть первая)

lemelisk Nov 25 2014 at 18:23

Насколько я понял, там примерно следующая ситуация: есть переменная size — размер массива, и есть ptr — указатель на первый элемент массива (названия условные). Если size == 0, то ptr — нулевой указатель, если size > 0, то ptr указывает на первый элемент массива длины size. Сначала они бегут по элементам массива от 0 до size – 1 (если указатель равен 0, то и size равен 0, а следовательно тело цикла не выполняется ни разу), а потом вместо проверки if (size > 0) используют совершенно равнозначную ей (при соблюдении вышеописанного инварианта) проверку if (ptr). В принципе ничего такого криминального.

Почему вы никогда не должны говорить «никогда»

lemelisk Nov 22 2014 at 19:29

А если мы начинаем везде использовать индексы

Но мы не используем здесь индекс (структуру данных, по которой можем быстро искать) для нашего графа, а просто заимствуем ваш прием и храним нужные данные прямо в списке ребер. Для данной задачи (вывести все вершины, соединенные с заданной) нам индекс не нужен, достаточно любой структуры, которая может выдать все хранящиеся в ней элементы.

Почему вы никогда не должны говорить «никогда»

lemelisk Nov 21 2014 at 14:29

Вы на какие-то странные вещи в своих подсчетах упираете. Говорите, что можете положить в индекс вместо ссылок сами данные, что вам мешает сделать тоже самое для списка ребер (можно создать отдельный список, положив в него только ребра нужного типа)? Упираете на то, что читаете с диска большими блоками, сделайте так, чтобы пока у вас список ребер меньше этого размера блока, он лежал бы одним последовательным куском, а потом несколькими кусками с размером в блок. Можно же использовать для реализации списка ребер практически любую структуру данных, причем можно даже гибко переключать их: если ребер мало — использовать одну, если много — другую.

Почему вы никогда не должны говорить «никогда»

lemelisk Nov 21 2014 at 12:25

Давайте какую-то совсем упрощенную модель попробую накидать.

Много букв

Предположим, у нас все вершины и все ребра одного типа, то есть для всех вершин храним какой-то одинаковый набор данных и для ребер тоже какой-то другой свой набор.

Данные о вершинах храним в одном гигантском бинарном файле. Тогда физический адрес вершины — это смещение от начала файла для её блока данных. Если вершину необходимо удалить, то, конечно, мы ничего не смещаем в нашем файле, а просто этот блок данных становится свободным, и в последующем мы запишем в него данные о новых вершинах. Чтобы хранить данные о свободных блоках, прям на них же построим односвязный список (прием, аналогичный тому, что используют аллокаторы памяти). Если свободных блоков нету, то дописываем в конец файла. Так как мы схитрили и сказали, что все вершины одинакового типа (и следовательно, записи об их данных одинакового размера), то сильно страдать от наличия неиспользуемой памяти в середине файла мы будем только в маловероятном сценарии, когда мы добавлять вершины перестали, а начали их только удалять в промышленных масштабах. Как нетрудно заметить, физический адрес вершины при такой схеме никогда не меняется.

С ребрами ровно та же система (один большой файл на всех), для ребра храним его свойства и физические адреса вершин, которые он соединяет, физические адреса ребер тоже никогда не меняются. Также для каждой вершины храним список физических адресов ребер, из неё выходящих. Хранить все эти списки будем в третьем гигантском файле. Каждый отдельный такой список представляет из себя односвязный список блоков фиксированного размера (такая структура называется chunked vector): то есть, например, 20 адресов ребер и указатель на следующий такой блок из 20 ребер. Поскольку у нас снова всего блоки одинакового размера, применяем все ту же технику хранения. Дополнительно для каждой вершины храним физический адрес самого нового (ещё не до конца заполненного блока), с которого, переходя по указателям, можем прочитать весь список ребер (за время, пропорциональное его длине). Для ребра во втором файле храним указатели, по которым оно записаны в обоих списках вершин. Добавление выполняется за константу, удалением чуть более трудоемко (для каждой вершины смотрим самую последнюю добавленную позицию в списке, меняем её местами с удаляемой из этого списка, а потом уже все удаляем), но тоже за константу.

Если хотим, можем отдавать наружу прямо наши смещения, если нет, то запилить отдельные B-деревья, которые будут по ключу выдавать смещение. В такой реализации мы не умеем быстро отвечать на вопрос, соединены ли две вершины между собой ребром, можем для этого запилить большой индекс на всех парах соединенных между собой вершин, можем подумать как модернизировать наш chunked vector (например, превращать его в дерево поиска или хеш таблицу, если ребер становится больше некоторой константы), в общем, варианты есть.

Почему вы никогда не должны говорить «никогда»

lemelisk Nov 21 2014 at 10:19

Но все равно остается необходимость поиска данных по ключу, поэтому сами данные будут хранится примерно также — в древообразной структуре. Но это означает, что периодически надо будет структуру дерева менять (page split для B+, балансирование для AVL и RB-tree итп), это значит что физическое смещение записи в файле данных будет меняться.

Почему? Будем в индексе поиска по ключу хранить не сами данные, а ссылки на их физическое расположение, тогда ребалансировка не будет изменять расположение данных.

Когда структура поменяется надо будет найти в индексе записи, ссылающиеся на старые адреса и обновить их. А как найти такие адреса? Только обходом всего индекса.

Ну не всего, если у нас граф, скажем, неориентированный, то мы знаем с какими вершинами наша связана, ровно для них и надо менять. Но, вообще, надо стремиться, чтобы данные своё физического расположения не меняли.

Почему вы никогда не должны говорить «никогда»

lemelisk Nov 21 2014 at 10:04

Поэтому если графи сохраняется на диске, то для него также нужен будет индекс, причем в виде B+-дерева.

Почему? Ведь B+-дерево мы храним на диске, не используя никакие дополнительные средства, почему для произвольного графа без них будет не обойтись?

Почему вы никогда не должны говорить «никогда»

lemelisk Nov 21 2014 at 09:35

Да, спасибо, я не видел ваш комментарий с презентацией, когда писал свой, и задавал вопрос автору комментария уровнем выше. А что мешает в РСУБД такой же подход использовать? В смысле, что мешает допустить это самое хранение?

Почему вы никогда не должны говорить «никогда»

lemelisk Nov 21 2014 at 09:14

А можно нубский вопрос? Почему нельзя сделать так, чтобы переход по индексу не требовал его поиска? То есть индексы у нас лежат в каком-то дереве поиска, мы в нем ищем ключ и на выходе получаем некоторый физический идентификатор, по которому наши данные лежат (не знаю точно, что он из себя представляет, скажем имя файла+позиция от начала). Почему нельзя вместе с индексом положить сразу этот физический идентификатор? Будут проблемы, когда у записи этот идентификатор изменится и нам придется его везде обновлять? Тогда из-за чего такое обновление будет происходить и нельзя ли от этого как-то избавиться?

Решение задач на определение фальшивой монеты взвешиванием 2.0

lemelisk Nov 18 2014 at 09:05

В таком случае ваше утверждение неверно. Вы не сможете определить монету, даже если вам сказать легче она или тяжелее настоящей. 2 взвешивания — это всего 9 различных возможных исходов, каждому исходу соответствует ровно один ответ (скажем, монета под номером 3 — фальшивая), а вариантов расположения фальшивой монеты — 12.

Решение задач на определение фальшивой монеты взвешиванием 2.0

lemelisk Nov 18 2014 at 08:41

Для какой формулировки задачи требуется всего 2 взвешивания?

Как и для чего Яндекс отключает собственные дата-центры

lemelisk Nov 17 2014 at 18:03

А каким таким сервисом вы пользуетесь, что вам для него настолько критичен пинг?

Пальчиковые деревья (Часть 1. Представление)

lemelisk Nov 15 2014 at 09:21

Кстати, возможно не так очевидно, как для очереди, но дек также можно эмулировать двумя стеками, имея при этом амортизированное O(1) на каждую операцию. Основная идея, собственно, точно такая же: заводим два стека, один символизирует голову, второй — хвост, соответственно при вставке/удалении из головы/хвоста, добавляем или удаляем из нужного стека. Единственная разница, когда стек, из которого нам нужно удалить, оказывается пустым, то мы перемещаем в него из другого стека не все элементы сразу, а только нижнюю половину (можно взять и другую пропорцию).

Пальчиковые деревья (Часть 1. Представление)

lemelisk Nov 14 2014 at 08:54

К слову, если персистентность не нужна (вы всегда работаете только с последней версией структуры), то можно просто эмулировать очередь двумя стеками, это будет работать за амортизированное O(1).

Пальчиковые деревья (Часть 1. Представление)

lemelisk Nov 14 2014 at 07:52

Прорекламирую свою статью про персистентную очередь, выполняющую каждую операцию за фактическое (не амортизационное) O(1), может кому-то будет интересно. Есть ещё альтернативная реализация, использующая 5 или 6 персистентных стеков. Обе реализации обладают свойством иммутабельности, значит могут быть реализованы на функциональном языке программирования (хотя я, конечно, не знаток).

Последовательность (напоминает двусторонний стек — первый зашёл, первый вышел с обоих концов)

Это называется дек (deque).

1 2 ...

10