Тензор, Ярославль - Разработчик системы Saby / Статьи / Хабр

ПрофильСтатьи236Посты6Подписчики34KСотрудники204

Kilor 24 мар 2021 в 13:40

DBA: когда почти закончился serial

10 мин

8.4K

Блог компании ТензорВысоконагруженные системы*PostgreSQL*SQL*Базы данных*

Туториал

"Шеф, всё пропало, у нас serial на мегатаблице кончился!" - а это значит, что либо вы его неаккуратно накрутили сами, либо у вас действительно данных столько, что разрядности integer-столбца уже не хватает для вашей большой и активной таблицы в PostgreSQL-базе.

Да и столбец этот не простой, а целый PRIMARY KEY, на который еще и ряд других немаленьких таблиц по FOREIGN KEY завязан. А еще и приложение останавливать совсем не хочется, ибо клиентам 24x7 обещано...

В общем, надо как-то с минимальными блокировками увеличить размер PK-поля в большой таблице, на которое многое завязано.

+40

Kilor 15 мар 2021 в 13:30

Случайности не случайны

5 мин

7.5K

Блог компании ТензорPostgreSQL*Алгоритмы*SQL*Математика*

Можно ли достоверно предсказать будущее хоть на немного вперед? Иногда - вполне, надо только много везения... или немного знаний.

Сегодня пронаблюдаем сеанс черной магии с последующим разоблачением, или «Я угадаю твой рандом с 3 строк!»

+19

Kilor 12 мар 2021 в 11:30

Разгоняем JS-парсер с помощью WebAssembly (часть 3: SIMD)

19 мин

3.5K

Блог компании ТензорВысоконагруженные системы*Программирование*Алгоритмы*WebAssembly*

Туториал

В предыдущей статье мы остановились на варианте, который с помощью SWAR-хинта превращает 8 последовательных цифр в одно числовое 32bit-значение. Но что если мы предположим, что все значения у нас, в основном, невелики - до 3 цифр? Тогда нам вполне достаточно использовать всего лишь 32bit-инструкции, а SWAR будет выполнен за 2 операции вместо 3 - сплошной выигрыш!

Давайте перепишем наш код так, чтобы первый блок из 4 символов обрабатывался 32bit-инструкциями, а второй блок из 8 символов, если понадобится - уже 64bit-инструкциями.

И... вместо 29ms получаем 31ms! Значит, наше предположение относительно длины чисел не оправдалось, и в первом блоке выгоднее обрабатывать сразу побольше символов.

То есть больше размерность регистра - лучше? И такие регистры есть - это 128-битные SSE-регистры XMM - в WebAssembly они доступны нам как переменные с типом v128 и суперскалярные операции над ними.

+14

Kilor 11 мар 2021 в 05:45

Разгоняем JS-парсер с помощью WebAssembly (часть 2: алгоритм и его оптимизации)

18 мин

2.6K

Блог компании ТензорWebAssembly*Программирование*JavaScript*Высоконагруженные системы*

Туториал

В первой части статьи мы исследовали скорость различных вариантов обмена информацией между JavaScript и WASM-кодом. В этом продолжении - наконец-то займемся написанием прикладного кода нашего парсера.

Мы ведь теперь пишем "прямо на ассемблере" - значит, все будет супербыстро! Правда ведь?

+16

Kilor 9 мар 2021 в 06:35

Разгоняем JS-парсер с помощью WebAssembly (часть 1: базовые возможности)

7 мин

Блог компании ТензорWebAssembly*Программирование*JavaScript*Высоконагруженные системы*

Туториал

В прошлой статье, посвященной выяснению победителя в состязании JS-парсеров строки buffers-атрибута узла плана PostgreSQL, мы дошли до факта, что самый эффективный вариант - реализовать примитивный конечный автомат и никогда не трогать регулярные выражения и любые операции над строками сложнее .charCodeAt.

Такой код на тестовом нормализованном наборе показывает время порядка 48ms на 6.3MB или около 130MB/s, что примерно в 11 раз быстрее наивного варианта со .split.

Но всегда остается вопрос: "А еще быстрее - можно?"

Чтобы приблизиться к возможностям "железа", но по-прежнему остаться в инфраструктуре JavaScript, сегодня мы научимся решать эту задачу с использованием WebAssembly и SIMD-инструкций, постаравшись по пути споткнуться обо все подводные камни.

+24

Kilor 12 фев 2021 в 11:15

DBA: «Кто-то слишком много ест!»

6 мин

16K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Высоконагруженные системы*

Тема "распухания" таблиц и индексов из-за реализации MVCC - больная для пользователей и администраторов PostgreSQL.

Однажды я уже поднимал ее в статье "DBA: когда пасует VACUUM — чистим таблицу вручную", разобрав на конкретных примерах, насколько драматический эффект для производительности запросов может оказывать невовремя проведенный или бесполезно отработавший из-за конкурентных транзакций VACUUM.

Но, помимо влияния на скорость, есть еще и факт влияния на занятое место. Наверное, вы сильно удивитесь, если таблица с единственной "живой" записью после успешного прохода autovacuum продолжит занимать гигабайты пространства на дорогих SSD.

Сегодня немного поисследуем структуру хранения данных в файлах и копнем pg_catalog - схему с описанием базы PostgreSQL, чтобы понять, как можно определить таблицы, которые явно занимают подозрительно много места.

+29

Kilor 8 фев 2021 в 16:05

Агрегаты в БД — прокси-таблицы

4 мин

Блог компании ТензорБазы данных*SQL*PostgreSQL*Высоконагруженные системы*

Мы заканчиваем мини-серию статей о работе с агрегатами в PostgreSQL:

- зачем, как, а стоит ли?

- эффективная обработка потока «фактов»

- многомерные суперагрегаты

И сегодня поговорим о том, как можно снизить суммарные задержки на вставку множества изменений в таблицы агрегатов за счет использования промежуточных таблиц и внешней обработки.

+12

Kilor 3 фев 2021 в 07:10

Агрегаты в БД — многомерные суперагрегаты

4 мин

4.6K

Блог компании ТензорPostgreSQL*SQL*Базы данных*ERP-системы*

В прошлой статье мини-цикла о работе с агрегатами я рассказывал, как организовать эффективное многопоточное преобразование потока первичных данных в данные агрегированные. Там мы рассматривали задачу "свертки" продаж в агрегаты вида товар/дата/кол-во.

Сегодня мы рассмотрим более сложный вариант, который зачастую начинается со слов "А заказчик захотел…" и приводит нас к иерархичным агрегатам в нескольких одновременных разрезах, которые позволяют нам в СБИС практически мгновенно строить оперативные отчеты в подсистемах организации торговли, бухгалтерского учета и даже управления активными продажами.

+14

Kilor 28 янв 2021 в 11:30

Агрегаты в БД — эффективная обработка потока «фактов»

5 мин

5.2K

Блог компании ТензорБазы данных*SQL*PostgreSQL*Высоконагруженные системы*

Предположим, вам надо обработать на PostgreSQL большое (не, не так... БОЛЬШОЕ) количество записей, чтобы посчитать какие-нибудь агрегаты. В предыдущей статье были разобраны различные варианты, как это можно организовать, а в этой посмотрим, как при этом особо никого не заблокировать, включая "набегающий поток" данных.

Например, это может быть пересчет остатков и ведение сводных продаж по товарам при их постоянных отгрузках, или агрегация сальдо и оборотов по бухгалтерским счетам, при массовых изменениях проводок, или что-то еще... В любой управленческой системе подобных задач наберется горка, и СБИС тоже не является исключением.

Но у всех этих ситуаций есть общий момент - количество изменений сильно больше количества целевых агрегатов. Например: тысячи товаров, по каждому десятки тысяч отгрузок в день.

+13

Kilor 25 янв 2021 в 13:45

Агрегаты в БД — зачем, как, а стоит ли?

5 мин

15K

Блог компании ТензорPostgreSQL*SQL*Базы данных*ERP-системы*

С течением жизни приложения в его БД накапливается все больше данных. Десктопное оно, SaaS или даже мобильное - неважно, в современном мире почти каждый что-то хранит "у себя".

Если это какая-то локальная утилита - не страшно, само ее существование у пользователя достаточно ограничено. Но если это что-то вроде нашего СБИС, который накапливает и помогает анализировать операции за все время существования бизнеса, то, по мере его роста, не только операций становится больше, но и понимания, какие именно сводные отчеты помогают в оперативном управлении.

Вот про то, как сделать такие отчеты быстрыми, какие бывают способы их реализации и встречаются "грабли" на этом пути, сегодня и поговорим.

+13

Kilor 18 янв 2021 в 09:35

DBA: Ночной Дозор

3 мин

7.7K

Блог компании ТензорВысоконагруженные системы*PostgreSQL*SQL*Базы данных*

Для многих систем характерен паттерн постоянного накопления данных с течением времени. Причем основная их масса больше никогда не изменяется - то есть они пишутся в режиме append-only.

Это не только различного рода логи и метрики оборудования, но и такие, казалось бы, несвязанные вещи, как переписка между пользователями или комментарии к новостям.

Около года назад я уже писал про модель организации секционирования таких данных и вызываемые этим каскадные изменения в структуре БД. А сегодня на примере нашего сервиса анализа логов PostgreSQL-серверов разберем особенности обслуживания организованных так баз, и как грамотный подход (и немного ночной работы) может сократить затраты на инфраструктуру в разы.

+19

Kilor 11 янв 2021 в 12:15

SQL HowTo: рейтинг-за-интервал

3 мин

8.1K

Блог компании ТензорPostgreSQL*SQL*Базы данных*ERP-системы*

Одним из наиболее частых требований-"хотелок" бизнеса является построение всяких разных рейтингов - "самые оборотистые клиенты", "самые продаваемые позиции", "самые активные сотрудники", … - любимая тема разных дашбордов.

Традиционно, есть два подхода к этой задаче: запрос по требованию по "сырым" данным или предварительная агрегация. И если "просто посчитать" такой отчет по первичке - упражнение для SQL-новичка, но очень "тяжелое" для производительности СУБД, то вариант сделать так, чтобы он строился практически мгновенно при большом количестве активных аккаунтов независимых бизнесов, как у нас в СБИС, без необходимости пересчитывать агрегированную статистику каждый день судорожно по всем клиентам - интересная задача.

+13

MGorkov 28 дек 2020 в 06:26

Мониторинг многопоточных приложений Node.JS

7 мин

7.6K

Блог компании ТензорJavaScript*Node.JS*Высоконагруженные системы*Программирование*

В этой статье мы разберем особенности мониторинга многопоточного Node.JS приложения на примере нашего коллектора для сервиса мониторинга и анализа логов серверов PostgreSQL.

Читать дальше →

+10

Kilor 24 дек 2020 в 12:15

Первый парсер на деревне

7 мин

Блог компании ТензорПрограммирование*Высоконагруженные системы*Node.JS*JavaScript*

Сегодня мы померяемся парсерами. Точнее, померяем эффективность разных вариантов JavaScript-парсеров на примере одной простой задачи преобразования строки конкретного формата в объект.

Вопросы сложностей организации многопоточности в JavaScript оставим за рамками этой статьи и сосредоточимся на различных вариантах и малоизвестных способах использования регулярных выражений для разбора строки buffers-атрибута узла плана PostgreSQL.

То есть из строки вида 'Buffers: shared hit=123 read=456, local hit=789' мы хотим как можно быстрее получить JSON такого формата:

{
  "shared-hit"  : 123
, "shared-read" : 456
, "local-hit"   : 789
}

Выглядит вроде все тривиально, правда же?

Читать дальше →

+15

Kilor 17 дек 2020 в 20:50

SQL HowTo: префиксный FTS-поиск с релевантностью по дате

4 мин

3.9K

Блог компании ТензорАлгоритмы*SQL*PostgreSQL*ERP-системы*

В нашем СБИС, как и в любой другой системе работы с документами, по мере накопления данных у пользователей возникает желание их "поискать".

Но, поскольку люди — не компьютеры, то и ищут они примерно как "что-то там такое было от Иванова или от Ивановского… нет, не то, раньше, еще раньше… вот оно!"

То есть технически верное решение — это префиксный полнотекстовый поиск с ранжированием результатов по дате.

Но разработчику это грозит жуткими проблемами — ведь для FTS-поиска в PostgreSQL используются «пространственные» типы индексов GIN и GiST, которые не предусматривают «подсовывания» дополнительных данных, кроме текстового вектора.

Остается только грустно вычитывать все записи по совпадению префикса (тысячи их!) и сортировать или, наоборот, идти по индексу даты и фильтровать все встречающиеся записи на совпадение префикса, пока не найдем подходящие (как скоро найдется «абракадабра»?..).

И то, и другое не особо приятно для производительности запроса. Или что-то все же можно придумать для быстрого поиска?

Читать дальше →

Kilor 14 дек 2020 в 11:00

PostgreSQL Antipatterns: скованные одной цепью EXISTS

2 мин

8.1K

Блог компании ТензорПрограммирование*Базы данных*SQL*PostgreSQL*

Я уже как-то рассказывал про особенности вычисления условий в SQL вообще и в PostgreSQL, в частности. Сегодня продолжим тему и попробуем написать и пооптимизировать простой запрос — у кого из сотрудников есть на выполнении «суперприоритетные» задачи.

CREATE TABLE task AS
SELECT
  id
, (random() * 100)::integer person -- всего 100 сотрудников
, least(trunc(-ln(random()) / ln(2)), 10)::integer priority -- каждый следующий приоритет в 2 раза менее вероятен
FROM
  generate_series(1, 1e5) id; -- 100K задач
CREATE INDEX ON task(person, priority);

Слово «есть» в SQL превращается в EXISTS — вот с самого простого варианта и начнем:

SELECT
  *
FROM
  generate_series(0, 99) pid
WHERE
  EXISTS(
    SELECT
      NULL
    FROM
      task
    WHERE
      person = pid AND
      priority = 10
  );

все картинки планов кликабельны

Пока все выглядит неплохо, но…

Читать дальше →

+10

Kilor 7 дек 2020 в 09:15

One Tool to Analyze Them All

1 мин

3.3K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Визуализация данных*

Мы рады сообщить о реализации на explain.tensor.ru базовой поддержки анализа и визуализации планов, специфичных для PostgreSQL-совместимых решений: Timescale, Citus, Greenplum и Redshift.

Так что если в будущем вам встретится план, похожий на результат обычного EXPLAIN, но с некоторыми странными узлами — вы знаете, куда идти.

EXPLAIN <-> SQL

В развитие темы сопоставления узлов плана и запроса добавлена возможность быстрого просмотра и переключения между ними:

Читать дальше →

+18

Kilor 26 ноя 2020 в 07:10

PostgreSQL в «Тензоре» — публикации за год

16 мин

6.5K

Блог компании ТензорERP-системы*PostgreSQL*SQL*Базы данных*

Ровно год назад с рассказа о нашем сервисе визуализации планов запросов мы начали публикацию на Хабре серии статей, посвященных работе с PostgreSQL и его особенностям. Это уже пройденные нами «грабли», интересные наработки, накопившиеся рекомендации, применяемые в разработке «Тензора» — те вещи, которые помогают нам делать СБИС более эффективным.

СБИС — это система полного цикла управления бизнесом — от кадрового учета, бухгалтерии, делопроизводства и налоговой отчетности, до таск-менеджмента, корпоративного портала и видеокоммуникаций. Поэтому каждый из 1 500 000 клиентов-организаций находит что-то полезное для себя и использует наши сервисы на постоянной основе — что дает ежемесячно более миллиона активных клиентов.

И все их данные надо где-то хранить и эффективно извлекать. Поэтому еще в далеком 2012 году мы сделали ставку на PostgreSQL, и теперь это основное хранилище данных наших сервисов:

почти 9000 баз общим объемом 1PB
свыше 200TB данных клиентов
1500 разработчиков работают с БД

Чтобы упорядочить накопившиеся знания, за минувший год мы опубликовали более 60 статей, в которых делимся своим реальным опытом, проверенным практикой «сурового энтерпрайза». Возможно, какие-то из них вы пропустили, поэтому под катом мы собрали дайджест, где каждый разработчик и DBA найдет что-то интересное для себя.

Для удобства все статьи разбиты на несколько циклов:

Анализ запросов
Наглядно демонстрируем все тайны EXPLAIN [ANALYZE].
SQL Antipatterns и оптимизация SQL
Понимаем как [не] надо решать те или иные задачи в PostgreSQL и почему.
SQL HowTo
Пробуем подходы к реализации сложных алгоритмов на SQL для развлечения и с пользой.
DBA
Присматриваем за базой, чтобы ей легко дышалось.
Прикладные решения
Решаем с помощью PostgreSQL конкретные бизнес-задачи.

Читать дальше →

+23

Kilor 18 ноя 2020 в 07:10

PostgreSQL Antipatterns: DBA-детектив, или Три дела о потерянной производительности

30 мин

5.5K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Реверс-инжиниринг*

Сегодня вместо решения абстрактных алгоритмических задач мы выступим в роли детектива, по крупицам доставшейся информации исследующего неэффективные запросы, и рассмотрим три реальных дела, встречавшихся в разное время на просторах нашего приложения СБИС, когда простота и наивность при написании SQL превращалась в дополнительную нагрузку для PostgreSQL-сервера.

Дедукция и индукция помогут нам вычислить, что же все-таки хотел получить от СУБД разработчик, и почему это получилось не слишком оптимально. Итак, сегодня нас ждут:

Дело о непростом пути вверх
Разберем в live-видео на реальном примере некоторые из способов улучшения производительности иерархического запроса.
Дело о худеющем запросе
Увидим, как можно запрос упростить и ускорить в несколько раз, пошагово применяя стандартные методики.
Дело о развесистой клюкве
Восстановим структуру БД на основании единственного запроса с 11 JOIN и предложим альтернативный вариант решения на ней той же задачи.

Расследовать

+17

stmark 10 ноя 2020 в 10:21

Фаззинг тестирование веб-интерфейса. Расшифровка доклада

7 мин

7.2K

Блог компании ТензорВеб-разработка*Тестирование IT-систем*

Из песочницы

В начале этого года Тензор проводил митап в городе Иваново, на котором я выступил с докладом про эксперименты с фаззинг-тестированием интерфейса. Тут расшифровка этого доклада.

Когда обезьяны заменят всех QA? Можно ли отказаться от ручного тестирования и UI автотестов, заменив их фаззингом? Как будет выглядеть полная диаграмма состояний и переходов для простого TODO приложения? Пример реализации и о том, как работает такой фаззинг далее под катом.

Читать дальше →

+15

1 2 ...

6 7

9 10 11 12

DBA: когда почти закончился serial

Случайности не случайны

Разгоняем JS-парсер с помощью WebAssembly (часть 3: SIMD)

Разгоняем JS-парсер с помощью WebAssembly (часть 2: алгоритм и его оптимизации)

Разгоняем JS-парсер с помощью WebAssembly (часть 1: базовые возможности)

DBA: «Кто-то слишком много ест!»

Агрегаты в БД — прокси-таблицы

Агрегаты в БД — многомерные суперагрегаты

Агрегаты в БД — эффективная обработка потока «фактов»

Агрегаты в БД — зачем, как, а стоит ли?

DBA: Ночной Дозор

SQL HowTo: рейтинг-за-интервал

Мониторинг многопоточных приложений Node.JS

Первый парсер на деревне

Ближайшие события

SQL HowTo: префиксный FTS-поиск с релевантностью по дате

PostgreSQL Antipatterns: скованные одной цепью EXISTS

One Tool to Analyze Them All

EXPLAIN <-> SQL

PostgreSQL в «Тензоре» — публикации за год

PostgreSQL Antipatterns: DBA-детектив, или Три дела о потерянной производительности

Фаззинг тестирование веб-интерфейса. Расшифровка доклада

Информация