Тензор, Ярославль - Разработчик системы Saby / Статьи / Хабр

ПрофильСтатьи244Посты6Подписчики34KСотрудники204

@MGorkov 28 дек 2020 в 06:26

Мониторинг многопоточных приложений Node.JS

7 мин

8.4K

Блог компании ТензорJavaScript * Node.JS * Высоконагруженные системы * Программирование *

В этой статье мы разберем особенности мониторинга многопоточного Node.JS приложения на примере нашего коллектора для сервиса мониторинга и анализа логов серверов PostgreSQL.

Читать дальше →

+10

@Kilor 24 дек 2020 в 12:15

Первый парсер на деревне

7 мин

6.3K

Блог компании ТензорJavaScript * Node.JS * Высоконагруженные системы * Программирование *

Сегодня мы померяемся парсерами. Точнее, померяем эффективность разных вариантов JavaScript-парсеров на примере одной простой задачи преобразования строки конкретного формата в объект.

Вопросы сложностей организации многопоточности в JavaScript оставим за рамками этой статьи и сосредоточимся на различных вариантах и малоизвестных способах использования регулярных выражений для разбора строки buffers-атрибута узла плана PostgreSQL.

То есть из строки вида 'Buffers: shared hit=123 read=456, local hit=789' мы хотим как можно быстрее получить JSON такого формата:

{
  "shared-hit"  : 123
, "shared-read" : 456
, "local-hit"   : 789
}

Выглядит вроде все тривиально, правда же?

Читать дальше →

+12

@Kilor 17 дек 2020 в 20:50

SQL HowTo: префиксный FTS-поиск с релевантностью по дате

4 мин

4.3K

Блог компании ТензорERP-системы * PostgreSQL * SQL * Алгоритмы *

В нашем СБИС, как и в любой другой системе работы с документами, по мере накопления данных у пользователей возникает желание их "поискать".

Но, поскольку люди — не компьютеры, то и ищут они примерно как "что-то там такое было от Иванова или от Ивановского… нет, не то, раньше, еще раньше… вот оно!"

То есть технически верное решение — это префиксный полнотекстовый поиск с ранжированием результатов по дате.

Но разработчику это грозит жуткими проблемами — ведь для FTS-поиска в PostgreSQL используются «пространственные» типы индексов GIN и GiST, которые не предусматривают «подсовывания» дополнительных данных, кроме текстового вектора.

Остается только грустно вычитывать все записи по совпадению префикса (тысячи их!) и сортировать или, наоборот, идти по индексу даты и фильтровать все встречающиеся записи на совпадение префикса, пока не найдем подходящие (как скоро найдется «абракадабра»?..).

И то, и другое не особо приятно для производительности запроса. Или что-то все же можно придумать для быстрого поиска?

Читать дальше →

@Kilor 14 дек 2020 в 11:00

PostgreSQL Antipatterns: скованные одной цепью EXISTS

2 мин

9.2K

Блог компании ТензорPostgreSQL * SQL * Базы данных * Программирование *

Я уже как-то рассказывал про особенности вычисления условий в SQL вообще и в PostgreSQL, в частности. Сегодня продолжим тему и попробуем написать и пооптимизировать простой запрос — у кого из сотрудников есть на выполнении «суперприоритетные» задачи.

CREATE TABLE task AS
SELECT
  id
, (random() * 100)::integer person -- всего 100 сотрудников
, least(trunc(-ln(random()) / ln(2)), 10)::integer priority -- каждый следующий приоритет в 2 раза менее вероятен
FROM
  generate_series(1, 1e5) id; -- 100K задач
CREATE INDEX ON task(person, priority);

Слово «есть» в SQL превращается в EXISTS — вот с самого простого варианта и начнем:

SELECT
  *
FROM
  generate_series(0, 99) pid
WHERE
  EXISTS(
    SELECT
      NULL
    FROM
      task
    WHERE
      person = pid AND
      priority = 10
  );

все картинки планов кликабельны

Пока все выглядит неплохо, но…

Читать дальше →

+10

@Kilor 7 дек 2020 в 09:15

One Tool to Analyze Them All

1 мин

3.5K

Блог компании ТензорБазы данных * SQL * PostgreSQL * Визуализация данных *

Мы рады сообщить о реализации на explain.tensor.ru базовой поддержки анализа и визуализации планов, специфичных для PostgreSQL-совместимых решений: Timescale, Citus, Greenplum и Redshift.

Так что если в будущем вам встретится план, похожий на результат обычного EXPLAIN, но с некоторыми странными узлами — вы знаете, куда идти.

EXPLAIN <-> SQL

В развитие темы сопоставления узлов плана и запроса добавлена возможность быстрого просмотра и переключения между ними:

Читать дальше →

+15

@Kilor 26 ноя 2020 в 07:10

PostgreSQL в «Тензоре» — публикации за год

16 мин

6.9K

Блог компании ТензорБазы данных * SQL * PostgreSQL * ERP-системы *

Ровно год назад с рассказа о нашем сервисе визуализации планов запросов мы начали публикацию на Хабре серии статей, посвященных работе с PostgreSQL и его особенностям. Это уже пройденные нами «грабли», интересные наработки, накопившиеся рекомендации, применяемые в разработке «Тензора» — те вещи, которые помогают нам делать СБИС более эффективным.

СБИС — это система полного цикла управления бизнесом — от кадрового учета, бухгалтерии, делопроизводства и налоговой отчетности, до таск-менеджмента, корпоративного портала и видеокоммуникаций. Поэтому каждый из 1 500 000 клиентов-организаций находит что-то полезное для себя и использует наши сервисы на постоянной основе — что дает ежемесячно более миллиона активных клиентов.

И все их данные надо где-то хранить и эффективно извлекать. Поэтому еще в далеком 2012 году мы сделали ставку на PostgreSQL, и теперь это основное хранилище данных наших сервисов:

почти 9000 баз общим объемом 1PB
свыше 200TB данных клиентов
1500 разработчиков работают с БД

Чтобы упорядочить накопившиеся знания, за минувший год мы опубликовали более 60 статей, в которых делимся своим реальным опытом, проверенным практикой «сурового энтерпрайза». Возможно, какие-то из них вы пропустили, поэтому под катом мы собрали дайджест, где каждый разработчик и DBA найдет что-то интересное для себя.

Для удобства все статьи разбиты на несколько циклов:

Анализ запросов
Наглядно демонстрируем все тайны EXPLAIN [ANALYZE].
SQL Antipatterns и оптимизация SQL
Понимаем как [не] надо решать те или иные задачи в PostgreSQL и почему.
SQL HowTo
Пробуем подходы к реализации сложных алгоритмов на SQL для развлечения и с пользой.
DBA
Присматриваем за базой, чтобы ей легко дышалось.
Прикладные решения
Решаем с помощью PostgreSQL конкретные бизнес-задачи.

Читать дальше →

+20

@Kilor 18 ноя 2020 в 07:10

PostgreSQL Antipatterns: DBA-детектив, или Три дела о потерянной производительности

30 мин

5.7K

Блог компании ТензорPostgreSQL * SQL * Базы данных * Реверс-инжиниринг *

Сегодня вместо решения абстрактных алгоритмических задач мы выступим в роли детектива, по крупицам доставшейся информации исследующего неэффективные запросы, и рассмотрим три реальных дела, встречавшихся в разное время на просторах нашего приложения СБИС, когда простота и наивность при написании SQL превращалась в дополнительную нагрузку для PostgreSQL-сервера.

Дедукция и индукция помогут нам вычислить, что же все-таки хотел получить от СУБД разработчик, и почему это получилось не слишком оптимально. Итак, сегодня нас ждут:

Дело о непростом пути вверх
Разберем в live-видео на реальном примере некоторые из способов улучшения производительности иерархического запроса.
Дело о худеющем запросе
Увидим, как можно запрос упростить и ускорить в несколько раз, пошагово применяя стандартные методики.
Дело о развесистой клюкве
Восстановим структуру БД на основании единственного запроса с 11 JOIN и предложим альтернативный вариант решения на ней той же задачи.

Расследовать

+17

@stmark 10 ноя 2020 в 10:21

Фаззинг тестирование веб-интерфейса. Расшифровка доклада

7 мин

Блог компании ТензорТестирование IT-систем * Веб-разработка *

Из песочницы

В начале этого года Тензор проводил митап в городе Иваново, на котором я выступил с докладом про эксперименты с фаззинг-тестированием интерфейса. Тут расшифровка этого доклада.

Когда обезьяны заменят всех QA? Можно ли отказаться от ручного тестирования и UI автотестов, заменив их фаззингом? Как будет выглядеть полная диаграмма состояний и переходов для простого TODO приложения? Пример реализации и о том, как работает такой фаззинг далее под катом.

Читать дальше →

+12

@Kilor 10 ноя 2020 в 07:10

PostgreSQL Antipatterns: работаем с отрезками в «кровавом энтерпрайзе»

6 мин

14K

Блог компании ТензорERP-системы * PostgreSQL * SQL * Алгоритмы *

В различных бизнес-приложениях регулярно возникает необходимость решить какую-либо задачу с отрезками/интервалами. Самое сложное в них — понять, что это именно одна из таких задач.

Как правило, они отчаянно маскируются, и даже у нас в СБИС их найти можно в абсолютно разных сферах управления предприятием: контроле рабочего времени, оценке загрузки линий АТС или даже в бухгалтерском учете.

«Отличие enterprise [решения] от всего остального — он всегда идёт от запросов бизнеса и решает какую-то бизнес-задачу.» [src]

Вот и давайте посмотрим, какие именно прикладные задачи и как можно решить с помощью PostgreSQL и сократить время анализа данных с нескольких секунд на бизнес-логике до десятков миллисекунд, умея эффективно применять следующие алгоритмы непосредственно внутри SQL-запроса:

поиск отрезков, пересекающих точку/интервал
слияние отрезков по максимальному перекрытию
подсчет количества отрезков в каждой точке

Читать дальше →

+24

@Kilor 29 окт 2020 в 11:00

Анализируем «слона» по частям

3 мин

4.4K

Блог компании ТензорPostgreSQL * SQL * Базы данных * Визуализация данных *

Если вы регулярно отлаживаете производительность запросов к PostgreSQL, а EXPLAIN (ANALYZE, BUFFERS) ... — любимый инструмент познания особенностей работы этой СУБД, то новые полезные «фишки» нашего сервиса визуализации и анализа планов explain.tensor.ru наверняка пригодятся вам в этом нелегком деле.

Но сразу напомню, что без полноценного всестороннего мониторинга базы PostgreSQL использовать только анализ плана — это выступать с позиции мудреца #5!

[источник КДПВ, «Слепые и слон»]

Немного про мудреца #5

+16

@tensor_sbis 27 окт 2020 в 08:27

Плюшки с изюминкой: как мы используем митапы, преподавание и творчество для мотивации разработчиков

3 мин

4.6K

Блог компании ТензорКарьера в IT-индустрииУправление персоналом *

Программисты привыкли, что у айтишников крутые офисы, хорошие зарплаты и полный соцпакет. Это стало стандартом. Мы в Тензоре не останавливаемся на этом, и чтобы разрабы не заскучали, а новые к нам хотели, применяем и необычные методы мотивации. Какие — расскажут сами программисты.

@Kilor 19 окт 2020 в 16:00

SQL HowTo: ломаем мозг об дерево — упорядочиваем иерархию с рекурсией и без

10 мин

11K

Блог компании ТензорНенормальное программирование * Алгоритмы * SQL * PostgreSQL *

Видимо, это осень так влияет, что за последний месяц на PostgreSQL уже и в «Морской бой» играли, и «Жизнь» Конвея эмулировали… Что уж оставаться в стороне! Давайте и мы потренируем мозг в реализации нетривиальных алгоритмов на SQL.

Тем более, сегодняшняя тема родилась из обсуждения моей же статьи «PostgreSQL Antipatterns: «Бесконечность — не предел!», или Немного о рекурсии», где я показал, как можно заменить рекурсивное чтение иерархичных данных из таблицы на линейное.

Прочитать-то мы прочитали, но ведь чтобы для вывода упорядочить элементы дерева в соответствии с иерархией, уж точно придется воспользоваться рекурсией! Или нет? Давайте разберемся, а заодно решим на SQL пару комбинаторных задач.

Читать дальше →

+13

@Kilor 7 окт 2020 в 16:00

PostgreSQL Antipatterns: убираем медленные и ненужные сортировки

5 мин

21K

Блог компании ТензорВысоконагруженные системы * Базы данных * SQL * PostgreSQL *

«Просто так» результат SQL-запроса возвращает записи в том порядке, который наиболее удобен серверу СУБД. Но человек гораздо лучше воспринимает хоть как-то упорядоченные данные — это помогает быстро сравнивать соответствие различных датасетов.

Поэтому со временем у разработчика может выработаться рефлекс «Дай-ка я на всякий случай это вот отсортирую!» Конечно, иногда подобная сортировка бывает оправдана прикладными задачами, но обычно такой случай выглядит как в старом анекдоте:

Программист ставит себе на тумбочку перед сном два стакана. Один с водой — на случай, если захочет ночью пить. А второй пустой — на случай, если не захочет.

Давайте разбираться — когда сортировка в запросе точно не нужна и несет с собой потерю производительности, когда от нее можно относительно дешево избавиться, а когда сделать из нескольких — одну.

Читать дальше →

+24

@Kilor 1 окт 2020 в 18:45

PostgreSQL Antipatterns: «Бесконечность — не предел!», или Немного о рекурсии

4 мин

9.4K

Блог компании ТензорПрограммирование * Базы данных * SQL * PostgreSQL *

Рекурсия — очень мощный и удобный механизм, если над связанными данными делаются одни и те же действия «вглубь». Но неконтролируемая рекурсия — зло, которое может приводить или к бесконечному выполнению процесса, или (что случается чаще) к «выжиранию» всей доступной памяти.

СУБД в этом отношении работают по тем же принципам — "сказали копать, я и копаю". Ваш запрос может не только затормозить соседние процессы, постоянно занимая ресурсы процессора, но и «уронить» всю базу целиком, «съев» всю доступную память. Поэтому защита от бесконечной рекурсии — обязанность самого разработчика.

В PostgreSQL возможность использовать рекурсивные запросы через WITH RECURSIVE появилась еще в незапамятные времена версии 8.4, но до сих пор можно регулярно встретить потенциально-уязвимые «беззащитные» запросы. Как избавить себя от проблем подобного рода?

Читать дальше →

+15

@Kilor 23 сен 2020 в 07:25

PostgreSQL 13: happy pagination WITH TIES

2 мин

13K

Блог компании ТензорPostgreSQL * SQL * Базы данных * Высоконагруженные системы *

На прошедшей неделе вышло сразу две статьи (от Hubert 'depesz' Lubaczewski и автора самого патча Alvaro Herrera), посвященные реализованной в грядущей версии PostgreSQL 13 поддержке опции WITH TIES из стандарта SQL:2008:

OFFSET start { ROW | ROWS } FETCH { FIRST | NEXT } [ count ] { ROW | ROWS } { ONLY | WITH TIES }

Что это, и как оно избавляет от проблем с реализацией пейджинга, о которых я рассказывал в статье «PostgreSQL Antipatterns: навигация по реестру»?

Читать дальше →

+37

@Kilor 20 сен 2020 в 06:45

Immutable Trie: найди то, не знаю что, но быстро, и не мусори

9 мин

5.7K

Блог компании ТензорПрограммирование * Алгоритмы * PostgreSQL * JavaScript *

Про префиксное дерево (Trie) написано немало, в том числе и на Хабре. Вот пример, как оно может выглядеть:

И даже реализаций в коде, в том числе на JavaScript, для него существует немало — от «каноничной» by John Resig и разных оптимизированных версий до серии модулей в NPM.

Зачем же нам понадобилось использовать его для сервиса по сбору и анализу планов PostgreSQL, да еще и «велосипедить» какую-то новую реализацию?..

Читать дальше →

+12

@Kilor 5 сен 2020 в 17:45

SQL HowTo: курсорный пейджинг с неподходящей сортировкой

3 мин

7.9K

Блог компании ТензорPostgreSQL * SQL * Алгоритмы * Ненормальное программирование *

Этот пост родился как расширенный ответ на умозрительную задачу, обозначенную в статье «Хроники пэйджинга».

Пусть у нас есть реестр документов, с которым работают операторы или бухгалтеры в СБИС, вроде такого:

Традиционно, при подобном отображении используется или прямая (новые снизу) или обратная (новые сверху) сортировка по дате и порядковому идентификатору, назначаемому при создании документа — ORDER BY dt, id или ORDER BY dt DESC, id DESC.

Типичные возникающие при этом проблемы я уже рассматривал в статье «PostgreSQL Antipatterns: навигация по реестру». Но что если пользователю зачем-то захотелось «нетипичного» — например, отсортировать одно поле «так», а другое «этак» — ORDER BY dt, id DESC? Но второй индекс мы создавать не хотим — ведь это замедление вставки и лишний объем в базе.

Можно ли решить эту задачу, эффективно используя только индекс (dt, id)?

Читать дальше →

+18

@Kilor 3 сен 2020 в 16:45

PostgreSQL Query Profiler: как сопоставить план и запрос

6 мин

17K

Блог компании ТензорPostgreSQL * SQL * Базы данных * Визуализация данных *

Многие, кто уже пользуется explain.tensor.ru — нашим сервисом визуализации планов PostgreSQL, возможно, не в курсе одной из его суперсособностей — превращать сложно читаемый кусок лога сервера…

… в красиво оформленный запрос с контекстными подсказками по соответствующим узлам плана:

В этой расшифровке второй части своего доклада на PGConf.Russia 2020 я расскажу, как нам удалось это сделать.

С транскриптом первой части, посвященной типовым проблемам производительности запросов и их решениям, можно ознакомиться в статье «Рецепты для хворающих SQL-запросов».

+13

@Kilor 1 сен 2020 в 19:05

Динамическая балансировка нагрузки в pull-схеме

7 мин

2.9K

Блог компании ТензорАлгоритмы * Высоконагруженные системы * Математика * Программирование *

В прошлой новости про принципы работы коллекторов логов PostgreSQL я упомянул, что одним из недостатков pull-модели является необходимость динамической балансировки нагрузки. Но если делать ее аккуратно, то недостаток превращается в достоинство, а система в целом становится гораздо более устойчивой к изменениям потока данных.

Давайте посмотрим, какие решения есть у этой задачи.

Читать дальше →

+12

@Kilor 25 авг 2020 в 11:45

Телепортация тонн данных в PostgreSQL

11 мин

6.9K

Блог компании ТензорВысоконагруженные системы * Алгоритмы * PostgreSQL * Node.JS *

Сегодня я поделюсь некоторыми полезными архитектурными решениями, которые возникли в процессе развития нашего инструмента массового анализа производительности серверов PostgeSQL, и которые помогают нам сейчас «умещать» полноценный мониторинг и анализ более тысячи хостов в то же «железо», которого сначала едва хватало для одной сотни.

Intro

Напомню некоторые вводные:

мы строим сервис, который получает информацию из логов серверов PostgreSQL
собирая логи, мы хотим что-то с ними делать (парсить, анализировать, запрашивать дополнительную информацию) в режиме онлайн
все собранное и «наанализированное» надо куда-то сохранить

Именно про последний пункт — как все это можно доставить в PostgreSQL-хранилище, и поговорим. В нашем случае таких данных кратно больше, чем исходных — статистика нагрузки в разрезе конкретного приложения и шаблона плана, потребление ресурсов и вычисление производных проблем с точностью до отдельного узла плана, мониторинг блокировок и многое другое.

Более полно о принципах работы сервиса можно посмотреть в видео доклада и прочитать в статье «Массовая оптимизация запросов PostgreSQL».

Читать дальше →

+11

1 2 ...

7 8

10 11 12 13

Мониторинг многопоточных приложений Node.JS

Первый парсер на деревне

SQL HowTo: префиксный FTS-поиск с релевантностью по дате

PostgreSQL Antipatterns: скованные одной цепью EXISTS

One Tool to Analyze Them All

EXPLAIN <-> SQL

PostgreSQL в «Тензоре» — публикации за год

PostgreSQL Antipatterns: DBA-детектив, или Три дела о потерянной производительности

Фаззинг тестирование веб-интерфейса. Расшифровка доклада

PostgreSQL Antipatterns: работаем с отрезками в «кровавом энтерпрайзе»

Анализируем «слона» по частям

Плюшки с изюминкой: как мы используем митапы, преподавание и творчество для мотивации разработчиков

SQL HowTo: ломаем мозг об дерево — упорядочиваем иерархию с рекурсией и без

PostgreSQL Antipatterns: убираем медленные и ненужные сортировки

PostgreSQL Antipatterns: «Бесконечность — не предел!», или Немного о рекурсии

Ближайшие события

PostgreSQL 13: happy pagination WITH TIES

Immutable Trie: найди то, не знаю что, но быстро, и не мусори

SQL HowTo: курсорный пейджинг с неподходящей сортировкой

PostgreSQL Query Profiler: как сопоставить план и запрос

Динамическая балансировка нагрузки в pull-схеме

Телепортация тонн данных в PostgreSQL

Intro

Информация