Тензор, Ярославль - Разработчик системы Saby / Статьи / Хабр

ПрофильСтатьи235Посты6Подписчики34KСотрудники204

Kilor 29 сен 2022 в 06:55

Приручаем многопоточность в Node.js (часть 3/5: разделяемая память, атомарные операции и блокировки)

12 мин

7.5K

Блог компании ТензорNode.JS*Программирование*JavaScript*Высоконагруженные системы*

Туториал

В предыдущей части мы остановились на мысли, что минимизировать простой вспомогательных потоков нашего приложения можно, если заставить их самих получать себе задачи, не дожидаясь, пока их загрузит кто-то другой со стороны.

Но тут возникает две проблемы:

1. как эффективно доставить данные в обрабатывающий поток

2. как распределять задачи между активными потоками, чтобы ничего не пропустить, но и дважды не обработать

В этом нам как раз и помогут два рассматриваемых в этой статье концепта работы с многопоточностью: разделяемая (shared) память и потокобезопасные (thread-safe, Atomics) операции над ней.

+21

Kilor 21 сен 2022 в 08:30

Приручаем многопоточность в Node.js (часть 1/5: базовые концепты)

8 мин

24K

Блог компании ТензорВысоконагруженные системы*JavaScript*Программирование*Node.JS*

Туториал

Технотекст 2022

Продолжаем серию статей, посвященных разным прикладным концептуальным решениям, которые могут существенно "прокачать" производительность вашего Node.js-приложения.

В прошлой статье мы рассмотрели реализацию эффективной очереди на основе "эластичного" кольцевого буфера, а в этой попробуем разобраться с особенностями использования модуля Worker threads в Node.js - какие проблемы внедрения многопоточности будут нас ждать при попытках сделать код более производительным, и узнаем, как их можно обойти, применяя типовые концепты.

Начнем с достаточно типовой задачи: мы получаем некоторые сообщения, и нам их надо как-то обработать. В качестве тестового примера сгенерируем эти сообщения самостоятельно, и посмотрим, за какое минимальное время мы сможем вычислить SHA-256-хэш для каждого из них.

+21

Kilor 7 июл 2022 в 08:00

PostgreSQL Antipatterns: куда крутить NULLS

2 мин

6.9K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Высоконагруженные системы*

Периодически приходится разбирать случаи внезапного промаха запроса мимо "вроде бы подходящего" индекса - а все дело оказывается в чуть-чуть не той сортировке.

+21

Kilor 1 апр 2021 в 05:30

Энтерпрайз-домино. 0x13 вредных советов для ниндзя-разработчика

6 мин

8.3K

Блог компании ТензорВысоконагруженные системы*PostgreSQL*Программирование*Анализ и проектирование систем*

Практически любая enterprise-система (под которой мы будем подразумевать некоторое ПО, где пользователи работают постоянно в течение всего рабочего дня) в современном мире стремится вырасти вместе с управляемым ей бизнесом в высоконагруженное web-решение вроде нашего СБИС.

Оно и понятно: доступность с любого устройства, где есть браузер, минимальные вложения "на старте" - все, что бизнес так любит. Но с развитием системы растет не только ее размер, но и сложность архитектуры решения, а с ней - и цена любой ошибки, вызывающей сразу каскад возможных проблем и "эффект домино".

Когда, где и как их может вызвать затаившийся до поры диверсант?

+21

Kilor 20 авг 2020 в 06:55

PostgreSQL Antipatterns: уникальные идентификаторы

4 мин

38K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Программирование*

Достаточно часто у разработчика возникает потребность формировать для записей таблицы PostgreSQL некие уникальные идентификаторы — как при вставке записей, так и при их чтении.

Таблица счетчиков

Казалось бы — чего проще? Заводим отдельную табличку, в ней — запись со счетчиком. Надо получить новый идентификатор — читаем оттуда, чтобы записать новое значение — делаем UPDATE…

Так делать не надо! Потому что завтра же вам придется решать проблемы:

постоянных пересекающихся блокировок при UPDATE
см. PostgreSQL Antipatterns: сражаемся с ордами «мертвецов»
постепенной деградации скорости доступа к данным таблицы счетчиков
см. PostgreSQL Antipatterns: обновляем большую таблицу под нагрузкой
… и необходимости ее зачистки при активных транзакциях, которые будут вам мешать
см. DBA: когда пасует VACUUM — чистим таблицу вручную

Читать дальше →

+21

Kilor 28 июн 2020 в 17:20

PostgreSQL Antipatterns: накручиваем себе проблемы

5 мин

14K

Блог компании ТензорPostgreSQL*SQL*Базы данных*

Некоторые ситуации в работе PostgreSQL кажутся неочевидными, пока не попытаешься детально понять, «почему это работает так». Из-за незнания таких особенностей иногда разработчик сам провоцирует проблемы для нормальной работы своего приложения в будущем.

Сегодня разберем пару примеров, как неудачная организация БД и кода могут превратить наше приложение в клубок проблем:

накрутка serial при ON CONFLICT
накрутка счетчика транзакций

Читать дальше →

+21

Kilor 25 дек 2019 в 17:15

DBA: когда пасует VACUUM — чистим таблицу вручную

7 мин

31K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Высоконагруженные системы*

VACUUM может «зачистить» из таблицы в PostgreSQL только то, что никто не может увидеть — то есть нет ни одного активного запроса, стартовавшего раньше, чем эти записи были изменены.

А если такой неприятный тип (продолжительная OLAP-нагрузка на OLTP-базе) все же есть? Как почистить активно меняющуюся таблицу в окружении длинных запросов и не наступить на грабли?

Читать дальше →

+21

Kilor 12 дек 2024 в 06:46

SQL HowTo: агрегация внутри рекурсии (Advent of Code 2024, Day 11: Plutonian Pebbles)

Простой

7 мин

2.5K

Блог компании ТензорАлгоритмы*Занимательные задачкиSQL*PostgreSQL*

Кейс

Сегодня посмотрим на примере задачки из Advent of Code зачем и как можно обойти ошибку aggregate functions are not allowed in a recursive query's recursive term, возникающую при попытке агрегировать какие-то данные внутри шага рекурсии на PostgreSQL — «если нельзя, но очень хочется, то можно».

+20

Kilor 13 янв 2023 в 12:40

PostgreSQL Antipatterns: Индиана Джонс и максимальное значение ключа, или В поисках «последних» записей

2 мин

11K

Блог компании ТензорВысоконагруженные системы*PostgreSQL*SQL*Базы данных*

Туториал

Сегодняшняя задача вполне традиционна для любых учетных систем - поиск записей, содержащих максимальное значение по каждому из ключей. Что-то вроде "покажи мне последний заказ по каждому из клиентов", если переводить в прикладную область.

Кажется, что тут и споткнуться-то негде в реализации - но все оказывается совсем не тривиально.

+20

Kilor 16 ноя 2021 в 11:00

SQL HowTo: делаем из мухи слона (алгоритм Ли)

4 мин

7.2K

Блог компании ТензорЗанимательные задачкиPostgreSQL*SQL*Алгоритмы*

Правила игры очень просты: надо построить цепочку слов от начального (МУХА) до конечного (СЛОН), на каждом шаге меняя только одну букву. При этом могут использоваться только русские 4-буквенные нарицательные существительные в начальной форме: например, слова БАЗА, НОЧЬ, САНИ допускаются, а слова ЛИТЬ, ХОТЯ, РУКУ, НОЧИ, САНЯ, ОСЛО, АБВГ, ФЦНМ — нет.

Эта игра под названием «Дублеты» приобрела известность благодаря Льюису Кэрроллу — не только автору книг про Алису, но ещё и замечательному математику. В марте 1879 года он начал раз в неделю публиковать в журнале «Ярмарка тщеславия» по три задания в форме броских фраз: «Turn POOR into RICH» — «Преврати бедного в богатого», «Evolve MAN from APE» — «Выведи человека из обезьяны», «Make TEA HOT» — «Сделай чай горячим». В том же году он выпустил брошюру «Дублеты», подробно описал в ней правила и предложил читателям попрактиковаться на нескольких десятках примеров.

Александр Пиперски, "Из мухи — слона", «Квантик» №2, 2019 и №3, 2019

Сегодня мы научимся реализовывать на SQL волновой алгоритм, решив заодно классический пример из этой игры для конкретного словаря.

+20

Kilor 22 янв 2020 в 09:30

PubSub почти бесплатно: особенности NOTIFY в PostgreSQL

9 мин

22K

Блог компании ТензорJavaScript*Node.JS*PostgreSQL*Программирование*

Туториал

Если ваши микросервисы уже используют общую базу PostgreSQL для хранения данных, или ей пользуются несколько экземпляров одного сервиса на разных серверах, можно относительно «дешево» получить возможность обмена сообщениями (PubSub) между ними без интеграции в архитектуру Redis, RabbitMQ-кластера или встройки в код приложения другой MQ-системы.

Для этого мы не будем писать сообщения в таблицы БД, поскольку это вызывает слишком большие накладные расходы сначала на запись передаваемого, а потом еще и на зачистку от уже прочитанного.

Передавать и получать данные мы станем с помощью механизма NOTIFY/LISTEN, а модельную реализацию соберем для Node.js.

Но на этом пути лежат грабли, которые придется аккуратно обойти.

Читать дальше →

+20

Kilor 10 дек 2019 в 09:00

PostgreSQL Antipatterns: вредные JOIN и OR

4 мин

20K

Блог компании ТензорPostgreSQL*SQL*Базы данных*

Бойтесь операций, buffers приносящих…
На примере небольшого запроса рассмотрим некоторые универсальные подходы к оптимизации запросов на PostgreSQL. Пользоваться ими или нет — выбирать вам, но знать о них стоит.

Читать дальше →

+20

Kilor 15 мар 2021 в 13:30

Случайности не случайны

5 мин

7.5K

Блог компании ТензорPostgreSQL*Алгоритмы*SQL*Математика*

Можно ли достоверно предсказать будущее хоть на немного вперед? Иногда - вполне, надо только много везения... или немного знаний.

Сегодня пронаблюдаем сеанс черной магии с последующим разоблачением, или «Я угадаю твой рандом с 3 строк!»

+19

Kilor 18 янв 2021 в 09:35

DBA: Ночной Дозор

3 мин

7.7K

Блог компании ТензорВысоконагруженные системы*PostgreSQL*SQL*Базы данных*

Для многих систем характерен паттерн постоянного накопления данных с течением времени. Причем основная их масса больше никогда не изменяется - то есть они пишутся в режиме append-only.

Это не только различного рода логи и метрики оборудования, но и такие, казалось бы, несвязанные вещи, как переписка между пользователями или комментарии к новостям.

Около года назад я уже писал про модель организации секционирования таких данных и вызываемые этим каскадные изменения в структуре БД. А сегодня на примере нашего сервиса анализа логов PostgreSQL-серверов разберем особенности обслуживания организованных так баз, и как грамотный подход (и немного ночной работы) может сократить затраты на инфраструктуру в разы.

+19

Kilor 29 окт 2020 в 11:00

Анализируем «слона» по частям

3 мин

4.1K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Визуализация данных*

Если вы регулярно отлаживаете производительность запросов к PostgreSQL, а EXPLAIN (ANALYZE, BUFFERS) ... — любимый инструмент познания особенностей работы этой СУБД, то новые полезные «фишки» нашего сервиса визуализации и анализа планов explain.tensor.ru наверняка пригодятся вам в этом нелегком деле.

Но сразу напомню, что без полноценного всестороннего мониторинга базы PostgreSQL использовать только анализ плана — это выступать с позиции мудреца #5!

[источник КДПВ, «Слепые и слон»]

Немного про мудреца #5

+19

Kilor 14 мая 2020 в 11:45

PostgreSQL Antipatterns: насколько глубока кроличья нора? пробежимся по иерархии

6 мин

8.4K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Высоконагруженные системы*

В сложных ERP-системах многие сущности имеют иерархическую природу, когда однородные объекты выстраиваются в дерево отношений «предок — потомок» — это и организационная структура предприятия (все эти филиалы, отделы и рабочие группы), и каталог товаров, и участки работ, и география точек продаж,…

Фактически, нет ни одной сферы автоматизации бизнеса, где хоть какой-нибудь иерархии да не оказалось бы в результате. Но даже если вы не работаете «на бизнес», все равно можете легко столкнуться с иерархичными связями. Банально, даже ваше генеалогическое древо или поэтажная схема помещений в торговом центре — такая же структура.

Существует много способов хранения такого дерева в СУБД, но мы сегодня остановимся только на одном варианте:

CREATE TABLE hier(
  id
    integer
      PRIMARY KEY
, pid
    integer
      REFERENCES hier
, data
    json
);

CREATE INDEX ON hier(pid); -- не забываем, что FK не подразумевает автосоздание индекса, в отличие от PK

И пока вы всматриваетесь в глубину иерархии, она терпеливо ждет, насколько же [не]эффективными окажутся ваши «наивные» способы работы с такой структурой.

Давайте разберем типовые возникающие задачи, их реализацию на SQL и попробуем улучшить их производительность.

Читать дальше →

+19

Kilor 13 апр 2020 в 15:25

Пишем в PostgreSQL на субсветовой: 1 host, 1 day, 1TB

5 мин

14K

Блог компании ТензорPostgreSQL*Базы данных*Анализ и проектирование систем*Высоконагруженные системы*

Недавно я рассказал, как с помощью типовых рецептов увеличить производительность SQL-запросов «на чтение» из PostgreSQL-базы. Сегодня же речь пойдет о том, как можно сделать более эффективной запись в БД без использования каких-либо «крутилок» в конфиге — просто правильно организовав потоки данных.

#1. Секционирование

Статья про то, как и зачем стоит организовывать прикладное секционирование «в теории» уже была, здесь же речь пойдет о практике применения некоторых подходов в рамках нашего сервиса мониторинга сотен PostgreSQL-серверов.

Читать дальше →

+19

Kilor 19 фев 2020 в 06:45

DBA: находим бесполезные индексы

12 мин

23K

Блог компании ТензорВысоконагруженные системы*Базы данных*SQL*PostgreSQL*

Регулярно сталкиваюсь с ситуацией, когда многие разработчики искренне полагают, что индекс в PostgreSQL — это такой швейцарский нож, который универсально помогает с любой проблемой производительности запроса. Достаточно добавить какой-нибудь новый индекс на таблицу или включить поле куда-нибудь в уже существующий, а дальше (магия-магия!) все запросы будут эффективно таким индексом пользоваться.

Во-первых, конечно, или не будут, или не эффективно, или не все. Во-вторых, лишние индексы только добавят проблем с производительностью при записи.

Чаще всего такие ситуации происходят при «долгоиграющей» разработке, когда делается не заказной продукт по модели «написал разово, отдал, забыл», а, как в нашем случае, создается сервис с длинным жизненным циклом.

Доработки происходят итеративно силами множества распределенных команд, которые бывают разнесены не только в пространстве, но и во времени. И тогда, не зная всей истории развития проекта или особенностей прикладного распределения данных в его БД, можно легко «напортачить» с индексами. Но соображения и проверочные запросы под катом позволяют заранее предсказывать и обнаруживать часть проблем:

неиспользуемые индексы
префиксные «клоны»
timestamp «в середине»
индексируемый boolean
массивы в индексе
NULL-мусор

Читать дальше →

+19

tensor_sbis 25 дек 2017 в 08:58

Сложно о простом: как измерить время открытия страницы и не нажить себе врагов

12 мин

17K

Блог компании ТензорТестирование веб-сервисов*Тестирование IT-систем*Веб-разработка*Клиентская оптимизация*

Вы разработчик и хотите увидеть, что ваша страница стала быстрее открываться после всех оптимизаций. Или вам нужно доказать начальству, что вы не верблюд и всё действительно ускорили. А, может быть, вы хотите убедиться, что ваши пользователи не будут страдать от медленно открывающихся страниц. Или, как в нашем случае, вы тестировщик, который теперь отвечает за клятую клиентскую производительность, и пропущенные тормоза на продакшен не дают спать по ночам.

Измерять клиентскую производительность – нетривиальная задача. Особенно если у вас в проекте сотни страниц на множестве стендов. Каждая наполнена js кодом, и сотни разработчиков каждый день оптимизируют, меняют, пересоздают их. Нужно спроектировать систему сбора, обработки и хранения данных. Какое хранилище выбрать? Как спроектировать базу, и в какой СУБД? Немало интересных задач, которые меркнут перед лаконичным «сколько времени открывалась страница?». Для нас поиск ответа на этот вопрос вылился в квест с детективными расследованиями, жаркими спорами и поиском истины. Его самые интересные моменты – в этой статье.

Читать дальше →

+19

Kilor 11 мар 2024 в 12:00

Бьемся с индексацией парных неравенств в PostgreSQL

Средний

6 мин

5.3K

Блог компании ТензорВысоконагруженные системы*PostgreSQL*SQL*Базы данных*

Туториал

Я уже не раз писал, что условия с несколькими неравенствами (<, <=, >=, >) обычно плохо подходят для индексирования "классическим" btree, вызывают "тормоза", и необходимо придумывать различные нетривиальные подходы в PostgreSQL, чтобы добиться хорошей производительности подобного запроса.

В этой статье мы не только рассмотрим способы решения подобных задач "в общем виде", но и покажем, как нам удалось автоматизировать их решение в рамках функционала рекомендаций индексов нашего сервиса анализа планов explain.tensor.ru и его новых возможностях.

+18

1 2 3

5 6 ...

11 12

Приручаем многопоточность в Node.js (часть 3/5: разделяемая память, атомарные операции и блокировки)

Приручаем многопоточность в Node.js (часть 1/5: базовые концепты)

PostgreSQL Antipatterns: куда крутить NULLS

Энтерпрайз-домино. 0x13 вредных советов для ниндзя-разработчика

PostgreSQL Antipatterns: уникальные идентификаторы

Таблица счетчиков

PostgreSQL Antipatterns: накручиваем себе проблемы

DBA: когда пасует VACUUM — чистим таблицу вручную

SQL HowTo: агрегация внутри рекурсии (Advent of Code 2024, Day 11: Plutonian Pebbles)

PostgreSQL Antipatterns: Индиана Джонс и максимальное значение ключа, или В поисках «последних» записей

SQL HowTo: делаем из мухи слона (алгоритм Ли)

PubSub почти бесплатно: особенности NOTIFY в PostgreSQL

PostgreSQL Antipatterns: вредные JOIN и OR

Случайности не случайны

DBA: Ночной Дозор

Ближайшие события

Анализируем «слона» по частям

PostgreSQL Antipatterns: насколько глубока кроличья нора? пробежимся по иерархии

Пишем в PostgreSQL на субсветовой: 1 host, 1 day, 1TB

#1. Секционирование

DBA: находим бесполезные индексы

Сложно о простом: как измерить время открытия страницы и не нажить себе врагов

Бьемся с индексацией парных неравенств в PostgreSQL

Информация