Posts / Profile of rinace / Habr

Oct 29 2024 at 04:004.8K

В блокнотик. Мысли на подумать , проверить на практике . И план на сегодня.

Условия остановки стресс-теста , по условиям AND / OR:

Снижение метрики производительности на X%
Увеличение среднего времени отклика на T%
Среднее время отклика >= TMax
RAM utilization >= R%
CPU utilization >= C% . (Только OR)
Общее время стресс теста
Максимальное количество активных сессий >= AMax
Какое то дополнительное условие ?

-4

Oct 28 2024 at 17:236.7K

Дисперсия и корреляция при анализе производительности разнородных СУБД. Точки излома графиков / Хабр

А ведь объяснение причины излома графика скользящей дисперсии не простое, а очень простое. Элементарное.

Точка излома графика скользящей дисперсии

Ответ - в описании способа получения значения:

Медианное сглаживание, с периодом 1 час.
...
По каждой точке t вычисляется дисперсия по выборке для входных значений (квадрат отклонения по выборке) за период [ t; t-60 минут].

Все же просто - начинается тест, собираются и усредняются данные => разброс данных непрерывно уменьшается при постоянной нагрузке на СУБД . В результате - обычная логарифмическая кривая .

Нагрузка начинает расти => мера разброса производительности СУБД меняется, в зависимости от способности данной конкретной СУБД обрабатывать прилагаемую нагрузку. Нагрузка растет , график скользящей дисперсии выглядит уже совсем не как логарифмическая кривая . Но это совсем другая история.

В статьи вносятся дополнения. Вопрос на Хабр Q/A и мат. форуме - закрыт.

Не пришлось придумывать и проверять новую метрику и критерий оценки производительности СУБД. Это очень хорошо 👍

P.S. В принципе статьи можно и удалить, как не обладающие новизной. Но с другой стороны , интересные моменты все таки есть. В первой статье - точно.Очень важная особенность выявилась и уже необходимые изменения в расчёты - внесены. Так, что пусть останутся . На память. Разве, что убрать уровень сложности .

Oct 28 2024 at 04:047.3K

Мысли вслух и риторические вопросы в продолжении https://habr.com/ru/posts/853616/

Какой смысл оценок статей на Хабре , если в выдаче поисковиков , статьи с минусами на Хабре в начале списка ?

Поиск на Хабре - тоже самое . Статьи с минусами в начале результата .

На что влияет плюс/минус статьи, размещённой на Хабре?

Ну кроме психологических моментов , типа потешить самолюбие автора или тщеславие минусатора. Ну поставил ты минус , и что с того ? Вселенная как обычно - никак не заметила .

Какой смысл действий и информации не влияющей ни на что реальное ?

Update.

А если статьи репостятся сторонними ресурсами , количество минусов/плюсов на Хабре вообще без разницы.

-6

Oct 26 2024 at 05:205.5K

Imho о бессмысленности анализа причин и цифр оценок статей/постов на Хабре.

Во-первых: очень низкий процент отклика . Отношение оценок к количеству просмотров асимптотически стремится в ноль. Вывод - количество оценок под статьей/постом ниочем. Данная цифра никакой полезной информации не несет.

Во-вторых: причины минусов . Это отдельная песня конечно.

Самые прикольные:

Личная неприязнь: а попробовать валерьянку или пустырник ? Или вообще - зачем читать тех , кто тебе неприятен?
Ничего не понял после прочтения : хорошо, хоть времена Галилея , Коперника и Джордано Бруно прошли и автор рискует только цифрой, а не репутацией и жизнью.
Не согласен: сразу вспоминается классика "с Каутским или с Энгельсом ? С обоими "(с). А контр аргумент и обосновать ? Ну напиши комментарий . Это же классика , как принято у взрослых - тезис, контртезиз, синтезис, диалектика . Слабо ?
В статье нет новой для меня информации : да уж. Только Сократ , был несколько иного мнения о своих знаниях.

-9

Oct 26 2024 at 04:584.7K

Мысли вслух, на подумать и поэкспериментировать, в самое ближайшее время.

1) Постоянная нагрузка на СУБД, тестовый сценарий pgbench. Облачная инфраструктура .

2) Изменение параметра .

Что является признаком влияния параметра на производительность ?

Если смотреть дельту производительности , есть шанс попасть на шум инфраструктуры .

Наверное , более перспективно - анализировать корреляцию между ожиданиями и производительностью.

В любом случае период сравнительного анализа - час , не меньше .

Еще очень важный момент , на который, скорее всего надо будет обратить внимание - дисперсия по долгой скользящей должна в процессе теста должна быть не сильно большой. Конкретное значение , скорее всего придется устанавливать только эмпирически.

Oct 25 2024 at 09:227.3K

https://youtu.be/zWZybFMQNqw?si=ViZUc8W95vYoV6nn

Начав чистить ленту Хабра, путем занесения в черный список авторов, пишущих в корпоративные блоги ( сигнатура "Здравствуйте , я Иван Пупкин работаю ХХХ в YYYY"), пришел в тихий ужас - во что превратился Хабр ? Из авторитетной и интересной технической площадки для поиска новых идей и обмена мнениями с коллегами, в какой то PR сайт для закрытия внутренних KPI и рекламы . Отношение корпоративщиков к свободным авторам 14 к 6 !

Но я упрямый. В черном списке будут в итоге все корпоративные писатели.

P.S. Чёрный список это хорошо . Теперь можно спокойно пролистать ленту и ознакомиться с интересными материалами не отвлекаясь на PR и рекламу. Как и было раньше на Хабре.

Мне не интересны оплаченные статьи . Мне интересны люди и их свободное творчество.

Как в старые, добрые времена

P.P.S. Потраченные усилия дают результат - теперь я открываю ленту и вижу пометку "Вы скрыли публикации ххх .... ".

+13

Oct 25 2024 at 05:356.1K

PostgreSQL*Mathematics*

А тем временем, постепенно, складывается вполне себе стройная концепция применения мат. статистики и методов оптимизации при сопровождении СУБД.

1) Оптимизация конфигурационных параметров СУБД при разворачивании нового кластера PostgreSQL - метод покоординатного спуска .

2) Стресс тестирование - определение предельной нагрузки на инфраструктуру СУБД при выполнении тестового сценария.

3) Бенчмарк - фиксация базовых показателей производительности

4) Передача СУБД в разработку приложения

5) Нагрузочное тестирование и корреляционный анализ производительности в процессе разработки ПО.

6) Передача СУБД в опытную эксплуатацию

7) Стресс тестирование - определение предельной нагрузки на инфраструктуру СУБД при выполнении продуктивного сценария . Протоколирование значений для использования в качестве граничных при мониторинге .

8) Нагрузочное тестирование и корреляционный анализ производительности в процессе тестирования . Протоколирование значений для использования в качестве граничных при мониторинге .

9) Передача СУБД в промышленную эксплуатацию. Протоколирование граничных значений для мониторинга .

10) Корреляционный анализ производительности СУБД. Управление инцидентами , проблемами , изменениями .

Цели ясны, задачи определены . За работу товарищи!

Хорошо, когда идёшь по маршруту с заранее заданными контрольными точками.

Oct 24 2024 at 03:486.7K

По итогам очередных экспериментов , в ходе отработки методологии стресс тестирования СУБД , в принципе можно было бы подготовить ещё одну статью на тему "Влияние CPU Utilization = 100% на производительность СУБД".

Но, учитывая негативный (слитие кармы) опыт предыдущей статьи на аналогичную тему - нет никакого практического смысла и пользы - делится результатами наблюдений и экспериментов .

Так, что, просто в заметки на память, в качестве промежуточного личного итога:

Событие "предельная утилизация CPU" при отсутствии события "деградации производительности СУБД" - не является стартовым событием для создания инцидента .

А почтовое оповещение мониторинга "CPU High Utilization" , я давно уже фильтрую.

По итогам анализа результатов экспериментов по стресс тестированию, наверняка будет подготовлена метрика "Performance is OK"(есть пара идей) и вот по ней и будет настроено оповещение и создание инцидента по производительности СУБД.

PostgreSQL*SQL*Database Administration*Mathematics*

Oct 16 2024 at 03:307.2K

Чем дольше копаю тему статистического анализа производительности СУБД, тем больше удивляюсь - почему никто не занимался/не занимается использованием математических методов в DBA ? Статей и материалов практически - нет. По performance engineering - можно найти, по DBA в общем то тишина.

И это очень странно, ведь математическая статистика именно для этого и предназначена и используется уже сотни лет - анализ результатов наблюдений и экспериментов , поиск и выявление закономерностей, формирование и проверка гипотез о причинах .

Это же так просто и в общем то лежит на поверхности - сделал изменение , собери статистику влияния и оцени характер полученных результатов по совокупности опытов. Нужно подчеркнуть - не картинки, не "кажется" , "наверное" , "скорее всего", "может быть" , а цифры. И цифры взятые не с потолка , а рассчитанные математически. И даже не надо ничего нового придумывать и изобретать - медиана, мода , стандартное отклонение , дисперсия , корреляция - 3й курс КАИ, если не ошибаюсь. Вполне достаточно , для получения объективных результатов анализа, а не гаданий и шаманских танцев с бубнами.

Почему DBA не используют математику ? Риторический вопрос ....

Oct 15 2024 at 03:575.3K

Однако, с бенчмарками, всё совсем не просто .

По умолчанию pgbench тестирует сценарий, примерно соответствующий TPC-B, который состоит из пяти команд SELECT, UPDATE и INSERT в одной транзакции.
https://postgrespro.ru/docs/enterprise/16/pgbench

В 1995 году TPC-A и TPC-B были признаны несостоятельными, и появился более совершенный TPC-C.
https://ibs.ru/media/etalonnye-testy-subd-chto-bylo-chto-stalo-chto-budet/

2 варианта дальнейших действий:

Продолжать использовать pgbench.
Искать реализации TPC-C и/или более новых сценариев.

Вариант самостоятельной реализации TPC-C , в виду ограниченности ресурсов - не рассматривается .

Oct 12 2024 at 18:388.4K

Мысли вслух.

В развитии темы:

Производительность СУБД — расчет метрики, временной анализ, параметрическая оптимизация https://habr.com/p/850106/

Какую метрику лучше/правильнее применить для расчетов модулей векторов , используемых для расчета производительности - Евклидову или Манхеттенскую?

Вектор "операционная скорость":

QPS: Количество запросов в секунду.
TPS: Количество транзакций в секунду.
RPS: Количество строк в секунду.

Вектор "объёмная скорость":

RSBS : Прочитанные разделяемые блоки в секунду.
DSBS : "Загрязнённые" разделяемые блоки в секунду.
WSBS : Записанные разделяемые блоки в секунду.
RLBS : Прочитанные локальные блоки в секунду.
DLBS : "Загрязнённые" локальные блоки в секунду.
WLBS : Записанные локальные блоки в секунду.
RTBS : Прочитанные временные блоки в секунду.
WSBS: Записанные временные блоки в секунду.

А ведь, первоначально для расчета модуля векторов планировалось просто суммировать компоненты . Оказывается это и есть Манхэттенская метрика.

Но потом , вспомнил формулу расчета модуля в Евклидовом пространстве .

Спасибо Хабру и адекватному читателю @MichaelBorisov за полезный комментарий, подсказавшему , что компоненты векторов использующих для расчета производительности СУБД, вряд ли независимы и лучше использовать Манхеттенскую метрику .

Теперь вопрос - как изменится итоговый результат после изменения расчета модуля векторов ?

Oct 12 2024 at 06:405.5K

Интересно , а ведутся ли работы по созданию математической модели СУБД ? Не в плане реляционной/не реляционной модели, а в плане формального описания процесса обработки информации и входящей нагрузки в полезный результат .

Ну например - какая нагрузка в виде количества одновременных пользователей является критичной для данной СУБД ? А если характер нагрузки не равномерный ? А если инфраструктура нестабильна ? И т.д. и т.п. Интересных вопросов - масса.

Ведь создание подобной модели позволило бы сэкономить мегатонны времени на этапе дизайна и нагрузочного тестирования . Да и задачу оптимизации производительности СУБД вывело бы с уровня шаманских танцев , натурных экспериментов и цифр с потолка на реально научный уровень.

Пока, упоминаний о подобных разработках не встречал. Было бы интересно .

Задача конечно же имеет решение . Ну ведь , не сложнее чем разработать математическую модель атомной бомбы или большого взрыва.

Хотя, возможно потребные вычислительные мощности окажутся слишком высоки. Что делает решение задачи совершенно бессмысленной для практического применения.

Oct 9 2024 at 04:035.8K

На Хабре альтернативная арифметика ? Или особенности расчётов такие ?

Давно обратил внимание - как то странно считается итоговая оценка статьям.

Вот например: как получается оценка +1 если 2 голоса за и 4 против ?

Вспоминается классика - "Неважно - кто как голосует, важно - кто как считает".

Oct 6 2024 at 04:505.2K

Имеется набор конфигурационных параметров СУБД .

Задача - определить комбинацию параметров дающих наибольший прирост производительности .

На текущий момент, первое, что сразу приходит в голову - использовать метод покоординатного спуска (в данном случае - подъёма )

Проблема: найденная комбинация, скорее всего, будет решением задачи при данном характере нагрузки. Подойдет ли найденное решение для стохастического процесса, когда нагрузка и влияние инфраструктуры меняется в очень широких диапазонах ?

P. S.Если удастся установить корреляцию между ожиданиями СУБД и значением тестируемого параметра, то возможно можно будет подготовить методику оптимизации набора и параметров для общей/продуктивной нагрузки. А там и до адаптивной оптимизации параметров СУБД - рукой подать . Поживём-увидим.

Update

Идея была абсолютно правильная ! Работает ! Все идет к тому, что скоро будет готова методика по автоматической настройке параметров СУБД.

Oct 5 2024 at 04:257K

Задал вопрос на парочке математических форумов:

Имеется ,вполне стандартная задача - необходимо сравнить результаты экспериментов. И выявить имеется ли влияние некоторого параметра на итоговый результат.
Начальная гипотеза - при постоянной нагрузке на систему и минимальном влиянии внешних факторов распределение показаний будет нормальным.
Для определения результата экспериментам применяется следующий подход:
Результаты наблюдений- сглаживаются
За период наблюдений определяется отрезок в котором распределение наиболее близко к нормальному: -мода = медиана -унимодально -коэффициент симметрии и эксцесса минимальный
Значение моды/медианы в найденном отрезке будет считаться результатом эксперимента .
Вопрос к более опытным математикам - является ли описанный подход допустимым для корректного получения статистически достоверный результатов эксперимента ?

Интересно , будет ли ответ ? На Хабре с обратной связью не очень.

Проблема в том, что DBA не помнят/не знают математики , а математики не особо интересуются вопросами СУБД. Очень мало так называемых best practics имеют хоть какое то экспериментальное обоснование , все на интуиции. А уж математического анализа пока ни разу не встретил. В итоге сообщество DBA выглядит не как сообщество инженеров и ученых, стремящихся познать и улучшить мир и всё подвергающих сомнению , а как средневековый цех со своим уставом, догмами и мастерами и только с одной задачей - выудить побольше денег у сюзерена/герцога/короля. Ну или как алхимики :-)

Oct 4 2024 at 13:435.6K

PostgreSQL*Mathematics*

Мысли вслух.

Размещать в хабе "PostgreSQL" статьи на тему статистического анализа - не имеет практического смысла. Перенес в хаб "Математика". Может быть от математиков удастся получить более-менее полезную обратную связь. Есть надежда, что хоть, что-то не на эмоциях и IMHO-х , а на цифрах и фактах , все таки получится дождаться в комментариях. Поживём увидим.

P.S. Зарегистрировался на математических форумах . Может там ответят ....

P.P.S. Ответили и на математическом форуме и в комментариях к посту в хабе "Математика". Стиль комментариев , по сравнению с хабом "PostgreSQL" различается принципиально и очень кардинально. Все следующие статьи и посты будут размещены только в хабе "Математика" и на математических форумах. Эх, сколько времени было потрачено на пустой флейм с ремесленниками или просто флудерами :-( Надо было сразу , тему статистического анализа начинать обсуждать с математиками, а не с DBA.

Update.

Математики - читают больше.

Первая статья размещена в хабе "Математика", вторая - "PostgreSQL"

Sep 22 2024 at 06:066.3K

Интересно , возможно ли определить объем данных ( количество строк * средний размер строк ), сформированных SQL запросом ?

Количество строк определяется тривиально . Но как определить общий размер результирующих строк , идеально конечно мат.ожидание и стандартное отклонение? Сдается , мне , что - никак. По крайней мере, простой гуглеж ничего полезного не дал. К сожалению.

Но это, как раз, тот случай когда хотелось бы ошибиться.

Sep 20 2024 at 03:356.4K

Странно даже. В причинах минусов к крайней статье отсутствует «Личная неприязнь к автору или компании.»

К чему бы это? Неприязнь была и вдруг пропала? Забавно;‑)

-3

https://xakep.ru/2006/05/31/31901/

Sep 13 2024 at 03:207.7K

Programming*

По поводу вчерашней вакханалии по так называемому "Дню программиста". Даже правительство опубликовало поздравление , на моей памяти впервые .

Я же сразу вспомнил классику:

Я вам скажу, когда это началось. Середина восьмидесятых.
MS-DOS, DBase III, Clipper и толпы юношей в возрасте от 25 до 50 со взором горящим, вообразивших, что они умеют заставить компьютер сделать нечто небесполезное.
Новые русские «программисты», никогда – ни до, ни после приобщения к таинствам – не читавшие ни Кнута, ни Вирта, ни Йодана.
Но то был лишь грозный симптом необратимого старения прекрасной юной профессии, превращения ее в массовую и скучную. Программистская IT-романтика, воспетая Стругацкими в «Понедельнике», кончилась (могу с точностью до дня назвать время), когда на смену «Паскалю» пришел Delphi. Вот тогда-то программирование стало окончательно похоже на рисование и складывание кубиков.

Статья 2006 года .История совершила очередной виток спирали . Всё , что было 30 лет назад, повторяется с пугающей регулярностью.Просто достаточно заменить Delphi на очередную модную фичу.

P.S. С другой стороны - я помню то время - "все было впервые и вновь". Как поется в классической песне, ставшей гимном настоящих программистов "... А под словом Паскаль , понимался обычно философ ... ".

Так, что мне и моим ровесникам повезло . Мы увидели этот мир при его рождении и сами участвовали в родах. А детей надо любить независимо от их характера.

Не стоит грустить - жизнь продолжается .