Comments / Profile of solontsev / Habr

Сергей Олонцев@solontsev

User

Сравнение оптимизации Loose Scan в MySQL со стратегиями в PostgreSQL и MSSQL

solontsev Jul 13 2023 at 03:29

Спасибо большое за комментарии! Постарался убрать все неточности по тексту, поменял тестовые запросы и перезапустил весь тест заново. Идея действительно была показать как работают SELECT DISTINCT или COUNT DISTINCT в разных СУБД. Что MySQL из коробки работает очень хорошо на столбце в любой кадинальностью, и что можно оптимизировать в PostgreSQL и MS SQL Server, чтобы добиться схожего результата.

Насчет методики все-таки не соглашусь. Все равно все запросы надо запускать из какого-то клиента к СУБД (например, стандартной консольной утилите локально). Это, конечно, даст более чистые результаты, но они не будут кардинально отличаться от тех, которые будут получены общим внешним клиентом. Тут задача была именно показать кардинальное снижение времени выполнения, если запускать на колонках с низкой кардинальностью в MySQL, и что такого снижения нет в остальных двух СУБД и там надо действовать по-другому, чтобы добиться ускорения.

Сравнение оптимизации Loose Scan в MySQL со стратегиями в PostgreSQL и MSSQL

solontsev Jul 12 2023 at 08:04

Если вы можете подсказать какие-то настройки, которые могут сделать сравнение еще более честным, буду вам очень благодарен.

Сравнение оптимизации Loose Scan в MySQL со стратегиями в PostgreSQL и MSSQL

solontsev Jul 12 2023 at 08:03

Как раз я не ставил задачу затюнить каждую СУБД по максимуму под конкретный запрос. Поэтому были взяты Docker контейнеры с настройками по умолчанию. Да и я сомневаюсь, что кэш в этом запросе даст какой-то другой результат. Первые 5 запусков я делал холостыми, потому что на них как раз время может сильно варьироваться. Само время выполнения запроса тут вторично, важно скорее, что loose scan или его имитация дает качественно другое время выполнения. А то, что MS SQL что-то выполняет за 2 секунды, а PostgreSQL за одну, например, не суть важно, потому что в продакшене конечно все будет по-другому. Тут важнее смотреть не столько разницу между СУБД, сколько в пределах одной СУБД.

Сравнение оптимизации Loose Scan в MySQL со стратегиями в PostgreSQL и MSSQL

solontsev Jul 12 2023 at 07:37

Согласен, возможно, стоило чуть более подробно описать, что конкретно делалось. Однако запросы, которые выполнялись и скрипт инициализации был приведен. Это обычные запросы вида SELECT A, COUNT(*) FROM TABLE GROUP BY A, и он действительно будет возвращать только уникальные значения из колонки A. Дополнительный COUNT(*) был сделан, чтобы сократить выдачу из запроса только одной строкой, чтобы исключить из сравнения время, которое уходит на передачу данных из сервера до клиента. Опять же для максимальной честности результатов, потому что один запрос будет выдавать 100 тыс. строк, а другой только 10. Довольно распространенные запросы во всех СУБД, с которыми можно столкнуться. Цель статьи была подсветить, что такие запросы могут выполняться значительно быстрее, если количество уникальных значений мало. И вот MySQL и другие СУБД могут делать это автоматически из коробки, однако для PostgreSQL и MS SQL Server я привел примеры, как это тоже можно оптимизировать.

День системного администратора наступил!

solontsev Jul 31 2009 at 03:07

Кстати, в мире празднуется 10!!! годовщина этого замечательного праздника. ))

PodШтучки #68

solontsev Mar 7 2009 at 08:30

Я конечно с девушкой подкаст не слышал, но об этой версии могу сказать так: голос отличный, но чтение идет слишком быстро… приходиться напряженнос вслушиваться. Нельзя ли чуть-чуть помедленнее?

Rating: Does not participate

Location: Лимассол, Government controlled area, Кипр

Registered: December 17 2007

Activity: November 5 2023 at 05:02

Бэкенд разработчик, Архитектор баз данных

Ведущий

MySQL

Базы данных

PostgreSQL

Golang

Rust

Apache Spark

Apache Kafka

Высоконагруженные системы

Проектирование архитектуры приложений

Проектирование баз данных

Information

Specialization