Comments / Profile of speshuric / Habr

Пользователь

Четыре частых вопроса по SQL джуну-аналитику и три задачи на собеседовании. Часть 1

speshuric May 12 2024 at 21:50

Ну этот подход тоже не работает. Вот есть аналитик, у него есть отдельная БД аналитики (sqlite, pg, mysql, vertica, clickhouse или еще что-то), ему надо вытащить данные, он пишет запрос, запускает и внезапно понимает, что прошло уже 20 минут, а сервер думает. Было бы неплохо, если бы этот аналитик умел сам переделать запрос, чтобы запрос данные таки вывел. Каждый запрос к программистам не набегаешься же.
Но это точно не про джуна (да он бы хоть какой-то запрос написал) и точно не решающий вопрос на собеседовании.

Четыре частых вопроса по SQL джуну-аналитику и три задачи на собеседовании. Часть 1

speshuric May 12 2024 at 20:28

Статья очень плохая.

Какой-то винегрет из неудачных вопросов, не очень корректных ответов и почти случайных (опять же не всегда корректных) фактов непонятно про какую СУБД.

Очень странный в принципе вопрос аналитику на собеседовании про оптимизацию запросов (ну ок, наверное можно его задать, если кандидат явно на несколько ступеней оверквал - но это всё равно дичь).

Очень странные "способы оптимизации". Не основанные ни на анализе планов, ни на анализе ресурсов, ни на анализе хотя бы времени выполнения. Ладно, первый способ я еще могу представить на собеседовании аналитика, но второй и третий вызывают у меня вопросы к квалификации интервьюера.
Про вторую оптимизацию. Просто из любопытства - попробуйте сделать такое заполнение секционированной таблицы из примера и запрос к ней, в которой секционирование будет стабильно лучше любого индекса, приведите пример с временем, io и планом. Если получилось, то скорее всего вы создали неудачный индекс.
Про нормализацию отметили выше, что обычно она понижает скорость выборки, а не ускоряет.

В разделе про джойны:

Фильтр по orders.order_id IS NULL позволяет идентифицировать клиентов без заказов.

Так делать иногда можно, но по умолчанию лучше использовать exists.

В разделе про оконные функции в запросе со скользящим средним может быть очень неожиданным, если поле order_date неуникально. Но это уже мелкая придирка.

CTE. В postgresql, например, CTE имеют тенденцию к материализации. До версии 12 с этим было вообще плохо, сейчас получше, но всё равно можно выстрелить себе в ногу. Тут уж в статье надо было выбрать - либо удобство аналитика, либо акцент на оптимизации.

Но это всё были цветочки, если бы вся статья была этого уровня, я бы не стал комментировать. Но когда я добрался до задач, то увидел

HAVING SUM(CASE WHEN impression = 'Bored' THEN 1 ELSE 0 END) = 0

За 25 лет работы с БД я, конечно, встречал такой код. И даже смогу вспомнить сколько-то раз, когда это не приводило к ухудшению плана запроса. И даже, наверное, вспомню пару раз, когда это решение было хорошим. Но не в этот раз. Не делайте так. Просуммировать выражение с CASE от поля только чтобы убедиться что таких значений нет - очень плохая идея. После этого ситуацию уже индексами, например, исправить нельзя.

Майские мини-ПК: 5 хороших моделей для разных задач

speshuric May 4 2024 at 20:41

То ли я чего-то не понимаю, то ли китайцы хитрят. В MSI 1P17 мне непонятно зачем 2 x 2.5 GbE LAN - с указанными процами там же с трудом и 1 такой порт прогрузить.

Как передать информацию в ICMP-пакетах и не привлечь внимания санитаров

speshuric Apr 25 2024 at 19:34

Хм. А интересно, можно ли передавать данные через "ШИМ"? Ну то есть кодировать данные временем между пакетами, да хоть бы той же морзянкой (понятно, что надёжность и скорость невысоки).

Мошенники. Вектор атаки на айтишников через LinkedIn

speshuric Apr 22 2024 at 20:05

Странно. Обычно минут через 10 уже бросают трубку.

Об одной изящной задаче

speshuric Apr 8 2024 at 20:57

А если numpy или подобные либы есть, то можно не класс создавать, а матрицей прикинуться:

import numpy as np


def magic(x: int, y: int, z: int) -> int:
    a = 10000000000000000000000
    b = 20000000000000000000000
    c = 30000000000000000000000
    return a * x + b * y + c * z


X = np.array([[1, 0, 0]])
Y = np.array([[0, 1, 0]])
Z = np.array([[0, 0, 1]])

print(magic(X, Y, Z))

Мы шутили над «опытными пользователями ПК», а ведь они вымирают

speshuric Apr 5 2024 at 23:48

На скорости 2,5-3 чаще всего какой-нибудь длинный видос про майнкрафт. Учебный материал 1,5-2.

Мы шутили над «опытными пользователями ПК», а ведь они вымирают

speshuric Apr 5 2024 at 11:49

есть только одно преимущество

Ну это не так. Мне даже коммент на хабре проще на ПК писать, потому что тут клавиатура есть. Вот на днях жена кучку заявлений на госуслугах и mos.ru делала - тоже через ноутбук, а не планшетотелефон. Мой отец (72 года) фотографии редактирует и печатает на ПК. Чёрт, да даже старший сын ютуб смотрит на ПК, потому что с плагином в браузере можно скорость выше 2 ставить.

+12

Как мы переехали с Oracle на PostgreSQL в нагруженном сервисе без даунтайма

speshuric Apr 3 2024 at 14:31

Подход с GG и пробными запросами понятен - это очень разумный подход, но я всё равно не смогу поверить, что все баги чинились незаметно. Мне при обсуждениях переезда с СУБД на другую на лету всегда вспоминается очень старый ролик EDS "Airplane".
Спасибо за подробную статью.

Как мы переехали с Oracle на PostgreSQL в нагруженном сервисе без даунтайма

speshuric Apr 3 2024 at 13:58

чинили баги незаметно для пользователей

Ха-ха. Вам показалось :)

-3

Сильное шифрование подключения SQL Server Management Studio 20 к Microsoft SQL Server 2022

speshuric Apr 1 2024 at 20:48

На момент публикации список функций, не поддерживающих принудительное строгое шифрование, такой

Список - вся "внутренность", накопленная за ~25 лет.

Сканер отпечатков кошачьих носиков

speshuric Apr 1 2024 at 20:04

Ну да, ну да. Сначала "дай носик отсканировать", а потом всё это превращается в "почему в jira время не оттрекано".

+15

А в чем проблема работать с файлами?

speshuric Mar 28 2024 at 15:06

там большинство проблем уже решено

Пока приложение однопоточное - может быть. Как только приложение многопоточное - появляются весьма интересные способы выстрелить себе в ногу.

Как я уронил прод на полтора часа (и при чем тут soft delete и partial index)

speshuric Mar 26 2024 at 19:09

я бы вас депремировал и провел инструктаж всему отделу разработки

Так есть шанс депремировать каждый квартал новую команду.

+13

Реальность обладает поразительным числом деталей

speshuric Mar 19 2024 at 06:47

Во-первых, не приплетайте здесь парадокс Рассела, он ни чём, а во-вторых, у меня другие формулировки.
Усложнить систему, т.е. сделать сложной, то есть состоящей из большого числа элементов и связей, причём скорее всего с циклами обратной связи, т.е. нелинейной - просто. "Просто" в данном случае больше отражает объём усилий.
Про то что сделать систему простой, т.е. выделить только существенные элементы и взаимосвязи, написано не "сложно", а "нужно приложить усилия". Сама такая деятельность, как правильно заметил @Ndochp не является системой, к ней не применима метрика сложности системы.

Реальность обладает поразительным числом деталей

speshuric Mar 18 2024 at 19:33

Усложнить систему - просто. А сделать простой - нужно приложить усилия.

Halloween Protection

speshuric Mar 10 2024 at 18:05

Я проводил этот эксперимент на рабочей станции Pentium Xeon 2,2 ГГц с 2 ГБ оперативной памяти, Windows Server 2003 SP2 и SQL Server 2005 SP2.

Эх, были же времена, когда это считалось хорошей рабочей станцией! :)

Правило 16 байт: развенчиваем миф о производительности структур в C#

speshuric Mar 4 2024 at 11:15

Справедливо ли ваше утверждение для 32-битных процессоров?

И для ARM.

MSSQL: сравниваем data compression и backup compression

speshuric Mar 4 2024 at 10:50

Сжатие на уровне строк полезно по факту только если много числовых (numeric) полей с нулями или небольшими значениями (при больших допустимых). Тогда все эти нули будут храниться компактно. Другие выгодные варианты придумать можно, конечно, но базовый, наверное, такой.

Сжатие на уровне страниц - если есть много повторяющихся (но не длинных строковых/бинарных) значений. Повторения могут быть частичными. Способ сжатия описан тут. Доступ к таким данным на чтение и запись дороже по CPU, но для таблиц с кучей похожих чисел и ссылками на другие записи (всеми типовыми способами: уидами, строками, числами, бинарными) жмутся очень хорошо и это часто даёт такой выигрыш при чтении/записи с диска, что становится оправданным. Даже для неплохих систем хранения.

Сжатие бэкапов явно алгоритм не описан, но судя по появлению в 2022 выбора между MS_XPRESS (по умолчанию) and QAT_DEFLATE (для аппаратного ускорения) и по некоторым другим признакам - штатный алгоритм сильно похож на обычный deflate - умеренно хорошо подходит для любых избыточных потоков.

Отсюда уже можно сделать все выводы данной статьи, но по другим соображениям :) Плюс есть всякие хитрозадые опции хранения типа sparse columns, column sets, columnstore indexes и другие. Плюс есть еще соображения разницы между Standard/Enterprise.

И есть еще куча граничных случаев. Так, например "таблица-лог" с большими сообщениями не будет нормально сжиматься ни rows, ни page, зато может в десяток раз сжаться в бэкапе. Таблица с большим количеством низкоселективных ссылочных полей будет отлично жаться в page, зато потом плохо в бэкапе. А может для конкретно случая лучше подойдёт columnstore.

Так что всё равно придётся смотреть по месту, экспериментировать и замерять.

Wubuntu: Linux с интерфейсом Windows 11 и возможностью запускать «виндовый» софт. А ещё и Windows 95

speshuric Mar 2 2024 at 07:18

Может быть закрывать лучше в обратном порядке?

1 2 ...

5 6

8 9 ...

46 47