Все потоки

SQL *

Формальный непроцедурный язык программирования

97

Рейтинг

СтатьиПостыНовостиАвторыКомпании

EvgeniyGar 25 ноя 2024 в 05:16

Транзакции в базах данных на примере PostgreSQL

Простой

12 мин

50K

SQL * PostgreSQL * Базы данных *

Из песочницы

Транзакция — это набор операций с базой данных. В этот набор может входить как одна операция, так и несколько. Операции внутри транзакции либо выполняются все и полностью, либо ни одна операция не выполняется. Это свойство еще называют атомарностью. Транзакция переводит базу данных из одного согласованного состояния в другое. Согласованность означает что данные в базе данных подчиняются определенным правилам, которые были заложены при ее создании. К примеру, у нас есть две таблицы — Покупатели (Customer) и Покупки (Purchase).

Читать далее

+3

Tzimie 22 ноя 2024 в 14:28

Катастрофическое падение производительности из-за hyperthreading

4 мин

48K

SQL * Microsoft SQL Server * Высоконагруженные системы * Серверная оптимизация *

Кейс

Недавно я писал статью - что такое 50% cpu? На системах с hyperthreading 50% cpu по метрикам означает, что большая часть ресурсов сервера уже использована. То есть cpu>50% - это уже "желтая зона", и мы ожидаем замедление всего, чего можно. Но я никогда не думал до экспериментов, что падение может быть столь катастрофическим.

Для экспериментов я использую MSSQL. Если вы не связаны с базами, прочитайте первую часть по диагонали до выводов.

Читать далее

+54

ruslanen 21 ноя 2024 в 21:46

Меньше JOIN’ов — больше скорость! Или несколько примеров оптимизаций DAX и SQL

Средний

16 мин

25K

Блог компании VisiologySQL * Хранение данных * Визуализация данных * Качество кода *

Кейс

Из песочницы

Все мы любим ClickHouse, но прекрасно знаем, что у этой СУБД есть свои особенности и ограничения. В этой статье мы поговорим о том, почему нужно избавляться от лишних операторов JOIN, если вы работаете с большими нагрузками, а также оценим, какой эффект дает исключение JOINов, поднятие их на уровень выше, перестановка таблиц местами и некоторые другие хитрые трюки на уровне кода SQL. Всех, кто работает с ClickHouse, а также тех, кто не хочет работать с ClickHouse, но подумывает получить все готовенькое от Visiology, приглашаю под кат!

Читать далее

+8

devozerov 21 ноя 2024 в 14:11

CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

4 мин

2.1K

Блог компании CedrusDataBig Data * SQL * Data Engineering *

Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам

Читать далее

+5

anastapenko 21 ноя 2024 в 11:55

Модели данных в BI-платформах: физика против логики

Простой

7 мин

6K

Блог компании Axenix (ex-Accenture)Анализ и проектирование систем * SQL * Визуализация данных * Хранение данных *

Обзор

Сегодня поговорим о том, как устроены модели данных в BI-платформах. Рассмотрим два основных типа моделей данных, которые используются в BI: физическую и логическую.

Когда стоит вопрос о выборе BI-платформы, реализация модели данных является одним из ключевых критериев, на который мы обращаем внимание в первую очередь. Важно понимать, как работает модель данных в конкретной BI-системе, так как функционал модели во-многом определяет возможности платформы по работе с данными в целом. Это также поможет выбрать подходящий способ работы с данными в зависимости от задач бизнеса и технических ограничений платформы. Обсудим преимущества каждой модели данных, а также ограничения и способы их частичного обхода.

Читать далее

+8

gumaka 21 ноя 2024 в 11:25

Оптимизация Arenadata DB: как избежать критических ошибок и повысить производительность кластера

Средний

22 мин

14K

Блог компании ArenadataBig Data * SQL *

Обзор

Привет, Хабр! Меня зовут Дмитрий Капралов, я работаю в команде консалтинга компании Arenadata. Одной из наших задач является проведение аудита кластеров СУБД Arenadata DB (ADB). Проектирование физической модели данных и настройка квотирования ресурсов кластера проводятся на этапе разработки хранилища. Однако при переходе системы в продуктивный режим профиль нагрузки кардинально меняется, и первоначальные настройки СУБД и архитектура данных нередко оказываются не готовы к такой нагрузке. В процессе эксплуатации могут возникнуть узкие места, замедляющие работу системы. В этой статье я хочу поделиться опытом нашей команды по выявлению и оптимизации подобных проблем.

Читать далее

+16

goodfup 20 ноя 2024 в 13:16

Честный взгляд на Spring Data JPA

Средний

4 мин

11K

Java * SQL * Веб-разработка *

Из песочницы

Spring Data JPA считается швейцарским ножом для работы с БД в Java. Однако Spring Data JPA не заслуживает своего триумфа и вот почему...

Читать далее

+7

danolivo 19 ноя 2024 в 13:55

Ускоряем запросы в PostgreSQL, оптимизируя оператор GROUP BY

Сложный

9 мин

35K

Блог компании Postgres ProfessionalSQL * Базы данных * PostgreSQL *

Кейс

Пользователи PostgreSQL нередко оперируют аналитическими запросами, при выполнении которых данные сортируются и группируются по разным правилам. За счёт оптимизации вычисления агрегатов и сортировок можно значительно сократить время и стоимость выполнения запросов. Об одной из таких оптимизаций — выборе порядка колонок в выражении GROUP BY — расскажем в этой статье.

Postgres уже умеет перестраивать список группируемых выражений в соответствии с порядком колонок из условия ORDER BY, чтобы исключить дополнительную сортировку и сэкономить вычислительные ресурсы. Мы пошли дальше, реализовали свою идею в дистрибутивах Postgres Pro Standard и Enterprise и вынесли патчи на обсуждение сообщества Postgres (первое и второе) в надежде, что они войдут в ближайшую версию ванильного PostgreSQL.

Читать далее

+43

koanse 18 ноя 2024 в 02:20

Реляционная алгебра для DAX: ALL в итераторе SUMX для SUMMARIZECOLUMNS

5 мин

2.3K

Big Data * SQL * Визуализация данных *

Кейс

Привет, Хабр! Язык запросов DAX популярен и эффективен для построения дашбордов в Business Intelligence, и за счет свой функциональной природы DAX в чем-то ближе к реляционной алгебре, по сравнению с SQL. Особенности DAX удобно рассмотреть на основе примеров DAX-запросов, переведенных на реляционную алгебру. В частности, использование ALL в итераторе SUMX в рамках наиболее популярной DAX функции SUMMARIZECOLUMNS позволяет рассмотреть некоторые нюансы DAX. Если интересно описание ALL в DAX с точки зрения реляционной алгебры — добро пожаловать под кат! :)

Читать далее

+2

FaryaRos 15 ноя 2024 в 11:33

7 продвинутых приемов pandas для науки о данных

4 мин

26K

Data Engineering * PostgreSQL * SQL * Python *

Аналитика

Перевод

Pandas — это основная библиотека для работы с данными. Вот несколько приёмов, которые я использую, чтобы быстрее и проще выполнять повторяющиеся задачи по работе с данными.

Читать далее

+22

badcasedaily1 13 ноя 2024 в 08:32

Триггеры в PostgreSQL: основы

Простой

6 мин

42K

Блог компании OTUSPostgreSQL * Базы данных * SQL *

Обзор

Приветствую! В этой статье поговорим про триггеры в PostgreSQL.

Начнём с базы: триггер в PostgreSQL — это такая функция, которая запускается автоматически при определённом событии в таблице. С триггерами можно автоматизировать массу рутины и освободить приложение от сложных проверок и вычислений, но это палка о двух концах.

Читать далее

+19

SbWereWolf 12 ноя 2024 в 12:43

Никогда не используйте MySQL, всегда используйте PostgreSQL

Простой

4 мин

27K

SQL * PostgreSQL * MySQL *

Мнение

Recovery Mode

Никогда не используйте MySQL, всегда используйте PostgreSQL

И вот почему, по результатам нагрузочного тестирования:

PostgreSQL в два раза меньше потребляет ресурса CPU, PostgreSQL в два раза меньше потребляет ресурса RAM, PostgreSQL в полтора раза меньше потребляет ресурса HDD (storage), PostgreSQL в три раза быстрее выполняет запросы, PostgreSQL после выполнения команды очистки (TRUNCATE TABLE) полностью очистил диск , MySQL очистил диск только наполовину.

Наверное MySQL надо уметь готовить ? Наверное. Если кто то напишет рецепт в комментариях, то благодарное человечество, в лице меня лично, скажет большое спасибо.

Одновременно с этим есть PostgreSQL, который можно не уметь готовить и иметь большую (такую же?) эффективность, стоит ли связываться с MySQL ?

Подробности (с картинками!)

-19

Daria_Chetyrkina 12 ноя 2024 в 10:16

Как фрагментация индексов в SQL Server «подкладывает свинью» производительности, и что с этим делать

Простой

4 мин

11K

Блог компании АвтомаконSQL * Microsoft SQL Server *

Мнение

Из песочницы

Привет, Хабр и его читатели!

Меня зовут Дарья Четыркина, я программист SQL в IT-компании «Автомакон». Предлагаю обсудить проблему, которая может «съедать» производительность вашего SQL Server — фрагментация индексов, в конце статьи будут решения этой ситуации. Если вам важно, чтобы SQL Server всегда работал на полную мощность, эта статья — для вас.

Когда дело касается SQL Server, индексы — это ваши верные помощники: они организуют данные так, что сервер может находить нужные записи быстрее, чем обычный поиск. При этом со временем индексы начинают «разваливаться» и создают массу проблем. Фрагментация индексов — невидимый враг, который замедляет запросы, увеличивает нагрузку на сервер и лишает ваш SQL Server той оптимальной скорости, ради которой и создаются индексы. Разберемся, почему возникает фрагментация индекса, как она вредит производительности и что можно с этим сделать.

Читать далее

+3

Sivchenko_translate 11 ноя 2024 в 19:32

Запросто собираем базу данных при помощи команд Linux

6 мин

24K

Linux * SQL * Программирование * Ненормальное программирование *

Перевод

База данных — это сердце многих приложений, от полнофункциональных корпоративных сайтов до сравнительно простых инструментов, например, для ведения списков покупок и финансовых трекеров. Популярны реляционные базы данных на основе SQL, но в Linux можно собрать более простую и прозрачную альтернативную базу данных.

Читать далее

+50

Tzimie 8 ноя 2024 в 14:07

Насколько сложна ваша работа MS SQL server DBA?

1 мин

5.3K

SQL * Microsoft SQL Server *

Мнение

Посчитаем по пунктам потенциальные грабли и проблемы, с которым встречается DBA на своем рабочем месте. Сколько получилось у вас? Отпишитесь в комментариях.

Читать далее

+7

koanse 8 ноя 2024 в 13:01

Определяем доли и коэффициенты проникновения с помощью DAX

Простой

4 мин

3.8K

Блог компании VisiologySQL * Big Data * Визуализация данных *

Кейс

Привет, Хабр! Одной из важных задач в аналитических запросах является расчет долей, который позволяет узнать, какая часть записей из общего количества по всей таблице соответствует какому-либо критерию. Также нередко полезными оказываются коэффициенты проникновения (в общем-то тоже являющиеся долями). Они позволяют оценить продажи, найти взаимосвязи признаков и сделать много еще чего полезного. Чтобы проводить такого рода расчеты идеально подходит язык DAX. Если Вам интересно, насколько это удобно и как именно сделать это в DAX — добро пожаловать под кат :)

Читать далее

+3

KDim4eg91 7 ноя 2024 в 07:37

SQL для Junior Data Engineers: примеры бизнес-задач

Простой

6 мин

19K

Роадмэп

Вход в профессию Data Engineer требует не только владения инструментами для построения данных, но и уверенного знания SQL для решения задач различной сложности.

Несмотря на то, что многие SQL-запросы могут казаться «аналитическими», на практике именно Data Engineers часто отвечают за их написание и оптимизацию. Ведь аналитикам и специалистам по продукту требуется быстрый и точный доступ к данным для их анализа, а это означает, что DE должны обеспечить доступ к нужным данным и помочь в создании запросов для обработки больших объемов информации.

В этой статье я привожу примеры SQL-запросов, которые соответствуют уровню владения языком, необходимому для Junior Data Engineer.

Читать далее

+1

pluzanov 6 ноя 2024 в 11:35

PostgreSQL 18: Часть 1 или Коммитфест 2024-07

Средний

10 мин

7.8K

Блог компании Postgres ProfessionalPostgreSQL * SQL * Базы данных *

Эта статья открывает цикл о новостях будущей, 18-ой, версии PostgreSQL. Рассмотрим следующие возможности попавшие в июльский коммитфест.

Планировщик: поддержка правого полусоединения хешированием
Планировщик: материализация внутреннего набора строк для соединения вложенными циклами в параллельном плане
Вспомогательные функции планировщика для generate_series
EXPLAIN (analyze): статистика рабочих процессов узла Parallel Bitmap Heap Scan
Функции min и max для составных типов
Имена параметров для функций regexp*
Режим отладки в pgbench
pg_get_backend_memory_contexts: столбец path вместо parent и новый столбец type
Функция pg_get_acl
pg_upgrade: оптимизация работы pg_dump
Предопределенная роль pg_signal_autovacuum_worker

Читать дальше →

+10

Tehnologika 6 ноя 2024 в 09:46

Тестируем LLM для русского языка: Какие модели справятся с вашими задачами?

Средний

12 мин

45K

Искусственный интеллектМашинное обучение * Natural Language Processing * SQL * Python *

Аналитика

✏️ Технотекст 7

В последние годы большие языковые модели (LLM) стали важной частью бизнес-решений на базе ИИ, применяемых для генерации текста и анализа данных. Однако, большинство разработок ориентированы на англоязычные проекты, что создает сложности для компаний, работающих с русскоязычными данными.

Готовые LLM для русского языка часто показывают низкую точность и ограниченные возможности. Проблемы конфиденциальности также вынуждают компании выбирать локальные модели.

Наша компания давно занимается искусственным интеллектом и стала часто получать подобные запросы от клиентов — создание ИИ-решения с локальной обработкой данных. Мы задались вопросом, какие LLM хороши для таких решений, что мы можем предложить заказчику? Всё это вылилось в большой рисеч разных языковых моделей.

В статье рассмотрим, какие LLM подходят для задач на русском языке, протестируем их по разным параметрам и выявим лидеров. Мы оценили генерацию текста, ответы на вопросы, исправление ошибок и другие функции.

Читать далее

+9

life_of_junior_dev 5 ноя 2024 в 08:18

HHH90003004: firstResult/maxResults specified with collection fetch; applying in memory

Средний

2 мин

2.8K

Туториал

Перевод

Это предупреждение, которое выведет хибернейт, если для осуществления пагинации ему придется загрузить ВСЕ данные из таблицы, а не по одной странице.

Почему возникает и как пофиксить...

+2

1 2 ...

24

25 26 ...