SQL *

Формальный непроцедурный язык программирования

СтатьиПостыНовостиАвторыКомпании

CHAMPMOON 12 янв 2024 в 11:39

Как оптимизировать медленные SQL запросы?

18 мин

42K

SQLite*SQL*PostgreSQL*MySQL*

Из песочницы

Перевод

Большинство проблем, связанных с БД, во время разработки остаются незамеченными, потому что мы пишем код и проверяем его правильность только при малой "заполненности" нашей БД. Поэтому, когда приложение выкатывается в продакшн, через некоторое время начинают появляться проблемы с производительностью БД, отдельные части приложения начинают работать всё медленнее и медленнее по мере роста самого БД.

Как выявить и отладить такие проблемы? В этой статье будет показано решение наиболее распространённых проблем с производительностью БД, вызванных неправильной индексацией. Примеры будут приведены для Postgres, MySQL и SQLite.

PastorGL 22 сен 2023 в 13:36

Искусство ETL. FAQ по Data Cooker ETL

5 мин

3.9K

Big Data*Data Engineering*Hadoop*Open source*SQL*

FAQ

Как и было обещано, в завершение серии ( 1 • 2 • 3 • 4 • 5 ) статей о разработке инструмента для ETL больших данных, я выкладываю выжимку ответов на вопросы.

А то статьи были в формате туториала для разработчиков таких инструментов (длинные и с высоким уровнем сложности), так что стоит рассказать более кратко и понятно для каждого.

Q. Что это такое?

A. Специализированный инструмент для а) быстрого создания ETL процессов и б) эффективного по стоимости их выполнения.

Промка: https://dcetl.ru
Исходники: https://github.com/PastorGL/datacooker-etl
Официальная группа в телеге: https://t.me/data_cooker_etl

Читать дальше →

alexrozen 13 сен 2023 в 06:52

Вы вообще нормальн… нормализованный??

Средний

5 мин

5.5K

PHP*PostgreSQL*Symfony*SQL*Doctrine ORM*

Ретроспектива

Сказ о том, нормализация данных завела производительность many-to-many в postgres в тупик, как это зло было повержено, и как тут нам помог Clickhouse.

Порой бывают ситуации, когда стоит посмотреть на задачу будто с нуля и отбросить предыдущий опыт и best practices. Подумать на несколько шагов вперёд. И лучше до того, когда уже вышли из SLA или нахватали негатива от клиентов или бизнеса. Об одной такой задаче и стандартном решении, которое пришлось больно редизайнить, хочется и поделиться с сообществом в этой статье.

k0rsakov 2 сен 2023 в 02:18

Таблица-справочник – генератор DAG? А что так можно было?

Средний

16 мин

7.6K

Python*PostgreSQL*SQL*Data Engineering*Хранение данных*

Туториал

Таблица справочник, которая является медленно изменяющейся и также генерирует DAG.

В статье рассказывается как можно хранить бизнес-метрики и собирать их через DAG.

l4legenda 27 авг 2023 в 09:10

Просто о Deep #1

Простой

4 мин

5.1K

Блог компании Deep.FoundationPython*JavaScript*SQL*IT-инфраструктура*

Обзор

Боль в написании backend

Разберем, какие есть боли у backend разработчика и как deep.foundation решает данную проблему и что предлагает для разработчика.

In deep

ptr128 26 авг 2023 в 13:00

Как обучить миллионы моделей прогнозирования временными сериями

Простой

5 мин

3.6K

Машинное обучение*R*SQL*PostgreSQL*

Мнение

Не буду вдаваться в подробности о том, откуда берутся миллионы временных серий и почему они умудряются изменяться еженедельно. Просто возникла задача еженедельно сделать прогноз на 2-8 недель по паре миллионов временных серий. Причем не просто прогноз, а с кроссвалидацией и выбором наиболее оптимальной модели (ARIMA, нейронная сеть, и т.п.).

Имеется свыше терабайта исходных данных и достаточно сложные алгоритмы трансформации и чистки данных. Чтобы не гонять большие массивы данных по сети решено было реализовать прототип на одном сервере.

LeonID_L 22 авг 2023 в 12:23

Как понять логику EXISTS в SQL запросах

Простой

6 мин

78K

MySQL*SQL*

Туториал

Recovery Mode

Как следует из названия, данная статья для тех, у кого есть сложности с пониманием SQL запросов, в составе которых, используется EXISTS, т.к., исходя из опыта, его использование частенько вызывает вопросы у начинающих, а иногда даже у продолжающих.

Стандартное описание работы оператора EXISTS, для SQL, выглядит примерно так: “Оператор EXISTS возвращает true, если подзапрос возвращает одну, или более записей, в противном случае, возвращает false”.

И еще: “Поскольку возвращения набора строк не происходит, то подзапросы с подобным оператором выполняются довольно быстро.”

Непонимание, обычно, как раз кроется, где-то здесь: Если EXISTS возвращает true/false, но не возвращает набор записей, то каким образом, основной запрос, в ходе выполнения, отбирает записи, соответствующие условиям описанным во вложенном запросе.

odetf 8 авг 2023 в 06:40

Проблемы студентов курсов при работе с реальными данными

Простой

9 мин

4.2K

SQL*Хранение данных*

Из песочницы

Практически от любого специалиста IT-сферы сегодня требуется хотя бы базовое знание SQL. Рынок онлайн-образования реагирует соответствующе: на любом сайте по теме можно найти что-то связанное с SQL и/или базами данных. В теории такие курсы действительно позволяют узнать основы языка, а иногда даже и немного больше, но на практике они не готовят специалиста ко взаимодействию с реальной базой данных. Многие стажеры и младшие (а иногда и грейдом повыше) специалисты допускают одни и те же ошибки.

В этот статье я бы хотела отметить важные моменты из работы с базами данных с помощью SQL, которые не изучают на курсах, но которые могут быть актуальны с самого начала карьеры для эффективной работы. Примеры в статье будут приведены для базы PostgreSQL.

yooteam 20 июл 2023 в 11:39

Мигрируем в PostgreSQL, тестируем OLAP-кубы и разбираемся с валидацией T-SQL-кода: три доклада с митапа ЮMoney

Средний

3 мин

8.8K

Блог компании ЮMoneyPostgreSQL*SQL*IT-инфраструктура*Microsoft SQL Server*

Всем привет от команды ЮMoney ?

Делимся видеозаписями и главными мыслями митапа High SQL, который посвятили работе с данными в DWH на Microsoft SQL Server.

Кому советуем посмотреть доклады

◾️ Тем, кто планирует перебраться с Microsoft SQL в PostgreSQL, но всё ещё сомневается.

◾️ Тем, кто выбирает между ANTLR и DacFx и хочет научиться решать проблемы во время ревью TSQL-кода.

◾️ И тем, кто хочет узнать, зачем тестировать OLAP-кубы, что может пойти не так и какой результат дают автотесты силами разработчиков и тестировщиков.

Смотреть доклады

Tzimie 12 июн 2023 в 08:29

MSSQL: снова о дефрагментации и SHRINK

Средний

3 мин

17K

SQL*PowerShell*Microsoft SQL Server*

Начнем с хороших новостей. Какое то время назад я написал статью Дефрагментация таблиц в высоко нагруженных базах данных (MSSQL). За это время я еще больше отшлифовал скрипт на production, и отдел безопасности фирмы, где я сейчас работаю, разрешил выложить его в open source (репо на github). Приглашаю воспользоваться им и писать мне о багах и пожеланиях.

Ниже я приведу краткий update к статье - кое в чем я теперь с ней не согласен. Кроме того, опишу опыт SHRINK - почему его лучше никогда не делать, почему все-таки иногда нужно делать и как его готовить.

Jedi-Knight 8 июн 2023 в 17:42

Кластер HA для групп доступности AlwaysON MS SQL Server 2022 Linux при помощи Pacemaker для хранения ИБ 1С

Средний

26 мин

8.6K

Настройка Linux*SQL**nix*Microsoft SQL Server*1С*

Туториал

В сети огромное количество мануалов по созданию отказоустойчивых групп доступности AlwaysON Microsoft SQL Server посредством Windows Server Failover Cluster. Но что делать, если экземпляры Microsoft SQL Server развёрнуты на Linux, а очень хочется создать отказоустойчивые группы доступности AlwaysON? В русскоязычном сегменте не нашёл внятных мануалов, посвящённых этому вопросу. Решил написать гайд. Сразу скажу, гайд в некоторых местах будет очень подробный и разжёвыванием банальных вещей может раздражать опытных системных администраторов, однако, как показывает практика, людей которым хотелось бы, чтобы он был ещё подробнее куда больше, чем тех, кому эта подробность не по нраву. Тут мы затронем и вопросы оптимизации производительности, которые актуальны для наверно самого популярного прикладного применения Microsoft SQL Server в России — хранения информационных баз 1С. На самом деле данная задача не особо сложная, но важна к освящению.

Usetech 30 янв 2023 в 08:14

Tarantool Data Grid + Java = …

6 мин

3.6K

Блог компании UsetechTarantool*SQL*Java*

Туториал

В последнее время всё большую популярность набирает Tarantool — платформа in-memory вычислений с гибкой схемой данных, включающая в себя NoSQL-базу данных и сервер приложений. В этой статье я хочу рассказать об одной из его реализаций — Tarantool Data Grid (TDG).

k0rsakov 22 июл 2022 в 13:24

Создание и наполнение PostGIS при использовании Docker

5 мин

8.5K

PostgreSQL*SQL*OpenStreetMap*Геоинформационные сервисы*Визуализация данных*

Туториал

Из песочницы

Пошаговая инструкция о том, как установить и использовать расширение PostGIS для PostgreSQL в Docker.

Включает в себя: установка и настройка Docker-контейнера, загрузка данных в базу данных, извлечение и визуализация данных, анализ геоданных с помощью PostGIS функционала.

SbWereWolf 8 янв 2022 в 02:46

Идеальный каталог, пример использования

8 мин

Хранение данных*SQL*PostgreSQL*PHP*

Я разрабатываю библиотеку для работы с Entity Attribute Value (репозиторий), сокращенно EAV (структура базы данных для хранения произвольных данных). В конце прошлой статьи я спросил у вас о чём мне ещё надо написать, вы попросили показать пример использования и сделать замеры быстродействия. Про замеры быстродействия статья была, эта будет о примере использования.

Назначение библиотеки

Прежде чем рассказать об использовании, надо обозначить цели этого использования. Первая цель это автоматизировать запись произвольных данных. Вторая цель - читать ранее записанные данные и делать произвольные выборки по этим данным.

Для этих двух целей применяется EAV, но он существенно замедляется при увеличении объёма данных, и главная цель библиотеки это сделать скорость работы с данными независимой от объёма данных.

Это достигается за счёт использования материализованных представлений и таблиц, и главная задача которую решает библиотека, это синхронизации данных между таблицами EAV и конкретными таблицами, выделенными под каждую категорию (Entity - сущность). Конечно сущность может быть выделена в материализованное представление, библиотека оставляет выбор за пользователем.

В статье будут приведены примеры того как задать произвольный набор атрибутов для произвольной сущности и как сделать выборку данных с произвольными условиями.

И конечно будут примеры того как для уже созданной сущности добавить новый атрибут, новую позицию и как обновить значения "позиции каталога".

kvsman 26 ноя 2021 в 18:20

Как Business Intelligence «купается» в озёрах данных: практика платформы «Форсайт»

20 мин

9.6K

Блог компании ФорсайтSQL*Big Data*Data Engineering*Хранение данных*

Всем привет.

В этой публикации мы начнем рассказ о том, как наша BI-платформа «Форсайт» работает с данными. Как организовано взаимодействие платформы с СУБД и какие объемы информации мы можем эффективно обрабатывать. Что такое связка «BI+Data Lake» и как можно ее сформировать. Как в OLAP-кубах получать сведения из разных слоев данных: сырые/неструктурированные, детальные, консолидированные, валидированные, аналитические и т.п. Зачем для BI нужно деление на горячие, теплые и холодные данные. Ответы на все эти вопросы вы найдете в цикле наших статей.

Осуществлять аналитическую обработку данных, причем зачастую разной природы и масштабов – дело достаточно сложное. Поэтому мы разделили наш рассказ на несколько частей. Итак, давайте начнем первую часть нашего рассказа. Welcome под кат!

SultanK 25 ноя 2021 в 14:24

Применение Materialized Views в организации ETL-процессов

9 мин

36K

Блог компании Первая грузовая компания (ПГК)Хранение данных*SQL*Python*Oracle*

Туториал

Приветствую! Меня зовут Жумабаев Султан, и в ПГК я работаю инженером данных на проекте «Цифровой вагон». Могу уверенно сказать, Oracle сегодня — одно из самых популярных и надежных хранилищ, хотя рынок и предлагает множество новых современных разработок. В этой статье я расскажу про использование Materialized Views для организации ETL-процессов в рамках проекта.

yooteam 24 ноя 2021 в 11:27

Как работает антифрод и в чем ценность управления метаданными

1 мин

2.9K

Блог компании ЮMoneySQL*Microsoft SQL Server*Хранение данных*Конференции

На очереди SQL-секция конференции ЮMoneyDay, и она очень мощная, потому что уже проверена осенним митапом про базы данных. Даже если были на нём — в докладах много нового.

Начнём с антифрода: как мы онлайн и офлайн обрабатываем транзакции, храним данные на Microsoft SQL Server и используем движок Business Rule Engine. Далее поделимся, зачем мы взялись за управление метаданными и почему продолжаем развивать это направление.

Заглядывайте под кат!

Смотреть кейсы по SQL

pavel_smagin 23 ноя 2021 в 06:42

Часть. 2. Создание аналога Moodle. Реализация API для прототипа SPA. Межсайтовые запросы. Первые проблемы архитектуры

12 мин

2.6K

PHP*JavaScript*SQL*Laravel*ReactJS*

В первой части я рассказал про то, почему я пришел к необходимости создания собственной СДО. Итак, на текущий момент имеем: сайт, работающий на самописном PHP frameworke, отдельные скрипты JS, подключаемые на определённых страницах с соответствующим типом задания (тест, квест). Тип задания и необходимость загрузки скриптов определяется выполнением кода PHP на конкретной странице. JS работает локально (база данных используется только PHP).

Появилась задача взаимодействия JS с базой данных для расширения функционала интерактивных возможностей СДО. Так как ранее я работал с PHP, было принято решение передавать сведения, полученных PHP из базы данных в JS. Для хранения массивов в SQL сначала я использовал сериализацию и base64, но быстро отказался от такого подхода ввиду сложности понимания структуры данных, хранящихся в базе.

devozerov 4 окт 2021 в 05:30

Rule-based оптимизация SQL-запросов

7 мин

Блог компании CedrusDataData Engineering*Big Data*NoSQL*SQL*

Перевод

Всем привет! В компании Querify Labs мы создаем компоненты СУБД, включая оптимизаторы SQL-запросов.

Любой SQL-запрос может быть выполнен множеством способов. Задача оптимизатора - найти эффективный план выполнения запроса.

В этой статье мы обсудим rule-based оптимизацию - популярную архитектуру оптимизатора, в котором планирование запроса разбито на последовательность атомарных трансформации. Мы рассмотрим особенности реализации данного подхода в Apache Calcite, Presto, и CockroachDB.

mzhukova 30 сен 2021 в 08:44

Как настроить SQLAlchemy, SQLModel и Alembic для асинхронной работы с FastAPI

9 мин

63K

Python*SQL*

Из песочницы

Перевод

В этом руководстве предполагается, что у вас есть опыт работы с FastAPI и Postgres с помощью Docker. Вам нужна помощь, чтобы ускорить работу с FastAPI, Postgres и Docker?

1 2 ...

79 80

82 83 ...

89 90

SQL *

Как оптимизировать медленные SQL запросы?

Искусство ETL. FAQ по Data Cooker ETL

Вы вообще нормальн… нормализованный??

Таблица-справочник – генератор DAG? А что так можно было?

Просто о Deep #1

Как обучить миллионы моделей прогнозирования временными сериями

Как понять логику EXISTS в SQL запросах

Проблемы студентов курсов при работе с реальными данными

Мигрируем в PostgreSQL, тестируем OLAP-кубы и разбираемся с валидацией T-SQL-кода: три доклада с митапа ЮMoney

MSSQL: снова о дефрагментации и SHRINK

Кластер HA для групп доступности AlwaysON MS SQL Server 2022 Linux при помощи Pacemaker для хранения ИБ 1С

Tarantool Data Grid + Java = …

Создание и наполнение PostGIS при использовании Docker

Ближайшие события

Идеальный каталог, пример использования

Как Business Intelligence «купается» в озёрах данных: практика платформы «Форсайт»

Применение Materialized Views в организации ETL-процессов

Как работает антифрод и в чем ценность управления метаданными

Часть. 2. Создание аналога Moodle. Реализация API для прототипа SPA. Межсайтовые запросы. Первые проблемы архитектуры

Rule-based оптимизация SQL-запросов

Как настроить SQLAlchemy, SQLModel и Alembic для асинхронной работы с FastAPI

Вклад авторов