Все потоки

SQL *

Формальный непроцедурный язык программирования

73,87

Рейтинг

СтатьиПостыНовостиАвторыКомпании

MaxRokatansky 11 апр 2025 в 16:39

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Средний

13 мин

7.7K

Блог компании OTUSХранение данных * Big Data * SQL *

Перевод

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.

Читать далее

+5

erogov 11 апр 2025 в 06:14

Сиквел и приквел: занимательная археология

20 мин

5.5K

Блог компании Postgres ProfessionalPostgreSQL * SQL * История IT

Предлагаю вашему вниманию немного дополненный доклад, который я делал на конференции PGConf.СПб 2024. В нем я рассказываю о том, как появились первые реляционные системы, как возник и всех победил язык SQL.

Погрузиться в историю

+28

AlexUnit 9 апр 2025 в 08:00

Путь от «внутри» к ИТ продукту

6 мин

315

1С * SQL * PostgreSQL * Microsoft SQL Server *

Кейс

Приветствую всех хаброжителей и тех, кто читает мою статью. Меня зовут Александр, я являюсь ИТ директором с более 15-летним стажем, начинал в 2002 году обычным программистом в международной FMCG компании, что сильно повлияло на меня как человека и как ИТ специалиста.

Но статья не об этом, повествование пойдет о другом, об 1С и SQL, а именно о том, как быть если нужно выгружать данные из этой самой 1С, да еще, когда она не одна, да и в разных городах и странах. Трудился я в международной алкогольной компании и достался мне «зоопарк» ИТ систем (думаю, что многим понятно и известно, о чем я говорю). Среди этих систем была самописная ERP система с подчиненными базами (больше 100 штук) на базе СУБД Firebird и клиенты, написанные на Delphi и Microsoft С#, годами пока это все развивалось и росло, появились запросы и потребность в анализе данных и стали реализовываться различные выгрузки данных. Получаемые данные как тогда водилось стали выгружать в MS SQL в специально созданную базу (DWH) используя MS SSIS и потом трансформировались в OLAP кубы в MS SSAS. Еще была систем именуемая как «Бизнес-процессы» на базе 1С Бухгалтерия 1.6, с последующим обновлением и совместимостью, чтобы запустится на платформе 1С 8.3, на обычных формах с многокилометровыми модулями кода. Обшито все это было микросервисами (как сейчас это принято называть) и обменивалось между собой как-то, никому 100% не известно как.

Читать далее

-5

badcasedaily1 8 апр 2025 в 19:15

MERGE + OUTPUT: Upsert с логированием без триггеров

Простой

3 мин

3.6K

Блог компании OTUSSQL * Microsoft SQL Server *

Обзор

Привет, Хабр!

В этой статье поговорим про MERGE в MS SQL Server. Не просто MERGE, а MERGE с OUTPUT — как обновлять данные, вставлять новые и одновременно логировать изменения.

Оператор MERGE позволяет объединить INSERT, UPDATE и DELETE. Клаузу OUTPUT можно прикрутить, чтобы получить, что именно поменялось — с деталями: было, стало, когда, зачем и кто виноват.

Читать далее

+4

denzceo 6 апр 2025 в 13:29

Как превратить данные в деньги?

2 мин

6.1K

Мнение

Recovery Mode

Привет!

Все мы слышали, что сегодня данные - это новая нефть. Но вот вопрос: а как мне их использовать? Ты видишь цифры, графики, метрики, а прибыль всё равно стоит на месте. Я когда-то думал, что данные — это просто отчеты для начальства. Пока не понял: данные — это истории. Истории о том, как ваши пользователи радуются, злятся, теряются или готовы платить. И если их «услышать», они принесут реальные деньги. Давайте разберемся, как это сделать — без магии, только логика и немного цифр.

Читать далее

-4

ivankov_timofei 5 апр 2025 в 07:36

Выбор индексов в базах данных для highload-систем

Сложный

27 мин

32K

SQL * NoSQL * Проектирование и рефакторинг * Высоконагруженные системы * Распределённые системы *

Обзор

Индексы – это «ускорители» доступа к данным в базах данных. Правильно выбранные индексы могут многократно ускорить запросы, что особенно критично в highload-системах с большими объёмами данных и большим числом запросов. Однако за ускорение чтения приходится платить усложнением записи и дополнительным расходом памяти. В этой статье мы подробно рассмотрим, как работают разные типы индексов в реляционных СУБД, как выбирать индекс под конкретный запрос, обсудим подводные камни (например, блоат, переиндексация, избыточные индексы) и затронем индексацию в NoSQL (MongoDB, Cassandra). Завершим чеклистом, который поможет выбрать оптимальный индекс под вашу задачу.

Читать далее

+33

just_ai 4 апр 2025 в 14:49

Анализируем сложные данные в CSV-таблицах: как мы усовершенствовали RAG с помощью агентского подхода

Средний

5 мин

2.9K

Блог компании Just AISQL * Искусственный интеллект

Туториал

Привет, Хабр! Меня зовут Александр Овсов, я RnD-разработчик в компании Just AI и занимаюсь продуктом Jay Knowledge Hub. Это умная платформа для поиска по неразмеченным корпоративным данным, созданная на базе RAG и AI-агентов.

Одним из типичных юзкейсов для наших пользователей является аналитика сложных данных хранящихся в CSV-таблицах (финансовые отчеты, продуктовая аналитика и т.д.). Работать с такими данными при помощи классических методов RAG сложно из-за структуры этих данных. Чтобы решить эту проблему, мы решили использовать агентский подход — набирающий популярность метод, который позволяет LLM выполнять сложные задачи, например, отправлять SQL-запросы к таблицам. О реализации такого подхода на примере CSV таблиц я сейчас и расскажу.

Читать далее

+1

Tzimie 4 апр 2025 в 14:12

Раскраска листинга процедуры T-SQL значениями метрик

Средний

3 мин

2.1K

SQL * Microsoft SQL Server *

Туториал

Сразу покажу, о чем идет речь, чтобы вы решили, нужно вам это или нет. На текст процедуры мы отображаем данные о числе выполнений, cpu, duration, о числе чтений и записей и числе обработанных записей.

Читать далее

+3

Kilor 3 апр 2025 в 09:00

SQL HowTo: немного двоичной логики (Advent of Code 2024, Day 24: Crossed Wires)

Простой

13 мин

2.3K

Блог компании ТензорPostgreSQL * SQL * Алгоритмы * Занимательные задачки

Кейс

В этой челлендж-серии статей попробуем использовать PostgreSQL как среду для решения задач Advent of Code 2024.

Возможно, SQL не самый подходящий для этого язык, зато мы рассмотрим его различные возможности, о которых вы могли и не подозревать.

Рекурсивно вычисляем логические выражения и разбираем устройство двоичного сумматора.

Читать далее

+9

artemy_kravtsov 2 апр 2025 в 11:25

Шардированный кластер ClickHouse

Простой

21 мин

19K

Блог компании Wildberries & RussХранение данных * SQL * Data Engineering * Big Data *

Обзор

✏️ Победитель Технотекста 7

Хочу рассказать, как спроектированы распределённые вычисления в ClickHouse. Вы узнаете, на что влияет схема кластера (и на что не влияет). Расскажу, как можно на ровном месте создать себе проблему при помощи всего одной таблицы Kafka и нескольких матвьюх. Поделюсь опытом про дебаг и оптимизацию SELECT-запросов к Distributed таблицам: поизучаем планы выполнения и поэксперементируем с настройками в блоке SETTINGS.

Читать далее

+15

GolosCD 31 мар 2025 в 10:52

Sandbox DB: универсальная песочница для погружения в Big Data, аналитику и визуализацию

Простой

4 мин

20K

SQL * Data Engineering * Big Data *

Из песочницы

Recovery Mode

Запускайте PostgreSQL, ClickHouse, Airflow, Superset и другие инструменты одним кликом: учите, экспериментируйте, осваивайте новое!

Читать далее

+17

Kilor 31 мар 2025 в 07:40

SQL HowTo: работаем с массивами (Advent of Code 2024, Day 23: LAN Party)

Простой

7 мин

3K

Блог компании ТензорЗанимательные задачкиАлгоритмы * SQL * PostgreSQL *

Кейс

В этой челлендж-серии статей попробуем использовать PostgreSQL как среду для решения задач Advent of Code 2024.

Возможно, SQL не самый подходящий для этого язык, зато мы рассмотрим его различные возможности, о которых вы могли и не подозревать.

Применяем простые операции над массивами, чтобы определить связность графов.

Читать далее

+10

koanse 30 мар 2025 в 16:56

Кардинальность при оптимизации DAX запросов в ClickHouse

7 мин

3.5K

Блог компании VisiologySQL * Big Data * Визуализация данных *

Кейс

Привет, Хабр! Мы уже неоднократно поднимали вопросы оптимизации запросов к СУБД ClickHouse, которую все чаще используют как универсальное высокопроизводительное хранилище для аналитических задач. В случае с Visiology этот вопрос приобретает двойную ценность, так как мы используем оптимизацию для эффективного выполнения запросов в языке DAX.

Сегодня мы поговорим о применении группировок GROUP BY с учетом их производительности для относительно больших таблиц, например, с миллионами записей. Таким образом, речь пойдет об оценке кардинальности одного или нескольких столбцов. Эта задача, кстати, является достаточно нетривиальной. Но если Вы можете ее решить, появляется возможность для эффективных оптимизаций SQL. О них мы и поговорим сегодня.

Читать далее

+4

ivankov_timofei 29 мар 2025 в 11:15

Как правильно выбрать базу данных для разработки: понимание моделей репликации

Средний

38 мин

27K

Распределённые системы * MongoDB * NoSQL * PostgreSQL * SQL *

Из песочницы

Выбор подходящей системы управления базами данных (СУБД) — важнейшая задача при проектировании программных систем. Разработчики и архитекторы учитывают множество факторов: модель данных (реляционная или NoSQL), поддержку транзакций, масштабируемость, требования к согласованности и многого другое. Одним из ключевых архитектурных аспектов, влияющих на эффективность и надежность системы, является модель репликации данных. Репликация означает поддержание копий одних и тех же данных на нескольких узлах (серверах), соединённых по сети.

Зачем это нужно? Репликация позволяет: во-первых, держать данные ближе к пользователям (уменьшая задержку при запросах); во-вторых, продолжать работу системы даже при сбое отдельных узлов (повышая доступность); в-третьих, масштабировать систему, увеличивая число узлов для обслуживания запросов на чтение (повышая пропускную способность).

Однако реализация репликации сопряжена с серьёзными архитектурными компромиссами. Согласно теореме CAP, в распределённой системе невозможно одновременно гарантировать все три свойства: консистентность данных, доступность сервиса и устойчивость к разделению сети. При возникновении сетевых сбоев (разбиении на изолированные сегменты) системе приходится жертвовать либо мгновенной согласованностью данных, либо доступностью части узлов. Поэтому разные СУБД делают разные выборы в этих компромиссах. Архитектурная модель репликации, лежащая в основе СУБД, определяет, как база данных достигает (или не достигает) консистентности, доступности и отказоустойчивости. Понимание этих различий крайне важно для архитекторов и разработчиков: зная поведение репликации, вы сможете выбрать такую СУБД, которая лучше соответствует требованиям вашего проекта по масштабу, геораспределенности, допустимой задержке и устойчивости к сбоям.

Читать далее

+6

Safreliy 28 мар 2025 в 16:45

Уже через год мы будем общаться с базами данных по-русски

Простой

4 мин

48K

Блог компании Postgres ProfessionalБазы данных * Искусственный интеллектSQL * PostgreSQL *

По прогнозу Gartner, запросы на естественном языке вытеснят SQL уже в 2026 году. Возможно, прогноз Gartner чересчур оптимистичный, но если они и ошибаются, то только в сроках — сам переход на естественный язык в работе с БД неизбежен.

Читать далее

+9

badcasedaily1 28 мар 2025 в 16:12

Промежуточные витрины в SQL

8 мин

4.8K

Блог компании OTUSSQL * Big Data *

Обзор

Привет, Хабр!

Сегодня я хочу поговорить о том, без чего не обходится практически ни один серьёзный проект с большими данными (да и с не слишком большими тоже) — о промежуточных витринах (или более привычно – staging, core, data mart).

Читать далее

+3

bos1988 28 мар 2025 в 12:16

Экономия RAM с pandas.read_sql

Простой

6 мин

3.7K

Python * SQL * Сжатие данных *

Из песочницы

Как экономить до 90% оперативной памяти при загрузке pandas DataFrame из базы данных?

Сравним различные способы выгрузки данных и найдем метод для снижения потребления оперативной памяти.

Читать далее

0

badcasedaily1 26 мар 2025 в 11:50

Коротко про RFM-анализ на SQL

4 мин

2.1K

Блог компании OTUSSQL *

Привет, Хабр!

Сегодня поговорим про RFM-анализ на SQL. Простыми словами: RFM-анализ — это способ понять, насколько ценные у тебя пользователи.

Читать далее

+1

badcasedaily1 25 мар 2025 в 18:42

5 вопросов на собеседовании про A/B-тестирование в SQL

Простой

4 мин

9K

Блог компании OTUSSQL *

Обзор

Привет, Хабр!

Сегодня рассмотрим 5 вопросов на собеседовании про A/B-тестирование в SQL. И начнем с первого – как посчитать конверсии и относительную разницу между группами A и B?

Читать далее

+1

kirakirap 25 мар 2025 в 07:00

SQL и нейросети: изучаем логику моделей через анализ и визуализацию весов

Простой

27 мин

8.2K

Блог компании НетологияМашинное обучение * SQL *

Туториал

В машинном обучении SQL используют для анализа весов, поиска аномалий, сравнения моделей и визуализации их логики. Он помогает определить значимость признаков, заметить переобучение и оценить работу модели.

В статье разберём, как хранить и извлекать веса, вычислять ключевые метрики и строить графики.

Читать далее

+11

1 2 ...

17

18 19 ...