Как стать автором

SQL *

Формальный непроцедурный язык программирования

СтатьиПостыНовостиАвторыКомпании

artemy_kravtsov 2 апр в 11:25

Шардированный кластер ClickHouse

Простой

21 мин

6.7K

Блог компании Wildberries & RussBig Data*Data Engineering*SQL*Хранение данных*

Обзор

✏️ Победитель Технотекста 7

Хочу рассказать, как спроектированы распределённые вычисления в ClickHouse. Вы узнаете, на что влияет схема кластера (и на что не влияет). Расскажу, как можно на ровном месте создать себе проблему при помощи всего одной таблицы Kafka и нескольких матвьюх. Поделюсь опытом про дебаг и оптимизацию SELECT-запросов к Distributed таблицам: поизучаем планы выполнения и поэксперементируем с настройками в блоке SETTINGS.

Читать далее

+15

GolosCD 31 мар в 10:52

Sandbox DB: универсальная песочница для погружения в Big Data, аналитику и визуализацию

Простой

4 мин

10K

SQL*Data Engineering*Big Data*

Из песочницы

Recovery Mode

Запускайте PostgreSQL, ClickHouse, Airflow, Superset и другие инструменты одним кликом: учите, экспериментируйте, осваивайте новое!

Читать далее

+17

Kilor 31 мар в 07:40

SQL HowTo: работаем с массивами (Advent of Code 2024, Day 23: LAN Party)

Простой

7 мин

1.4K

Блог компании ТензорPostgreSQL*SQL*Алгоритмы*Занимательные задачки

Кейс

В этой челлендж-серии статей попробуем использовать PostgreSQL как среду для решения задач Advent of Code 2024.

Возможно, SQL не самый подходящий для этого язык, зато мы рассмотрим его различные возможности, о которых вы могли и не подозревать.

Применяем простые операции над массивами, чтобы определить связность графов.

Читать далее

+10

koanse 30 мар в 16:56

Кардинальность при оптимизации DAX запросов в ClickHouse

7 мин

1.8K

Блог компании VisiologySQL*Big Data*Визуализация данных*

Кейс

Привет, Хабр! Мы уже неоднократно поднимали вопросы оптимизации запросов к СУБД ClickHouse, которую все чаще используют как универсальное высокопроизводительное хранилище для аналитических задач. В случае с Visiology этот вопрос приобретает двойную ценность, так как мы используем оптимизацию для эффективного выполнения запросов в языке DAX.

Сегодня мы поговорим о применении группировок GROUP BY с учетом их производительности для относительно больших таблиц, например, с миллионами записей. Таким образом, речь пойдет об оценке кардинальности одного или нескольких столбцов. Эта задача, кстати, является достаточно нетривиальной. Но если Вы можете ее решить, появляется возможность для эффективных оптимизаций SQL. О них мы и поговорим сегодня.

Читать далее

+4

ivankov_timofei 29 мар в 11:15

Как правильно выбрать базу данных для разработки: понимание моделей репликации

Средний

38 мин

14K

MongoDB*NoSQL*PostgreSQL*SQL*Распределённые системы*

Из песочницы

Выбор подходящей системы управления базами данных (СУБД) — важнейшая задача при проектировании программных систем. Разработчики и архитекторы учитывают множество факторов: модель данных (реляционная или NoSQL), поддержку транзакций, масштабируемость, требования к согласованности и многого другое. Одним из ключевых архитектурных аспектов, влияющих на эффективность и надежность системы, является модель репликации данных. Репликация означает поддержание копий одних и тех же данных на нескольких узлах (серверах), соединённых по сети.

Зачем это нужно? Репликация позволяет: во-первых, держать данные ближе к пользователям (уменьшая задержку при запросах); во-вторых, продолжать работу системы даже при сбое отдельных узлов (повышая доступность); в-третьих, масштабировать систему, увеличивая число узлов для обслуживания запросов на чтение (повышая пропускную способность).

Однако реализация репликации сопряжена с серьёзными архитектурными компромиссами. Согласно теореме CAP, в распределённой системе невозможно одновременно гарантировать все три свойства: консистентность данных, доступность сервиса и устойчивость к разделению сети. При возникновении сетевых сбоев (разбиении на изолированные сегменты) системе приходится жертвовать либо мгновенной согласованностью данных, либо доступностью части узлов. Поэтому разные СУБД делают разные выборы в этих компромиссах. Архитектурная модель репликации, лежащая в основе СУБД, определяет, как база данных достигает (или не достигает) консистентности, доступности и отказоустойчивости. Понимание этих различий крайне важно для архитекторов и разработчиков: зная поведение репликации, вы сможете выбрать такую СУБД, которая лучше соответствует требованиям вашего проекта по масштабу, геораспределенности, допустимой задержке и устойчивости к сбоям.

Читать далее

+6

Safreliy 28 мар в 16:45

Уже через год мы будем общаться с базами данных по-русски

Простой

4 мин

27K

Блог компании Postgres ProfessionalPostgreSQL*SQL*Искусственный интеллектБазы данных*

По прогнозу Gartner, запросы на естественном языке вытеснят SQL уже в 2026 году. Возможно, прогноз Gartner чересчур оптимистичный, но если они и ошибаются, то только в сроках — сам переход на естественный язык в работе с БД неизбежен.

Читать далее

+9

badcasedaily1 28 мар в 16:12

Промежуточные витрины в SQL

8 мин

2.1K

Блог компании OTUSSQL*Big Data*

Обзор

Привет, Хабр!

Сегодня я хочу поговорить о том, без чего не обходится практически ни один серьёзный проект с большими данными (да и с не слишком большими тоже) — о промежуточных витринах (или более привычно – staging, core, data mart).

Читать далее

+3

bos1988 28 мар в 12:16

Экономия RAM с pandas.read_sql

Простой

6 мин

1.9K

Python*SQL*Сжатие данных*

Из песочницы

Как экономить до 90% оперативной памяти при загрузке pandas DataFrame из базы данных?

Сравним различные способы выгрузки данных и найдем метод для снижения потребления оперативной памяти.

Читать далее

0

badcasedaily1 26 мар в 11:50

Коротко про RFM-анализ на SQL

4 мин

1.1K

Блог компании OTUSSQL*

Привет, Хабр!

Сегодня поговорим про RFM-анализ на SQL. Простыми словами: RFM-анализ — это способ понять, насколько ценные у тебя пользователи.

Читать далее

+1

badcasedaily1 25 мар в 18:42

5 вопросов на собеседовании про A/B-тестирование в SQL

Простой

4 мин

5K

Блог компании OTUSSQL*

Обзор

Привет, Хабр!

Сегодня рассмотрим 5 вопросов на собеседовании про A/B-тестирование в SQL. И начнем с первого – как посчитать конверсии и относительную разницу между группами A и B?

Читать далее

+1

kirakirap 25 мар в 07:00

SQL и нейросети: изучаем логику моделей через анализ и визуализацию весов

Простой

27 мин

4.1K

Блог компании НетологияМашинное обучение*SQL*

Туториал

В машинном обучении SQL используют для анализа весов, поиска аномалий, сравнения моделей и визуализации их логики. Он помогает определить значимость признаков, заметить переобучение и оценить работу модели.

В статье разберём, как хранить и извлекать веса, вычислять ключевые метрики и строить графики.

Читать далее

+11

koanse 24 мар в 18:00

Представление иерархии и выполнение иерархических запросов в ClickHouse с использованием хешей

Простой

7 мин

1.2K

Визуализация данных*Качество кода*C#*SQL*

Кейс

Привет, Хабр! Достаточно часто используются иерархические фильтры или отчеты с иерархией, и представление иерархии может быть актуально как для UI (например, иерархических фильтров), так и для отчетов или дашбордов. Если рассматривать только структуру запроса с иерархией, без расчета промежуточных итогов и т.д., то сохранение структуры иерархического UI элемента при большом уровне вложенности, а также передача этой иерархии с UI на бэкенд и дальше, например, в виде SQL запроса в СУБД может быть относительно нетривиальной задачей. При относительно большом уровне вложенности (например, иерархия в 10 уровней), при решении «в лоб» и сохранении всех 10 выбранных значений на последнем уровне иерархии, станет неудобно хранить и передавать в качестве параметров с UI на бэкенд (для 1000 строк и 10 уровней вложенности может быть уже условно 10000 параметров), также растет и количество параметров в SQL, и проблемы усугубляются в случае микросервисной архитектуры, когда запрос SQL не сразу отправляется, например, в ClickHouse, а ещё эти 10000 параметров «путешествуют» из UI в один или несколько микросервисов, пока не попадут в ClickHouse. В связи с этим хочу рассмотреть одно из возможных решений проблемы с помощью хеширования на примере C# и ClickHouse, но это «не идеи, проверенные на продакшене», больше тема к обсуждению. Тем, кому интересно решение проблем иерархических запросов на примере C# и ClickHouse — добро пожаловать под кат :)

Читать далее

+1

Kilor 24 мар в 06:30

SQL HowTo: оконные функции (Advent of Code 2024, Day 22: Monkey Market)

Простой

10 мин

2.8K

Блог компании ТензорЗанимательные задачкиАлгоритмы*SQL*PostgreSQL*

Кейс

В этой челлендж-серии статей попробуем использовать PostgreSQL как среду для решения задач Advent of Code 2024.

Возможно, SQL не самый подходящий для этого язык, зато мы рассмотрим его различные возможности, о которых вы могли и не подозревать.

Используем оконные функции, чтобы вычислить "третью производную".

Читать далее

+10

Tzimie 20 мар в 19:38

Построение Flame Chart для MSSQL

3 мин

1.4K

Microsoft SQL Server*SQL*

Туториал

Если в вашем коде TSQL много вложенных вызовов stored procedures, вы можете наглядно построить стек вызовов с помощью «flame chart» — стандартным представлением для профилирования вызовов.

Опишем по шагам всю процедуру.

Читать далее

+12

mvosorov 20 мар в 09:00

Как стать продуктовым аналитиком в Ozon Банке?

Простой

9 мин

14K

Блог компании Ozon БанкSQL*Python*Математика*Карьера в IT-индустрии

Роадмэп

Всем привет! Меня зовут Миша, и я работаю продуктовым аналитиком в Ozon Банке. Мой путь в профессии начался всего 3 года назад, и я отлично помню, как мне самому не хватало подробного плана по входу в профессию. Поэтому я решил написать свой. Надеюсь, что он поможет новичкам и тем, кто только задумывается об аналитике данных)

Для того чтобы мой план был более интерактивным, давайте представим, что, идя по плану мы как Танос из вселенной Marvel – собираем навыки аналитика в свою перчатку бесконечности.

Читать далее

+8

LiN1uM 20 мар в 08:57

Третий шаг к повышению производительности Firebird

Простой

7 мин

602

SQL*Firebird/Interbase*

Туториал

Перевод

Данная статья является третьей частью перевода руководства по повышению производительности Firebird за авторством А.Ковязина и Э.Грегорио от 23.05.2024 (и потому продолжается сквозная нумерация пунктов), а так же текстовой расшифровкой соответствующего видео.

Читать далее

0

ANDROMAQUEHERE 19 мар в 11:00

5 причин плохого настроения. История одного Flutter-проекта, который заставил нас поломать голову

Средний

7 мин

2.1K

Блог компании AGIMANoSQL*Разработка мобильных приложений*Flutter*SQL*

Кейс

Привет! На связи Никита Грибков, Flutter-разработчик AGIMA. В прошлом году я стал свидетелем жутких событий, которые разворачивались на одном из наших проектов. В сущности, жуткими они были только потому, что техзадание состояло из сложных и нестандартных задач — но всё-таки они изрядно потрепали нам нервы.

Времени на всё про всё, как водится, было по минимуму. Мы закатали рукава, вооружились всеми доступными инструментами — и начали подбирать решение для каждой проблемы. Ниже опишу, что представлял собой проект и какие именно задачи заставили нас поднапрячься.

Читать далее

+10

alexgreendev 19 мар в 07:11

Плюсы и минусы написания запросов с ORM и на SQL

6 мин

3.8K

Блог компании BegetSQL*Django*

Мнение

SQL против ORM — один из самых горячих споров среди разработчиков. Одни уверены, что писать SQL-запросы вручную — это гарантия контроля и эффективности. Другие считают, что ORM упрощает жизнь и снижает вероятность ошибок. А что, если правда где-то посередине?

Читать далее

+10

Mio_ka 18 мар в 11:35

SQL vs Excel: когда таблицы уже не справляются

8 мин

11K

Блог компании НетологияSQL*Базы данных*Программирование*Хранение данных*

Когда в компании работа выстроена в Excel, проблем нет, пока в таблице несколько тысяч строк. Но бизнес растёт, и вот в файле уже миллион записей. Поиск тормозит, сложные формулы зависают. А если сотрудник случайно удалит столбец — восстанавливать придётся вручную. Это первые сигналы, что Excel не справляется.

В этой статье разберём, когда Excel перестаёт быть удобным инструментом и как SQL помогает решать эти проблемы. А приглашённые эксперты поделятся практическими примерами и советами по переходу.

Читать далее

+8

IvanZaycev0717 18 мар в 08:00

Боремся с токсичными комментариями с помощью ИИ, FastAPI и React

12 мин

1.7K

Микросервисы*Веб-разработка*SQL*ReactJS*Python*

В последнее время я перестал читать комментарии к статьям на Хабре. Причина — токсичность и ненависть друг к другу. Абсолютно безобидные технические статьи подчас вызывают бурю агрессии у отдельных лиц. Всех банить тоже нельзя — свобода слова закреплена в Конституции. Но есть решение: давайте используем искусственный интеллект, который будет анализировать комментарий и переписывать его, меняя токсичность на вежливость, сохраняя основную мысль комментария.

Мы воспользуемся FastAPI для бэкенда, React для фронтенда, заставим их между собой общаться через RESTful API, а бизнес-логику реализуем путём обращения к ИИ через gRPC.

Читать далее

+6

6

7 8 ...