SQL *

Формальный непроцедурный язык программирования

СтатьиПостыНовостиАвторыКомпании

@Igordru 28 июл в 13:47

Из Excel в SQL. Имеет место быть?

4 мин

5.8K

SQL * PostgreSQL * Python *

Эта статья, скорее для ознакомления и хотелось бы получить советы по данной работе.

Итак, Excel-файл весит 500+ мегабайт, состоит из сотен тысяч строк, десятков листов и формул, которые «протягиваются» по 30+ столбцам — это не работа, а страдание. Именно с таким «монстром» я столкнулся, когда в компании собрались данные из разных отделов в один файл.

Вкратце структура файла — Лист «Массив» (Data_Lake — в левой части 34 столбца с которым работают специалисты и на котором отрабатывают основные формулы и правая часть с 46 столбцами, куда подтягиваются сырые данные, с которыми будет производиться обработка). И множеством листов со справочниками, правками.

Открытие этого Excel‑файла занимает 10 минут, а если обновить хотя бы часть формул — можно идти пить чай. Работать с такими данным и просто невозможно, особенно если тебе нужно анализировать их, строить отчёты или готовить выгрузки. Поэтому решил попробовать все перевести на PostgreSQL.

Для этого всего лишь требовалось переписать формулы с Excel на SQL. Хорошо, что большинство формул это условия ЕСЛИ, ИЛИ.

Вот самая простая формула:

+14

@abgroup_tech 26 июл в 06:31

Создание Data Lakehouse системы: кейс строительного холдинга

Средний

7 мин

3.8K

Data Engineering * Big Data * SQL * Open source *

Кейс

Из песочницы

К нам обратился один из крупнейших строительных холдингов России (ГК компаний из 10+ юридических лиц) с потребностью в сборе всех данных с филиалом, анализе и визуализации на дашбордах.

При входе на проект аналитической инфраструктуры у компании почти не было, только множество учетных систем без централизованного хранилища данных. Объем проекта был непонятен, «аппетит приходит во время еды». Важная особенность проекта — полностью закрытый контур с доступом через терминальные решения.

Было решение выбрать архитектуру Data Lakehouse на open source стеке, основой которого стали — kafka, dagster, s3+iceberg, trino, clickhouse и DBT. В результате получилось более 1000 моделей DBT, 1 тб сжатых данных, и объем продолжает расти.

Из потребителей данных — бизнес системы, Power BI отчеты, аналитики и дата‑инженеры, веб‑приложения, MDX‑кубы.

Методология ведения проекта Scrum, команда DWH‑инженеров 11 человек и greenfield‑разработка.

@valentina_di 25 июл в 13:48

Как ИТ-инструменты помогают финансисту расти в 3 раза быстрее — уровень hard

10 мин

2.8K

Блог компании Цифровой СИБУРФинансы в ITSQL * Карьера в IT-индустрииПрограммирование *

Мнение

Это вторая часть материала о финансовом стеке — теперь на уровне hard. В этой статье — не про SUM и диаграммы. Здесь речь пойдёт об ИТ-инструментах, которые помогают финансистам выйти за пределы ручной рутины, автоматизировать ключевые процессы и действительно влиять на бизнес.

Если вы уже уверенно работаете в Excel, пишете SQL-запросы и собираете отчёты — пора двигаться дальше. Power Query, витрины в SQL, архитектура BI, Python, API — всё, что позволит вам:

- ускориться в 3 раза,
- сократить рутину до минимума,
- стать архитектором аналитики, а не просто исполнителем.

Разберём, какие навыки нужны на продвинутом уровне, какие задачи они решают, как учиться эффективно — и как собрать из всего этого живую, работающую систему, встроенную в ваш рабочий процесс.

Окунуться в мир автоматизации аналитики

@Nexign 24 июл в 13:55

Как мы научили PostgreSQL автоматически создавать партиции: опыт Nexign Nord

Средний

12 мин

3.9K

Блог компании NexignSQL * Базы данных * Хранение данных *

Кейс

Программисты, ежедневно решающие задачи оптимизации запросов и управления большими объемами данных, неизбежно сталкиваются с необходимостью освоения новых методов организации данных. Поэтому сегодня предлагаем поговорить об автоматизации партиционирования как об эффективном варианте решения.

@antokols 23 июл в 14:07

Соединяем AI и реляционную базу данных

Простой

4 мин

4.8K

SQL * PostgreSQL * Oracle * Искусственный интеллект

Кейс

На статью данный текст точно не тянет, скорее это маленькая заметка. Как известно свои дети и свои идеи они всегда самые лучшие. Я давно работаю с реляционными базами и очень люблю язык SQL за его формализм, скорее всего из-за этой моей профдеформации и родилась эта мысль. На работе ко мне иногда обращались сделать выгрузку в CSV файл из базы для обучения моделей или анализа данных, и я подумал, а зачем выгружать данные, а потом иногда загружать обратно результат в базу. Почему не сделать так что бы результат запроса сразу отправлялся на обработку в AI и затем выдавался ответ на запрос. Нам всего лишь нужна SQL функция которая берет результат запроса, заворочает его в вызов к модели, а потом выдает результат. Понятно, что серебряной пули нет и данный подход не везде будет работать, например, такой подход не подразумевает асинхронность, а значит если нужна высокая производительность, то данный подход не очень подходит, с другой стороны сейчас запросы к AI не дёшевы и если вы пошлете 100 запросов в секунду, не дождавшись ответа на предыдущие то скорее всего получите ошибку. Я думаю в будущем это будет стандартная функции в базах данных.

Теперь рассмотрим простейшую реализацию данной функции. Под рукой был PostgreSQL, но можно реализовать это и для ORACLEили других баз. Для этого нам понадобится расширение. В качестве AI будем использовать Groq. Первое что нам надо это получить API ключ. Сама функция очень простая.

-1

@Dradmin 21 июл в 18:39

Альтернатива чатам с ИИ для анализа и оптимизации SQL запросов

Средний

1 мин

Базы данных * MySQL * SQL * Системное администрирование * Веб-разработка *

Всем привет!

Экспериментировал с оптимизацией SQL запросов в ChatGPT и Claude. В какой-то момент понял, что это превращается в одно и то же: Напиши промт → вставь SQL → подожди → поправь → повтори

@Lantris 18 июл в 16:39

Ошибки, которые не случились: C++ и compile‑time проверка SQL-запросов

Средний

15 мин

2.9K

Программирование * C++ * C * Базы данных * SQL *

Кейс

В этой статье мы посмотрим, как можно реализовать полную compile‑time валидацию SQL‑запросов на основе схемы базы данных, встраиваемой прямо в код. Без магии, без рантайма, без сторонних тулов. Только стандартный C++ и ваша структура БД. Валидация таблиц, столбцов, типов аргументов и их количества — всё на compile‑time.

Представьте, если бы компилятор сам указывал «такой таблицы нет», «несуществующий столбец», «несовместимые типы» — до запуска программы. Такой подход полностью устраняет «сюрпризы» во время исполнения и исключает класс ошибок, связанных с генерацией SQL во время работы программы. Ваша программа даже не соберётся.

+16

@valentina_di 18 июл в 14:12

Как ИТ-инструменты помогают финансисту расти в 3 раза быстрее

10 мин

2.8K

Блог компании Цифровой СИБУРФинансы в ITSQL * Программирование * Бизнес-модели *

FAQ

Меня зовут Валя, я работаю финансовым аналитиком в ИТ. Рассказываю о финансовом ИТ-стеке — инструментах и подходах, которые помогают прокачиваться в профессии и выстраивать карьеру в финансах внутри технологичных компаний.

Осваивать все подряд не нужно. Главное — собрать свой «рабочий паĸет» под задачи вашей позиции и под ĸарьерные цели.

Ниже расскажу:

• что такое финансовый стек и зачем он нужен

• каĸ оценить ваш текущий стеĸ

• базовый уровень: как работать с данными в Excel

• средний уровень: база SQL, BI и автоматизации

• примеры задач

Окунуться в мир автоматизации аналитики

+10

@BI_experts 14 июл в 07:41

SSIS в Visual Studio: как мы перешли от хаоса к стабильному ETL-процессу

Средний

7 мин

1.6K

SQL * Microsoft SQL Server * Visual Studio * MySQL *

Туториал

Можно ли хранить данные, строить по ним отчетность, при этом обходясь без ETL процессов? Технически — да. Практически — только до первого серьезного роста данных.

Привет, Хабр! Меня зовут Алина, и в этой статье я расскажу о критически важном этапе, через который проходит любая data-driven компания.

Речь о переходе:
от построения отчетности напрямую из операционных баз (или через примитивное копирование в STG)
к структурированным ETL-процессам на специализированном ПО.

В нашем случае этим ПО стал SSIS — но важно подчеркнуть: сейчас мы используем NiFi с [N] процессорами для управления data pipeline. Однако именно опыт с SSIS стал для нас тем самым «мостиком» между хаотичным и осознанным подходом к данным.

P.S. Если хотите узнать про то, как мы организовали работу в NiFi — пишите в комментах, сделаем отдельный материал!

В этой статье — только про этап с SSIS. Не потому что он «лучший», а потому что:

@ITmization 14 июл в 05:15

Когда JOIN тянет ко дну: как одно изменение ускорило запрос в 75 раз

Средний

6 мин

2.3K

SQL * Серверная оптимизация * PostgreSQL *

Из песочницы

TL;DR Иногда «убить» самый тяжёлый JOIN — проще, чем кажется. Достаточно вынести агрегат в коррелированный под-запрос и дать движку опереться на индекс.

+13

@erogov 11 июл в 09:58

«IT-Планета 2025»: задачи третьего этапа по PostgreSQL

12 мин

2.5K

Блог компании Postgres ProfessionalSQL * PostgreSQL * Ненормальное программирование *

На третьем этапе олимпиады мы, как обычно, решали задачки на SQL, но в этом году надо было написать запрос не просто правильный, но и короткий. Чем короче — тем лучше результат. В детстве мы развлекались таким на микрокалькуляторах и на ассемблере, а сейчас я решил посмотреть, что получится, если попробовать то же на SQL. Получилось, на мой взгляд, интересно. Практического смысла в этом, конечно, никакого нет, но практики и на работе хватит, а тут мы развлекаемся.

Чтобы хорошо выступить, надо было — помимо прочего — выстроить правильную стратегию. Сразу писать максимально короткий запрос, без пробелов и с односимвольными именами не получится — легко самому запутаться. Поэтому сначала надо было решить задачу «по-человечески», а уже потом применить всякие микрооптимизации и получить заветные баллы. Но решить задачу, даже простую, всегда можно разными способами, и не всегда заранее понятно, какой из вариантов окажется короче после оптимизации. Поэтому нужно было не останавливаться, пробовать разные подходы, и при этом аккуратно хранить все версии, чтобы в любой момент можно было посмотреть на запрос еще раз и, чем Тьюринг не шутит, выиграть байтик-другой.

Мы традиционно разрешали пользоваться всеми благами интернета, включая ИИ. На эту тему многие сейчас переживают, но, честно говоря, я пока не вижу причин для беспокойства. Вот если бы все участники показали одинаково прекрасный результат, пришлось бы что-то придумывать. И то, конечно, не запрещать ИИ, а делать задачи более сложными. Но результаты у всех разные, и без собственной головы на плечах их не удалось бы получить (я попробовал), поэтому пока все хорошо. Если финалисты меня читают, было бы интересно услышать комментарии от первого лица: пользовались ли вы ИИ, насколько он вам помог или, может быть, наоборот, только отвлекал?

Итак, к задачам

+25

@Kmamish 11 июл в 09:14

Как заставить вашу базу данных летать, а не ползать. Часть 3 – ещё три способа шардирования

Средний

9 мин

Блог компании SENSESQL * MySQL * PostgreSQL * Базы данных *

Туториал

Всем привет! И снова с вами Илья Криволапов – системный аналитик в SENSE, где мы вместе с командой трудимся над проектом одного из цветных банков РФ. Напоминаю, что в профессии я уже больше пяти лет и, несмотря на фамилию, прод все еще живой и здоровый (ну почти)!

В свободное от работы время, я преподаю курс «Хранение и обработка больших объемов данных», где успел накопить немало наблюдений, кейсов и выводов, которые не хочется держать в столе. Поэтому всё самое полезное оформил в цикл статей на Хабре – рассказываю как строить базы данных с прицелом на рост и не сойти с ума под нагрузкой.

В первой части мы говорили о базовых стратегиях масштабирования: вертикальной и горизонтальной. Покрутили в руках репликацию, рассмотрели кейсы, когда и как можно к ней обращаться. Во второй углубились в шардинг и разобрали три популярных подхода: по диапазону, хэшу и геозонам. А сегодня будет финальная, третья часть. В ней мы рассмотрим ещё три способа шардирования: директивный, круговой и динамический. Расскажу, как они устроены, когда применяются, в чём их сильные стороны и где скрывается подвох.

Материал будет полезен всем, кто проектирует, масштабирует или просто поддерживает «здоровье» базы данных: DBA, архитекторам, DevOps-инженерам, аналитикам и разработчикам.

Финальный рывок – поехали!

@AlexeyKovyazin 10 июл в 08:13

Миграция с Firebird на PostgreSQL. Что может пойти не так? Часть 3

10 мин

1.3K

SQL * Firebird/Interbase * PostgreSQL * Базы данных * Open source *

Аналитика

Третья часть статьи посвященной трудностям миграции с Firebird на PostgreSQL. (1ая часть, 2я часть).

+14

@AlexeyKovyazin 9 июл в 07:36

Миграция с Firebird на PostgreSQL. Что может пойти не так? Часть 2

Простой

9 мин

2.1K

SQL * Firebird/Interbase * PostgreSQL * Базы данных * Open source *

Аналитика

В первой части обсуждалось как отличие реализации MVCC в Firebird и PostgreSQL может привести к сложностям при миграции информационной системы. Напоминаю девиз этой серии статей – "Ваши ожидания – это Ваши проблемы". Рассмотрим еще некоторые моменты, которые позволят Вам не находится в состоянии "обманутых ожиданий" при миграции с Firebird на PostgreSQL.

+21

@AlexeyKovyazin 8 июл в 18:14

Миграция с Firebird на PostgreSQL. Что может пойти не так? Часть 1

Простой

6 мин

4.9K

Базы данных * PostgreSQL * Firebird/Interbase * SQL * Open source *

Аналитика

Не секрет, что в последние годы различные компании достаточно часто принимают решение о миграции работающей информационной системы с Firebird на PostgreSQL.

Типичная ситуация выглядит так:

Проект работает несколько лет. Заказчик «верит», что проблема не в проекте, а в СУБД. Firebird — «плохая» СУБД.

+58

@kneaded 7 июл в 17:03

Изучение Python за 2 недели через боль и дедлайн: личная история

Простой

9 мин

17K

Python * SQL * Linux * Data Engineering * Big Data *

Ретроспектива

Изучил Python за короткий срок. Личная история. Взяли без знаний, но я смог до всяческих дедлайнов, пройдя огромное количество стресса, изучить язык программирования и даже этим спасти проект.

+89

@LiN1uM 4 июл в 19:00

Четвёртый (и предпоследний) шаг к повышению производительности Firebird

Простой

6 мин

632

SQL * Firebird/Interbase *

Туториал

Перевод

Данная статья является четвёртой частью перевода руководства по повышению производительности Firebird за авторством А.Ковязина и Э.Грегорио от 23.05.2024 (и потому продолжается сквозная нумерация пунктов), а так же текстовой расшифровкой соответствующего видео.

@LiN1uM 4 июл в 18:59

Пятый и последний шаг к повышению производительности Firebird

Простой

6 мин

844

SQL * Firebird/Interbase *

Туториал

Перевод

Ваша база данных Firebird организована таким образом, что она разделена на отдельные части, каждая из которых имеет одинаковый размер. Эти части называются страницами. Размер каждой страницы напрямую влияет на производительность базы данных и её взаимодействие с операционной системой и оборудованием компьютера. Размер страницы может варьироваться в зависимости от конкретной версии Firebird, которую вы используете.

@aniats 4 июл в 05:16

Как хранить деньги в базах данных и почему это не так просто, как кажется

Простой

11 мин

19K

Программирование * Базы данных * SQL * Go * Финансы в IT

Из песочницы

Перевод

Хранение денежных сумм в базах данных и API: анализ подходов платежных систем

Хранение денег — вещь только на первый взгляд простая, а на деле содержит множество подводных камней. Выбрав не тот тип данных, можно получить неточности в расчётах, возможна путаница при переводе суммы из одной валюты в другую. А если ещё и подключать внешние API, у каждого из которых своя точность для одних и тех же валют, уследить за совместимостью еще труднее.

Разбираем, как решают эти проблемы Stripe, PayPal, Google Wallet и другие платежные системы. Сравниваем три основных подхода: Integer minor units, Decimal base units и String base units.

+121

@Dreymanis 3 июл в 09:00

Работа с данными в DuckDB или не pandas’ом единым сыт DS

9 мин

2.2K

Блог компании СинимексPython * Базы данных * Data Engineering * SQL *

Обзор

В проектах по разработке ML-моделей я регулярно сталкиваюсь с тем, что значительная часть времени уходит не на саму модель, а на приведение данных в нужный формат: очистку, трансформацию, агрегацию.

Этот этап требует не только времени, но и вычислительных ресурсов, особенно когда речь идет о больших объемах информации. В этой статье я расскажу о своем небольшом исследовании DuckDB — инструменте, который может значительно упростить и ускорить работу с данными.

+13

1 2 ...

5 6

8 9 ...

104 105

SQL *

Из Excel в SQL. Имеет место быть?

Создание Data Lakehouse системы: кейс строительного холдинга

Как ИТ-инструменты помогают финансисту расти в 3 раза быстрее — уровень hard

Как мы научили PostgreSQL автоматически создавать партиции: опыт Nexign Nord

Соединяем AI и реляционную базу данных

Альтернатива чатам с ИИ для анализа и оптимизации SQL запросов

Ошибки, которые не случились: C++ и compile‑time проверка SQL-запросов

Как ИТ-инструменты помогают финансисту расти в 3 раза быстрее

SSIS в Visual Studio: как мы перешли от хаоса к стабильному ETL-процессу

Когда JOIN тянет ко дну: как одно изменение ускорило запрос в 75 раз

«IT-Планета 2025»: задачи третьего этапа по PostgreSQL

Как заставить вашу базу данных летать, а не ползать. Часть 3 – ещё три способа шардирования

Миграция с Firebird на PostgreSQL. Что может пойти не так? Часть 3

Ближайшие события

Миграция с Firebird на PostgreSQL. Что может пойти не так? Часть 2

Миграция с Firebird на PostgreSQL. Что может пойти не так? Часть 1

Изучение Python за 2 недели через боль и дедлайн: личная история

Четвёртый (и предпоследний) шаг к повышению производительности Firebird

Пятый и последний шаг к повышению производительности Firebird

Как хранить деньги в базах данных и почему это не так просто, как кажется

Работа с данными в DuckDB или не pandas’ом единым сыт DS

Вклад авторов