SQL *

Формальный непроцедурный язык программирования

СтатьиПостыНовостиАвторыКомпании

neoflex 16 дек 2020 в 12:53

Управление кодом Spark-приложений

6 мин

3.3K

Блог компании NeoflexApache*Big Data*SQL*

Есть множество подходов к созданию кода приложений, направленных на то, чтобы сложность проекта не росла со временем. Например, объектно-ориентированный подход и множество прилагаемых паттернов, позволяют если не удерживать сложность проекта на одном уровне, то хотя бы держать ее под контролем в ходе разработки, и делать код доступным для нового программиста в команде.

Как можно управлять сложностью проекта по разработке ETL-трансформаций на Spark?

Тут все не так просто.

Как это выглядит в жизни? Заказчик предлагает создать приложение, собирающее витрину. Вроде бы надо выполнить через Spark SQL код и сохранить результат. В ходе разработки выясняется, что для сборки этой витрины требуется 20 источников данных, из которых 15 похожи, остальные нет. Эти источники надо объединить. Далее выясняется, что для половины из них надо писать собственные процедуры сборки, очистки, нормализации.

И простая витрина после детального описания начинает выглядеть примерно так:

В результате простой проект, который должен был всего лишь запустить на Spark скрипт SQL собирающий витрину, обрастает собственным конфигуратором, блоком чтения большого числа настроечных файлов, собственным ответвлением маппинга, трансляторами каких-нибудь специальных правил и т.д.

Читать дальше →

Kilor 14 дек 2020 в 14:00

PostgreSQL Antipatterns: скованные одной цепью EXISTS

2 мин

Блог компании ТензорPostgreSQL*SQL*Базы данных*Программирование*

Я уже как-то рассказывал про особенности вычисления условий в SQL вообще и в PostgreSQL, в частности. Сегодня продолжим тему и попробуем написать и пооптимизировать простой запрос — у кого из сотрудников есть на выполнении «суперприоритетные» задачи.

CREATE TABLE task AS
SELECT
  id
, (random() * 100)::integer person -- всего 100 сотрудников
, least(trunc(-ln(random()) / ln(2)), 10)::integer priority -- каждый следующий приоритет в 2 раза менее вероятен
FROM
  generate_series(1, 1e5) id; -- 100K задач
CREATE INDEX ON task(person, priority);

Слово «есть» в SQL превращается в EXISTS — вот с самого простого варианта и начнем:

SELECT
  *
FROM
  generate_series(0, 99) pid
WHERE
  EXISTS(
    SELECT
      NULL
    FROM
      task
    WHERE
      person = pid AND
      priority = 10
  );

все картинки планов кликабельны

Пока все выглядит неплохо, но…

Читать дальше →

+10

Alexey_Gru 10 дек 2020 в 17:16

Переброска данных между идентичными объектами метаданных базы 1С через подмену УИДов в базе SQL

4 мин

7.8K

Блог компании Онлайн-кинотеатр Иви1С*1С-Битрикс*SQL*

При возникновении необходимости миграции с одной конфигурации поставщика на другую, либо при обновлении доработанной конфигурации, если Поставщик позднее добавил тот объект, что был у нас добавлен самостоятельно, может оказаться, что старый и новый объекты имеют разные внутренние идентификаторы. При сравнении/объединении конфигураций видно, что старый документ не находит соответствие с новым, так как у них различные внутренние идентификаторы метаданных, а при загрузке (обновлении) новой конфигурации поставщика старый документ удаляется вместе со всеми введенными документами.

Читать дальше →

Kilor 7 дек 2020 в 12:15

One Tool to Analyze Them All

1 мин

3.3K

Блог компании ТензорPostgreSQL*SQL*Базы данных*Визуализация данных*

Мы рады сообщить о реализации на explain.tensor.ru базовой поддержки анализа и визуализации планов, специфичных для PostgreSQL-совместимых решений: Timescale, Citus, Greenplum и Redshift.

Так что если в будущем вам встретится план, похожий на результат обычного EXPLAIN, но с некоторыми странными узлами — вы знаете, куда идти.

EXPLAIN <-> SQL

В развитие темы сопоставления узлов плана и запроса добавлена возможность быстрого просмотра и переключения между ними:

Читать дальше →

+18

Polina_Averina 4 дек 2020 в 06:36

Серия мастер-классов по MySQL 15—17 декабря

1 мин

2.8K

Блог компании СлёрмУправление разработкой*Базы данных*SQL*MySQL*

Приглашаем на мастер-классы «Тюнинг и масштабирование проекта на MySQL» 15—17 декабря 2020. Расскажем, что именно настроить, чтобы база не тормозила и не падала, а данные не терялись. Поможем найти медленные запросы и сделать их быстрыми.

Мастер-классы ведет Владимир Федорков, специалист по настройке и эксплуатации СУБД MySQL, эксперт в сфере производительности MySQL, постоянный спикер конференций в России, Европе и США.

Читать дальше →

+10

michael_v89 29 ноя 2020 в 16:34

Опрос. Денормализация или нет?

1 мин

4.7K

SQL*Анализ и проектирование систем*Проектирование и рефакторинг*

Недавно мы с коллегой по профессии обсуждали в Интернете (точнее в ЛС на Хабре) архитектуру некоторой системы, и у нас возник спор по одному вопросу.

Имеется склад, где хранятся разные материалы, имеются документы прихода и расхода материалов, в документах есть записи с информацией "материал, количество", связь один-ко-многим. В базе данных есть таблица с информацией о текущем наличии материалов на складе, есть таблица для документов и таблица для их позиций. Назовем их "current_stocks", "documents", "document_positions".

Считать ли таблицу "current_stocks" денормализацией данных?

Читать дальше →

-6

134

Kilor 26 ноя 2020 в 10:10

PostgreSQL в «Тензоре» — публикации за год

16 мин

6.4K

Блог компании ТензорERP-системы*PostgreSQL*SQL*Базы данных*

Ровно год назад с рассказа о нашем сервисе визуализации планов запросов мы начали публикацию на Хабре серии статей, посвященных работе с PostgreSQL и его особенностям. Это уже пройденные нами «грабли», интересные наработки, накопившиеся рекомендации, применяемые в разработке «Тензора» — те вещи, которые помогают нам делать СБИС более эффективным.

СБИС — это система полного цикла управления бизнесом — от кадрового учета, бухгалтерии, делопроизводства и налоговой отчетности, до таск-менеджмента, корпоративного портала и видеокоммуникаций. Поэтому каждый из 1 500 000 клиентов-организаций находит что-то полезное для себя и использует наши сервисы на постоянной основе — что дает ежемесячно более миллиона активных клиентов.

И все их данные надо где-то хранить и эффективно извлекать. Поэтому еще в далеком 2012 году мы сделали ставку на PostgreSQL, и теперь это основное хранилище данных наших сервисов:

почти 9000 баз общим объемом 1PB
свыше 200TB данных клиентов
1500 разработчиков работают с БД

Чтобы упорядочить накопившиеся знания, за минувший год мы опубликовали более 60 статей, в которых делимся своим реальным опытом, проверенным практикой «сурового энтерпрайза». Возможно, какие-то из них вы пропустили, поэтому под катом мы собрали дайджест, где каждый разработчик и DBA найдет что-то интересное для себя.

Для удобства все статьи разбиты на несколько циклов:

Анализ запросов
Наглядно демонстрируем все тайны EXPLAIN [ANALYZE].
SQL Antipatterns и оптимизация SQL
Понимаем как [не] надо решать те или иные задачи в PostgreSQL и почему.
SQL HowTo
Пробуем подходы к реализации сложных алгоритмов на SQL для развлечения и с пользой.
DBA
Присматриваем за базой, чтобы ей легко дышалось.
Прикладные решения
Решаем с помощью PostgreSQL конкретные бизнес-задачи.

Читать дальше →

+23

moscas 25 ноя 2020 в 18:17

DataGrip 2020.3: SQL для Монги, новые форматы экспорта, интроспекция прав доступа и другое

6 мин

Блог компании JetBrainsMySQL*PostgreSQL*SQL*Базы данных*

Привет! Очередной длинный пост о том, что мы сделали за последние четыре месяца. Как всегда, мы говорим DataGrip, а подразумеваем все остальные наши IDE. В том числе и WebStorm, SQL-плагин к которому теперь можно докупить.

Читать дальше →

+24

dimoobraznii 25 ноя 2020 в 11:06

Опыт создания аналитической консалтинг-компании в Северной Америке (не очень успешный)

17 мин

8.8K

SQL*Big Data*Управление проектами*Развитие стартапаКарьера в IT-индустрии

Всем привет, последние 2-3 года у меня было интересное хобби, интересное для меня - предоставление аналитических услуг компаниям в Канаде и США. В этой статья я хочу поделиться опытом по созданию консалтинг-компании в области аналитики. Могу сразу сказать, что идея провалилась, если оценивать денежную составляющую идеи, но зато я смог получить полезный опыт и расширить кругозор.

MaxRokatansky 24 ноя 2020 в 19:17

Проблема с N+1 запросами в JPA и Hibernate

7 мин

137K

Блог компании OTUSВысоконагруженные системы*Программирование*SQL*

Перевод

В этой статье я расскажу, в чем состоит проблема N + 1 запросов при использовании JPA и Hibernate, и как ее лучше всего исправить.

Проблема N + 1 не специфична для JPA и Hibernate, с ней вы можете столкнуться и при использовании других технологий доступа к данным.

MaxRokatansky 24 ноя 2020 в 17:54

Секреты производительности Spark, или Почему важна компиляция запросов

8 мин

4.8K

Блог компании OTUSData Engineering*SQL*Программирование*

Перевод

Criteo — это компания, работа которой основана на данных. Каждый день через наши системы проходят десятки терабайт новых данных для обучения моделей рекомендаций, обрабатывающих запросы в масштабах всего Интернета. Spark — наше основное средство обработки больших данных. Это мощный и гибкий инструмент, однако он отличается довольно высокой сложностью в освоении, а чтобы пользоваться им эффективно, зачастую требуется читать исходный код платформы.

+11

little-brother 20 ноя 2020 в 08:55

Возможности SQLite, которые вы могли пропустить

8 мин

44K

SQL*SQLite*

Если вы используете SQLite, но не следите за его развитием, то возможно некоторые вещи, позволяющие сделать код проще, а запросы быстрее, прошли незамеченными. Под катом я постарался перечислить наиболее важные из них.

Читать дальше →

+74

lapiner 19 ноя 2020 в 14:36

Электронные таблицы как средство разработки бизнес-приложений

8 мин

12K

ERP-системы*SQL*Ненормальное программирование*Программирование*Office 365*

Excel часто используется как универсальное средство для разработки бизнес-приложений. В этой статье я хочу сравнить, существующие без особых изменений уже более 30 лет, электронные таблицы с современной классической императивной парадигмой программирования глазами архитектора ПО. Затем я хочу рассказать о своей работе над новым табличным процессором, который исправляет многие недостатки, выявленные при сравнении, тем самым позволяя создавать более надежные, масштабируемые и легкие для поддержки и дальнейшего развития, бизнес-приложения.

Читать дальше →

+14

Kilor 18 ноя 2020 в 10:10

PostgreSQL Antipatterns: DBA-детектив, или Три дела о потерянной производительности

30 мин

5.5K

Блог компании ТензорРеверс-инжиниринг*Базы данных*SQL*PostgreSQL*

Сегодня вместо решения абстрактных алгоритмических задач мы выступим в роли детектива, по крупицам доставшейся информации исследующего неэффективные запросы, и рассмотрим три реальных дела, встречавшихся в разное время на просторах нашего приложения СБИС, когда простота и наивность при написании SQL превращалась в дополнительную нагрузку для PostgreSQL-сервера.

Дедукция и индукция помогут нам вычислить, что же все-таки хотел получить от СУБД разработчик, и почему это получилось не слишком оптимально. Итак, сегодня нас ждут:

Дело о непростом пути вверх
Разберем в live-видео на реальном примере некоторые из способов улучшения производительности иерархического запроса.
Дело о худеющем запросе
Увидим, как можно запрос упростить и ускорить в несколько раз, пошагово применяя стандартные методики.
Дело о развесистой клюкве
Восстановим структуру БД на основании единственного запроса с 11 JOIN и предложим альтернативный вариант решения на ней той же задачи.

Расследовать

+17

MaxRokatansky 16 ноя 2020 в 17:52

Автоматизация миграций баз данных с помощью контейнеров и Git

4 мин

4.5K

Блог компании OTUSGit*Kubernetes*SQL*Microsoft SQL Server*

Перевод

Управление миграциями баз данных для нескольких сред и команд может быть достаточно сложной задачей. В этой статье описывается, как сочетание Git, контейнеров и клонов баз данных используется для реализации доставки в среды разработки, тестирования и стейджинга за считанные секунды.

Хотя Git и так часто используется в сочетании с контейнерами баз данных, описанный здесь подход все же вводит два новых элемента. Вместо того, чтобы воспроизводить базы данных из бекапов или создавать из источника данных, мы клонируем идентичные безопасные среды производственных баз данных и доставляем их в течении секунд. Клоны баз данных доступны для записи и позволяют легко внедрять маскирование данных и синтетические тестовые данные. Второй элемент - это файл манифеста сценариев, используемый при создании и применении персонализированных сценариев миграции.

Разработчик может работать с клоном производственной базы данных в функциональной ветке - сценарии для этой ветки применяются автоматически. В то же время команда тестирования может работать в релизной ветке с идентичным клоном производственной базы данных - для нее применяется набор релизных сценариев. На каком-нибудь конвейерном стейдже можно протестировать откат релизной ветки с третьим идентичным безопасным клоном производственной базы данных, благодаря автоматическому применению сценариев обновления и отката.

Эта статья берет за основу SQL Server, но эти методы также поддерживаются Postgres и MySQL.

4reg 15 ноя 2020 в 13:28

Вредные советы для «идеального» REST API

4 мин

6.8K

Проектирование API*SQL*

Из песочницы

Всем привет!

Почему 'идеального' написано в кавычках?!

То, что написано ниже относится к разряду "так делать не надо", однако, если вы считаете иначе — интересно будет услышать ваше мнение на этот счёт )

Наверное, многие из нас делали REST API, либо пользовались чьим-то готовым. Разберём в статье "невероятные" трюки, которые помогут сделать ваше API на голову выше, чем у других.

Читать дальше →

MaxRokatansky 13 ноя 2020 в 18:41

Web Security SQL Injection 2020

6 мин

11K

Блог компании OTUSИнформационная безопасность*Веб-разработка*SQL*

Статья расскажет, как использовать SQLmap и похожих инструментов для автоматизации решений заданий по sql injection на одном из популярных CTF ресурсов. В статье зайдем немного дальше, чем просто модификация risk-level «if you know what i mean». Задания не будут полностью разобраны для решения, флаги необходимо найти самостоятельно.

Также будет продемонстрировано, как можно самостоятельно изменять инструменты для покрытия большего количества уязвимостей в веб.

cerrenesi 10 ноя 2020 в 20:46

Spring: Ускоряем запись в базу данных с помощью XML

5 мин

Java*Kotlin*SQL*Программирование*

Всем привет!

В этой статье пойдет речь о том как ускорить запись большого объема информации в реляционную базу данных для приложений, написанных с использованием Spring Boot. При записи большого количества строк за раз Hibernate вставляет их по одному, что приводит к существенному ожиданию, если строк много. Рассмотрим кейс как это обойти.

Читать дальше →

-2

Kilor 10 ноя 2020 в 10:10

PostgreSQL Antipatterns: работаем с отрезками в «кровавом энтерпрайзе»

6 мин

11K

Блог компании ТензорERP-системы*PostgreSQL*SQL*Алгоритмы*

В различных бизнес-приложениях регулярно возникает необходимость решить какую-либо задачу с отрезками/интервалами. Самое сложное в них — понять, что это именно одна из таких задач.

Как правило, они отчаянно маскируются, и даже у нас в СБИС их найти можно в абсолютно разных сферах управления предприятием: контроле рабочего времени, оценке загрузки линий АТС или даже в бухгалтерском учете.

«Отличие enterprise [решения] от всего остального — он всегда идёт от запросов бизнеса и решает какую-то бизнес-задачу.» [src]

Вот и давайте посмотрим, какие именно прикладные задачи и как можно решить с помощью PostgreSQL и сократить время анализа данных с нескольких секунд на бизнес-логике до десятков миллисекунд, умея эффективно применять следующие алгоритмы непосредственно внутри SQL-запроса:

поиск отрезков, пересекающих точку/интервал
слияние отрезков по максимальному перекрытию
подсчет количества отрезков в каждой точке

Читать дальше →

+27

zm_llill 9 ноя 2020 в 23:27

Как я решил написать ORM на php с нуля на работающем сайте, и что из этого вышло

5 мин

PHP*SQL*

Я, как и многие программисты, довольно отрицательно отношусь к созданию велосипедов и изобретению колес и это более чем обосновано хотя бы стоимостью разработки для бизнеса. Но как показал мой опыт иногда приходится отходить от этого правила и, даже, получать от этого пользу. Я имею ввиду не только интерес и удовольствие от разработки, но и плюшки для проекта в целом. Об одном моем подобном опыте можно прочесть несколько слов под катом.

Читать дальше →

1 2 ...

45 46

48 49 ...

96 97