SQL *

Формальный непроцедурный язык программирования

СтатьиПостыНовостиАвторыКомпании

Andrey_Biryukov 26 янв 2023 в 11:37

Разворачиваем MySQL: установка и настройка

6 мин

46K

Блог компании OTUSSQL * Базы данных *

MySQL на сегодняшний день является одной из наиболее распространенных в мире. Достаточно сказать, что по рейтингам 2021 года данная СУБД лишь немного уступала Oracle.

1shaman 3 авг 2022 в 08:00

Пять советов по исправлению перекошенных соединений в Apache Spark

9 мин

Блог компании FirstVDSApache * SQL * Серверная оптимизация *

Перевод

Соединения (Joins) являются одними из наиболее фундаментальных преобразований в типичной процедуре обработки данных. Оператор Join позволяет коррелировать, обогащать и фильтровать два входных набора (пакета / блока) данных (Datasets).

Обычно два входных набора данных классифицируются как левый и правый на основе их расположения по отношению к пункту/оператору Join.

По сути, соединение работает на основе условного оператора, который включает логическое выражение, основанное на сравнении между левым ключом, полученным из записи левого блока данных, и правым ключом, полученным из записи правого комплекса данных. Левый и правый ключи обычно называются соединительными ключами (Join Keys). Логическое выражение оценивается для каждой пары записей из двух входных наборов данных. На основе логического вывода, полученного в результате оценки выражения, условный оператор включает условие выбора — для отбора либо одной из записей (из пары), либо комбинированной записи (из записей, образующих пару).

Читать дальше →

SergeiKitaev 25 июн 2022 в 14:19

Технология SQL-файл, препроцессор для T-SQL, “бок-о-бок” файлы и др

20 мин

5.3K

MySQL * PostgreSQL * SQL * Microsoft SQL Server * Базы данных *

Завершив в недавнем прошлом очередную доработку своей легковесной технологии SQL-файл, применяемой для эффективной трансляции файлового SQL-кода в базу данных, автор данной статьи решил в очередной раз представить (в этой заметке теперь, на популярном ресурсе) свои реализованные, хотя бы отчасти, идеи касательно программирования MSSQL, а также некоторые соображения относительно применения SQL вообще. Автор полагает, что несмотря на форму предлагаемой им частной реализации SQL-файл (для MSSQL), лежащая в основе подхода концепция имеет определённую силу и смысл.

Выше на картинке: SQL-трансляция исходных файлов из нескольких директорий (скрипты *.sql), запуск fill_with_data.cmd

ERP 26 апр 2022 в 21:02

Переход с 1С: УПП на 1C:ERP: Переделываем интеграции с SQL-запросами к СУБД (на примере УПП — QlikView — ERP)

7 мин

7.4K

SQL * SQLite * Промышленное программирование * Управление проектами * 1С *

Туториал

Из песочницы

Для тех, кто не читал предыдущую статью, расскажу о сути проекта. В 2020-2021 году я участвовал в роли руководителя команды разработчиков Внедренческого центра "Раздолье" в проекте Управление продажами в международной компании на базе "1С:ERP" (ссылка на сайт 1c.ru). Проект был выбран победителем международного конкурса «1С:Проекта года» в номинации «Лучший проект с использованием технологии "Дистанционное внедрение"».

Суть проекта заключалась в переводе Заказчика с 1С:УПП на 1С:ERP. На его примере кратко опишу, какой была организационная структура и какие программы мы использовали при взаимодействии в команде и с пользователями.

Практически весь проект выполнялся удалённо. Многие сотрудники Заказчика, участвующие в проекте, в условиях карантинов и локдаунов были переведены на удалённую работу. Многие сотрудники нашей компании тоже работали удалённо, с командировками в этот период были большие проблемы. Сам Заказчик работает в режиме 24х7 и является одним из крупнейших предприятий в России по производству кофе. На начало проекта в качестве основы корпоративной системы у Заказчика была программа 1С:УПП редакции 1.2 (даже не 1.3). По завершению проекта в 2021-м перешли на ERP 2.5. К слову, когда начинали работу, в 2020-м году, когда 2.5. была ещё в бета-версии, но мы решили прислушаться к рекомендациям "Фирмы 1С" запускать новые проекты на ней, а не на 1С:ERP 2.4.

grishenkovp 27 мар 2022 в 06:38

Подсчет количества пар товаров в продуктовых чеках с помощью трех инструментов: Python, Spark, SQL

6 мин

7.7K

Python * SQL * Big Data *

Добрый день, уважаемые читатели! Не открою для большинства секрета, если скажу, что большая часть задач в материалах к учебным курсам сформулирована шаблонно. Какие-то вопросы в принципе могут представлять интерес, но очень оторваны от реальных потребностей бизнеса. Какие-то моменты выдернуты из книг, поэтому лучше знакомиться с ними, читая первоисточник. Но есть кейсы, которые на первый взгляд хоть и кажутся простыми и стереотипными, но, если присмотреться к ним более пристально, могут дать пищу для размышления. Вот на одной из таких полезных задач мне хотелось бы заострить внимание в данной заметке. Формулируется вопрос следующим образом: «Необходимо определить количество пар товаров в продуктовых чеках. Вывести 10 самых частых сочетаний». Пример, чек 1 содержит товар 1, товар 2, товар 3, а чек 2 - товар 1, товар 2, товар 5. Следовательно, комбинация «товар 1, товар 2» встречается 2 раза, «товар 1 , товар 3» один раз и т.д.

В исходнике решать данный кейс предлагалось силами Python. Но реальная жизнь может потребовать от аналитика данных умения выполнять данное упражнение как с помощью SQL, так и Spark. Следовательно, рассмотрим три подхода, оставив за скобками разговора четвертый вариант – расчеты на платформах BI.

room304 12 мар 2022 в 17:14

Массовая загрузка, обработка и выгрузка изображений в Битрикс на Python3

11 мин

12K

1С-Битрикс * PHP * Python * SQL *

Из песочницы

В этой статье мы популярно объясняем на собственном опыте как организовать массовую выгрузку, обработку и загрузку фотографий товаров из Bitrix, используя Python и минимальное количество SQL. Для прочтения будет полезно людям, выполняющим схожие задачи, не будучи при этом знакомыми с Битриксом.

IgorIngeneer 27 дек 2021 в 11:23

Возможности обработки списков телефонов в реальном времени в современном ПО для Call-центров

5 мин

1.6K

Asterisk * SQL * Системы связи *

Из песочницы

Я работаю инженером в Call-центре. В круг моих обязанностей входит повышение эффективности прозвона call-листов. В этой статье речь идет о некоторых функциональных возможностях специального программного обеспечения (встроенный SQL), позволяющих существенно поднять эффективность проработки списков телефонов.

OBIEESupport 23 дек 2021 в 01:25

Работа с объектными переменными типа REF CURSOR в Oracle BI Publisher 12c

Простой

2 мин

4.8K

Oracle * SQL *

Туториал

Recovery Mode

Прочитав статью и восприняв понимание продукта Oracle BI Publisher критически, а именно, на момент существовавшей тогда версии 11.1.1.7.150120, хочется заметить, что все, указанное в цитируемой статье можно было сделать на BI Publisher и доверить любому непрограммирующему пользователю. Плюс к этому, продукт имел trial и stand-alone версию. Поддерживался API на Java, уже был доделан вызов продукта как web-сервиса.

Чуть более интересный вопрос, который был получен от читателей моего блога: как в 12-й версии работать с переменными типа REF CURSOR для массовой миграции с самодельной отчетной системы на продукт Oracle BI EE 12с.

Рассмотрим код, который вернет REF CURSOR в зависимости от параметра.

honyaki 17 дек 2021 в 18:14

Машинное обучение помогает прогнозировать использование ресурсов при SQL-запросах

7 мин

4.1K

Блог компании SkillfactorySQL * Big Data * Машинное обучение * Natural Language Processing *

Перевод

Статья написана по мотивам работы "Forecasting SQL Query Cost at Twitter", 2021 («Прогнозирование стоимости SQL-запросов в Twitter»), представленной на IX Международной конференции IEEE по облачной инженерии (IC2E). Подробностями делимся, пока у нас начинается курс по Machine Learning и Deep Learning.

AlexKMK 12 ноя 2021 в 13:13

Поиск стат. значимости в BigQuery или удаление шума

4 мин

1.5K

Программирование * SQL * Big Data *

Туториал

Всё началось с использования ML в BigQuery — оказалось это совсем не больно, и очень эффективно.

Мы в GFN.RU используем модель K-Means для поиска аномалий в работе сервиса. Ведь невозможно кожаному мешку смотреть десятки графиков по тысячам игр ежедневно. Пусть электрический болван подсказывает куда нужно глянуть.

yooteam 14 окт 2021 в 10:33

Как управлять большими объемами данных: доклады с митапа High SQL

1 мин

3.9K

Блог компании ЮMoneySQL * Microsoft SQL Server * Хранение данных * Конференции

7 октября мы провели второй митап о нюансах работы с большими объёмами данных. Под катом видео докладов наших разработчиков и приглашенного эксперта Microsoft Data Platform. Кейсы будут полезны тем, кто администрирует и разрабатывает DWH, создает аналитические запросы и работает c Microsoft SQL Server.

Смотреть доклады

ArtemWolynski 12 окт 2021 в 06:12

Как работает rollback в базах данных

6 мин

18K

NoSQL * PostgreSQL * SQL *

Из песочницы

Всем привет, меня зовут Артём и я ~~алкоголик~~ долгое время не понимал базы данных. Ну, то есть я понимал концепт и как с ними работать, но всегда воспринимал их как чёрный ящик с понятным интерфейсом, который может сохранять и отдавать данные, если знать, как его об этом попросить. Механизмы, позволяющие магии случаться, были совершенно не понятны. И честно говоря, меня это особо не волновало. Бизнесу нужно, чтобы ты фичи фигачил, а не вот это вот всё.

Однако недавно я понял, что хватит это терпеть и настало время разобраться что происходит под капотом, как это происходит и зачем. Статья подойдёт тем, кто каждый день работает с базами данных и не особо вникает в подробности, людям, кто как и я заинтересовался тем, как всё работает и не знает откуда начать копать или просто тем, кто хочет немного освежить своё понимание баз данных.

itresume 4 мая 2021 в 14:11

Звездные войны или подробный гайд по dplyr

8 мин

6.6K

Data Engineering * R * Data Mining * SQL * Python *

Туториал

Сегодня, 4 мая, в день Звездных войн мы подготовили для Вас подробный гайд по основным функциям библиотеки dplyr. Почему именно в день Звездных войн? А потому что разбирать мы все будем на примере датасета starwars.

Ну что, начнем!

Miosh 25 фев 2021 в 11:06

Как мы в IVI используем массивы в ClickHouse для подсчета продуктовых метрик

6 мин

4.6K

Блог компании Онлайн-кинотеатр ИвиХранение данных * Управление продуктом * Веб-аналитика * SQL *

IVI – кросс-платформенный сервис, а значит, мы должны анализировать метрики всюду: на вебе, телевизорах и мобильных приложениях. Продукт непрерывно развивается, чтобы стать максимально эффективным, удобным и повысить ценность и привлекательность подписки. Перед тем, как внедрить какую-то новую фичу, мы проводим a/b-тесты и исследуем, на сколько востребованным окажется нововведение и как оно повлияет на конверсию или смотрение. Одновременно у нас может проверяться до 70-ти гипотез, от которых непосредственно зависят планы по развитию продукта.

Для того, чтобы правильно оценить успешность или неуспешность теста, требовалось технологичное решение. Новая схема ETL позволила нам иметь хранилище, толерантное к дубликатам. При ошибке в коде мы всегда можем откатить consumer offset в kafka и обработать часть данных снова, не прилагая лишних усилий для движения данных. Хотим рассказать о том, как мы в IVI используем ClickHouse, чтобы посчитать метрики для решения разных продуктовых задач и понять, что мы действительно делаем продукт лучше, а не придумываем фичи, которыми никто не будет пользоваться.

introvertingCode 7 фев 2021 в 14:59

Создаем схему базы данных на SQLAlchemy

3 мин

22K

Python * SQL *

Много уже говорилось о том, что SQLAlchemy - одна из самых популярных библиотек для создания схем баз данных. Сегодня рассмотрим несложный пример по созданию небольшой схемы данных для приложения по поиску цитат. В качестве СУБД будем использовать PostgreSQL.

Подход к определению моделей будем использовать декларативный, так как, на мой взгляд, он проще и понятнее классического подхода, основанного на mapper.

selesnow 21 янв 2021 в 07:23

Как использовать функцию UNNEST в Google BigQuery для анализа параметров событий Google Analytics

6 мин

16K

SQL * Data Mining * Big Data * Data Engineering * Хранение данных *

Туториал

Перевод

Сегодня я расскажу о том, как использовать функцию `UNNEST` в Google BigQuery для анализа параметров событий и свойств пользователей, которые вы получаете вместе с данными Google Analytics.

4reg 15 ноя 2020 в 10:28

Вредные советы для «идеального» REST API

4 мин

6.8K

SQL * Проектирование API *

Из песочницы

Всем привет!

Почему 'идеального' написано в кавычках?!

То, что написано ниже относится к разряду "так делать не надо", однако, если вы считаете иначе — интересно будет услышать ваше мнение на этот счёт )

Наверное, многие из нас делали REST API, либо пользовались чьим-то готовым. Разберём в статье "невероятные" трюки, которые помогут сделать ваше API на голову выше, чем у других.

Читать дальше →

MaxRokatansky 22 окт 2020 в 13:09

Шифрование в MySQL: ротация Master Key

3 мин

2.1K

Блог компании OTUSSQL * Базы данных * MySQL *

Перевод

В преддверии старта нового набора на курс «Базы данных» продолжаем публиковать серию статей про шифрование в MySQL.

В предыдущей статье этой серии мы обсудили, как работает шифрование с главным ключом (Master Key). Сегодня, основываясь на полученных ранее знаниях, посмотрим на ротацию главных ключей.

Ротация главных ключей заключается в том, что генерируется новый главный ключ и этим новым ключом повторно шифруются ключи табличных пространств (которые хранятся в заголовках табличных пространств).

Давайте вспомним, как выглядит заголовок зашифрованного табличного пространства:

MaxRokatansky 12 авг 2020 в 14:32

RED-метод для анализа производительности MySQL

3 мин

6.2K

Блог компании OTUSDevOps * SQL *

Перевод

Перевод статьи подготовлен в преддверии старта курса «DevOps практики и инструменты».

Метод RED (Rate, Errors, Duration) является одним из популярных подходов к мониторингу производительности. Он часто применяется для мониторинга микросервисов, хотя ничего не мешает использовать его для баз данных, таких как MySQL.

В Percona Monitoring and Management (PMM) v2 вся необходимая информация собирается в базу данных ClickHouse, и дальше уже дело техники с помощью встроенного источника данных ClickHouse создать дашборд для визуализации метрик.

При создании дашборда помимо панелей для RED были добавлены несколько дополнительных панелей, чтобы показать некоторые интересные вещи, которые можно сделать с Grafana + ClickHouse в качестве источника данных и информацией, которую мы храним о производительности запросов MySQL.

Давайте посмотрим на дашборд внимательнее.

Читать дальше →

am-habr 1 июл 2020 в 21:23

Сколько данных может обработать Raspberry Pi быстро

3 мин

7.9K

SQL * SQLite * Веб-аналитика * Raspberry Pi * Хранение данных *

Время обработки данных в одном знакомом мне проекте энтерпрайз-хранилища данных с реляционной моделью составляет почти 2,5 часа. Много это или мало?

Заметка описывает эксперимент по созданию маленькой копии энтерпрайз-хранилища данных с сильно ограниченными техническими условиями. А именно, на базе одноплатного компьютера Raspberry Pi.

Модель и архитектура будут упрощёнными, но похожими на энтерпрайз-хранилище. Результатом является оценка возможности использования Raspberry Pi в области обработки и анализа данных.

Читать дальше →

1 2 ...

89 90

SQL *

Разворачиваем MySQL: установка и настройка

Пять советов по исправлению перекошенных соединений в Apache Spark

Технология SQL-файл, препроцессор для T-SQL, “бок-о-бок” файлы и др

Переход с 1С: УПП на 1C:ERP: Переделываем интеграции с SQL-запросами к СУБД (на примере УПП — QlikView — ERP)

Подсчет количества пар товаров в продуктовых чеках с помощью трех инструментов: Python, Spark, SQL

Массовая загрузка, обработка и выгрузка изображений в Битрикс на Python3

Возможности обработки списков телефонов в реальном времени в современном ПО для Call-центров

Работа с объектными переменными типа REF CURSOR в Oracle BI Publisher 12c

Машинное обучение помогает прогнозировать использование ресурсов при SQL-запросах

Поиск стат. значимости в BigQuery или удаление шума

Как управлять большими объемами данных: доклады с митапа High SQL

Как работает rollback в базах данных

Звездные войны или подробный гайд по dplyr

Ближайшие события

Как мы в IVI используем массивы в ClickHouse для подсчета продуктовых метрик

Создаем схему базы данных на SQLAlchemy

Как использовать функцию UNNEST в Google BigQuery для анализа параметров событий Google Analytics

Вредные советы для «идеального» REST API

Шифрование в MySQL: ротация Master Key

RED-метод для анализа производительности MySQL

Сколько данных может обработать Raspberry Pi быстро

Вклад авторов