SQL *

Формальный непроцедурный язык программирования

СтатьиПостыНовостиАвторыКомпании

Kilor 15 мар 2021 в 13:30

Случайности не случайны

5 мин

7.7K

Блог компании ТензорPostgreSQL * Алгоритмы * SQL * Математика *

Можно ли достоверно предсказать будущее хоть на немного вперед? Иногда - вполне, надо только много везения... или немного знаний.

Сегодня пронаблюдаем сеанс черной магии с последующим разоблачением, или «Я угадаю твой рандом с 3 строк!»

+16

MaxRokatansky 15 мар 2021 в 12:05

Пожалуйста, прекратите использовать антипаттерн UPSERT (SQL Server)

5 мин

55K

Блог компании OTUSSQL * Microsoft SQL Server *

Перевод

Я думаю, что все уже знают мое мнение о MERGE и почему я держусь от него подальше. Но вот еще один антипаттерн, который я постоянно встречаю, когда требуется выполнить UPSERT (UPdate inSERT — обновить строку, если она существует, и вставить, если ее нет):

+14

vascodogama 13 мар 2021 в 19:39

Открытки в стиле SQL

1 мин

6.9K

SQL * Графический дизайн * IT-компании

Туториал

Как мы коллег поздравляли и что из этого получилось

NikZanyat 9 мар 2021 в 04:32

Применяем NOCODE и LOWCODE для вычислений

7 мин

7.2K

Веб-разработка * Программирование * Анализ и проектирование систем * SQL * Прототипирование *

Recovery Mode

Утверждают, что прямо сейчас с помощью no-code инструментов не создать сколько-нибудь серьезный продукт. Скептики, к коим относится большинство программистов, считают это невозможным в принципе. На самом дела, за продуктами «без кода» сейчас называют то, что раньше было обычными электронными таблицами и конструкторами сайтов из кубиков.

Скептики как будто правы: этот no-code не заменяет код – не реализует алгоритм, то есть ветвления циклы и прочее, а только позволяет накидать на чистый лист квадратики, которые как-то там взаимодействуют друг с другом. Элементы платежных систем, фрагменты веб-документов, формы и чаты, таблицы с фильтрами. Всё это связывается в пёструю мешанину MVP и гордо именуется no-code решением.

Давайте попробуем что-то чуть сложнее, чем аппликацию готовых блоков – с нуля сделаем, например, проводку документа поступления товаров и услуг. Пересчитаем остатки на складах и средневзвешенную себестоимость, обновим сальдо договора и, наконец, пометим документ проведенным. Без написания алгоритма на языке программирования.

Программируем без кода

nicksavchenko2001 8 мар 2021 в 13:19

Cобеседование на позицию стажера в Яндекс на аналитика данных

6 мин

73K

Python * SQL *

Из песочницы

Всем привет! Целью данного поста является:

1) Поделится личным опытом.

2) Помочь другим кандидатам при подготовке к собеседованию.

+24

grishenkovp 7 мар 2021 в 06:42

PySpark. Решаем задачу на поиск сессий

6 мин

9.1K

Data Engineering * SQLite * Big Data * SQL * Python *

Добрый день уважаемые читатели! Несколько дней назад перечитывая книгу Энтони Молинаро “SQL. Сборник рецептов”, в одной из глав я наткнулся на тему, которая была посвящена определению начала и конца диапазона последовательных значений. Бегло ознакомившись с материалом, я сразу вспомнил, что уже сталкивался с данным вопросом в качестве одного из тестовых заданий, но тогда тема была заявлена как “Задача на поиск сессий”. Фишкой технического собеседования был не разбор выполненной работы, а один из вопросов интервьюера о том, как получить аналогичные значения с помощью Spark. Готовясь к собеседованию, я не знал, что в компании применяется (а может и не применяется…) Apache Spark, и поэтому не собрал информацию по новому на тот момент для меня инструменту. Оставалось лишь выдвинуть гипотезу, что искомое решение может быть подобно скрипту, который можно написать c помощью библиотеки Pandas. Хотя очень отдалено я все-таки попал в цель, однако поработать в данной организации не получилось.

Справедливости ради хочу заметить, что за прошедшие годы я несильно продвинулся в изучении Apache Spark. Но я все равно хочу поделиться с читателями наработками, так как многие аналитики вообще не сталкивались с этим инструментом, а другим возможно предстоит подобное собеседование. Если вы являетесь профессионалом Spark, то всегда можно предложить более оптимальный код в комментариях к публикации.

Max_Yurchak 4 мар 2021 в 13:49

Создаем базу данных на примере службы доставки и разбираем запросы SQL

3 мин

81K

MySQL * SQL *

Из песочницы

Сегодня мы рассмотрим пример базы данных и различные команды агрегации, группировки, сортировки, соединения таблиц и другое на примере MySQL. Сами данные представляют собой набор таблиц с произвольными названиями и значениями.

ru_vds 4 мар 2021 в 09:48

Собеседования в сфере Data Science и распространённые приёмы работы с датами в SQL

5 мин

9.1K

Блог компании RUVDS.comSQL * Карьера в IT-индустрии

Перевод

Поговорим о распространённых приёмах работы с датами, которые находят применение на Data Science-собеседованиях и в обычной работе. При анализе данных весьма часто возникает необходимость извлечения из полей, хранящих даты, их частей, вроде года, дня или месяца. Нередко тому, кто проходит собеседование, предлагают, на основе поля, содержащего дату, вычислить или подсчитать какие-то показатели, сгруппированные по годам или по месяцам. Но подобное поле содержит информацию, сгруппированную по дням, поэтому для решения вышеописанной задачи нужно просто агрегировать данные на уровне месяцев или лет.

Аналитикам, занимающимся самыми разными делами, часто приходится решать подобные задачи. Но при их решении можно столкнуться с некоторыми сложностями. Например:

Существует множество различных функций, которые либо делают одно и то же, либо работают схожим образом, но отличаются в некоторых деталях. Сложно выбрать именно ту функцию, которая нужна при решении конкретной задачи.
В разных диалектах SQL имеются различные функции. Поэтому функция, которая подошла бы при работе с Postgres, может оказаться совсем неподходящей при работе с MySQL.
Столбец в базе данных может иметь неподходящий формат или тип данных. Поэтому придётся потратить некоторое время на преобразование данных и на приведение их в подходящий вид. Это тоже может усложнить задачу.

Давайте начнём с самого простого. А именно — рассмотрим один SQL-пример и разберём несколько функций, которые можно использовать для разбора дат на составные части. Подобными делами часто приходится заниматься тому, кто работает в сфере Data Science. А вот — видеодемонстрация приёмов работы с датами в SQL.

Читать дальше →

+26

MaxRokatansky 1 мар 2021 в 17:05

Секционирование таблиц и время компиляции плана запроса в SQL Server

5 мин

5.7K

Блог компании OTUSSQL *

Перевод

Меня иногда спрашивают: «Если в таблице много индексов и SQL Server вынужден анализировать больше вариантов, то не замедлит ли это построение плана запроса?»

Что же, вполне может быть, но что действительно сбивает с толку оптимизатор, так это секционирование. Даже простейшие запросы к секционированным таблицам могут привести к значительному увеличению использования процессорного времени. Хуже того, как однажды сказал знаменитый философ: «Больше секционирования — больше проблем».

Итак, давайте возьмем какую-нибудь из баз данных Stack Overflow и создадим функцию секционирования, которая будет разбивать наши данные по дням:

Zondoo 1 мар 2021 в 06:39

Ценность уместного комментария

4 мин

4.6K

Блог компании РостелекомSQL *

У каждого из нас есть задача, над решением которой ты долго и безуспешно бьешься, которую изучил уже и вдоль и поперек, но все равно не можешь получить нужный результат. При этом одни уверены, что твоя задача в принципе не имеет решения, другие - что проблемы вообще нет. Такой задачей для меня было большое время выполнения любых запросов к хранилищу данных на Greenplum. И как же приятно наконец-то написать, что я эту проблему победил!

Miosh 25 фев 2021 в 11:06

Как мы в IVI используем массивы в ClickHouse для подсчета продуктовых метрик

6 мин

5.1K

Блог компании Онлайн-кинотеатр ИвиSQL * Веб-аналитика * Управление продуктом * Хранение данных *

IVI – кросс-платформенный сервис, а значит, мы должны анализировать метрики всюду: на вебе, телевизорах и мобильных приложениях. Продукт непрерывно развивается, чтобы стать максимально эффективным, удобным и повысить ценность и привлекательность подписки. Перед тем, как внедрить какую-то новую фичу, мы проводим a/b-тесты и исследуем, на сколько востребованным окажется нововведение и как оно повлияет на конверсию или смотрение. Одновременно у нас может проверяться до 70-ти гипотез, от которых непосредственно зависят планы по развитию продукта.

Для того, чтобы правильно оценить успешность или неуспешность теста, требовалось технологичное решение. Новая схема ETL позволила нам иметь хранилище, толерантное к дубликатам. При ошибке в коде мы всегда можем откатить consumer offset в kafka и обработать часть данных снова, не прилагая лишних усилий для движения данных. Хотим рассказать о том, как мы в IVI используем ClickHouse, чтобы посчитать метрики для решения разных продуктовых задач и понять, что мы действительно делаем продукт лучше, а не придумываем фичи, которыми никто не будет пользоваться.

grishenkovp 24 фев 2021 в 12:18

Поговорим о RFM-анализе

8 мин

4.6K

SQL * PostgreSQL * Python *

Добрый день уважаемые читатели! О данном методе сегментации клиентов по давности покупок, частоте и сумме сделок написано довольно много материалов. На просторах Интернета вы без труда найдете публикации с описанием теории и практики rfm-анализа. Он может выполняться как на платформе табличного редактора (при небольшом количестве данных), так и с помощью sql-запросов или силами тематических библиотек Python/R. Методология всех примеров одна и та же, расхождение будет только в деталях. Например, порядок присвоения номеров сегментам или принцип деления на группы. Ввиду всего вышеизложенного мне будет трудно привнести новизну в эту тему. В статье я лишь постараюсь заострить ваше внимание на некоторых моментах, которые могут помочь начинающим аналитикам данных.

AlanDenton 24 фев 2021 в 09:12

Напильник и щепотка фантазии… или как слепить Enterprise из SQL Server Express Edition

27 мин

11K

Базы данных * Проектирование и рефакторинг * Высоконагруженные системы * Microsoft SQL Server * SQL *

Проснись… ты всегда ощущал, что мир не в порядке. Странная мысль, но ее не отогнать – она как заноза в мозгу. Ты всю жизнь живешь в темнице ограничений и правил, навязанных всесильным Майкрософтом, и даже не осознаешь этого.

Нажмешь дизлайк и сказке конец – ты закроешь вкладку и продолжишь бесцельно бродить по рекомендациям Хабра и YouTube.

Захочешь продолжить и войдешь в страну чудес – я покажу тебе насколько глубока… невозможная… кроличья нора успешной разработки на SQL Server Express Edition.

Читать дальше →

+10

SbWereWolf 18 фев 2021 в 23:02

Code style для миграций Laravel

5 мин

5.7K

Laravel * SQL *

Recovery Mode

Всем привет.

Первые пять лет своей карьеры программиста, я работал над in-house проектом, следующие семь лет я работал в разных стартапах, с командой максимум из пяти разработчиков.

Сейчас я пару месяцев работаю над проектом где 20+ разработчиков, работа одновременно ведётся в примерно 30-ти ветках, имеется пять сред для отработки кода (драфт, дев, тестинг, хотфикс, прод), у каждой среды своя БД (перед выкаткой камита на стенд/среду, происходит проверочная выкатка с использованием отдельной БД, то есть на пять сред мы имеем 10 отдельных баз данных).

Вести разработку в нескольких ветках мне не в новинку, всегда так делал. Открытием для меня стало, то что версия кода и версия схемы базы данных ни как не синхронизируются. В маленьком проекте, не проблема дропнуть схему целиком, и целиком её накатить, это занимает считанные минуты, в этом проекте накатить схему с нуля с посевом занимает от часа.

Есть большая проблема с тем как синхронизировать версию кода и версию схемы базы данных.

Ниже я расскажу о правилах которые я принял для себя и буду рад если вы поделитесь своими приёмами и техниками, которые помогают вам справиться с этой бедой.

-3

McKinseyBA 16 фев 2021 в 12:13

Business Intelligence на очень больших данных: опыт Yota

11 мин

7.4K

Блог компании YotaSQL * Big Data * Визуализация данных * Хранение данных *

Всем привет! Меня зовут Михаил Волошин, и я, как руководитель отдела инструментов бизнес-анализа, хочу верхнеуровнево рассказать о плюсах и особенностях BI-решения Yota.

200 Tb Vertica, 400 Tb Hadoop, кластер Tableau, специфичная организация процесса разработки и многое другое ждут вас под катом.

Внимательный читатель спросит: «А при чем тут Vertica и слоник Hadoop, технологии же разные?» Да ни при чем — это лишь КДПВ.

Читать дальше →

grishenkovp 16 фев 2021 в 08:24

Повторяем когортный анализ. Комплексный подход — Python, SQL, Power BI

7 мин

7.3K

Python * SQL * PostgreSQL * Data Mining * Data Engineering *

Добрый день уважаемые читатели! Данная статья является продолжением публикации "Повторяем когортный анализ, выполненный в Power BI, силами Python" (ссылка). Настоятельно рекомендую познакомиться с ней хотя бы бегло, иначе последующее повествование будет вам малопонятным. С момента ее выхода на Хабр прошло достаточно времени. Я основательно пересмотрел методологию решения подобных задач. Первым желанием было просто переписать старый материал, но после недолгих размышлений я пришел к выводу, что более разумным шагом будет оформить наработки в новую рукопись.

Какова основная причина моего "недовольства" Python и Power BI? Язык Python/R c тематическими библиотеками и Power BI (Tableau, Qlik) могут на 70-80% закрыть потребности бизнеса в расчете сложных метрик и построении визуализаций. Но только если речь идет об обработке относительно небольших датасетов с уже агрегированными данными. Если мы говорим о предварительном манипулировании данными в промышленном масштабе, то здесь игра переходит на сторону сервера с БД и используется SQL. Данный момент я не осветил в предыдущей публикации, поэтому решил ликвидировать это упущение здесь.

Kilor 12 фев 2021 в 11:15

DBA: «Кто-то слишком много ест!»

6 мин

18K

Блог компании ТензорPostgreSQL * SQL * Базы данных * Высоконагруженные системы *

Тема "распухания" таблиц и индексов из-за реализации MVCC - больная для пользователей и администраторов PostgreSQL.

Однажды я уже поднимал ее в статье "DBA: когда пасует VACUUM — чистим таблицу вручную", разобрав на конкретных примерах, насколько драматический эффект для производительности запросов может оказывать невовремя проведенный или бесполезно отработавший из-за конкурентных транзакций VACUUM.

Но, помимо влияния на скорость, есть еще и факт влияния на занятое место. Наверное, вы сильно удивитесь, если таблица с единственной "живой" записью после успешного прохода autovacuum продолжит занимать гигабайты пространства на дорогих SSD.

Сегодня немного поисследуем структуру хранения данных в файлах и копнем pg_catalog - схему с описанием базы PostgreSQL, чтобы понять, как можно определить таблицы, которые явно занимают подозрительно много места.

+26

Picard 12 фев 2021 в 10:13

Анализ качества сна с машинным обучением, Python и SQL

7 мин

5.1K

Блог компании SkillfactoryPython * SQL * ГаджетыЗдоровье

Перевод

Последние примерно 2 месяца я ношу кольцо Oura, чтобы получать информацию о моём сне и о том, сколько я прошла шагов за день. Приложение считывает сон, разбитый на фазы (лёгкий, глубокий, быстрый), и даёт вам другие показатели, такие как частота сердечных сокращений, температура тела и частота дыхания. И для такого ботаника, как я, радостно было обнаружить, что у Oura есть API экспорта данных, чтобы я смогла лучше проанализировать их. Я загрузила данные в BigQuery и воспользовалась функцией CORR() (она потрясающая!), чтобы увидеть, какие показатели коррелируют с улучшением качества сна, а также визуализировала некоторые данные в Data Studio. Если у вас мало времени, переходите к разделу «Заключение», чтобы прочитать о том, что я узнала.

Дисклеймер: я не врач. Как раз наоборот: я ипохондрик, которому нравится писать на Python и SQL.

Приятного чтения!

dkomarovskiy 11 фев 2021 в 14:44

Работа с dbt на базе Google BigQuery

9 мин

7.5K

SQL * Веб-аналитика * Google Cloud Platform *

На днях смотрел вебинар OWOX, где Андрей Осипов (веб-аналитик, автор блога web-analytics.me и лектор Школы веб-аналитики Андрея Осипова) рассказал о своем опыте использования dbt. Говорил о том, кому будет полезен инструмент и какие проблемы решает, а самое главное — как не свихнуться со сложной иерархией таблиц и быть уверенным, что все данные считаются корректно. Я решил расшифровать вебинар в статью, потому что так удобнее возвращаться к информации, а она тут, поверьте, того стоит.

+10

alphamikle 11 фев 2021 в 10:03

Как совершить транзакцию в Nest.js

15 мин

12K

NestJS * TypeScript * Node.JS * SQL * Веб-разработка *

Во множестве случаев разработчики должны использовать транзации при совершении различных операций на сервере. К примеру - перевод денег, либо другой измеримой ценности, да много чего еще. При таких операциях очень не хочется получить ошибку, которая прервет процесс и нарушит целостность данных.

Как же совершать их, если вы пишите backend на Node.js + Nest.js?

Ну и как?

1 2 ...

53 54

56 57 ...

106 107

SQL *

Случайности не случайны

Пожалуйста, прекратите использовать антипаттерн UPSERT (SQL Server)

Открытки в стиле SQL

Применяем NOCODE и LOWCODE для вычислений

Cобеседование на позицию стажера в Яндекс на аналитика данных

PySpark. Решаем задачу на поиск сессий

Создаем базу данных на примере службы доставки и разбираем запросы SQL

Собеседования в сфере Data Science и распространённые приёмы работы с датами в SQL

Секционирование таблиц и время компиляции плана запроса в SQL Server

Ценность уместного комментария

Как мы в IVI используем массивы в ClickHouse для подсчета продуктовых метрик

Поговорим о RFM-анализе

Напильник и щепотка фантазии… или как слепить Enterprise из SQL Server Express Edition

Ближайшие события

Code style для миграций Laravel

Business Intelligence на очень больших данных: опыт Yota

Повторяем когортный анализ. Комплексный подход — Python, SQL, Power BI

DBA: «Кто-то слишком много ест!»

Анализ качества сна с машинным обучением, Python и SQL

Работа с dbt на базе Google BigQuery

Как совершить транзакцию в Nest.js

Вклад авторов