Comments / Profile of demche / Habr

Data Engineer

Subscribers

10 полезных фич R, о которых вы могли не знать

demche Apr 28 2023 at 13:44

Они не полностью заменимы. Например, сравните результаты. Сначала так:

mean(x = 1:100)

x

… а теперь так:

mean(y <- 1:100)

y

Или более общий пример (первые три выражения работают, на четвертом ошибка):

 x <- y <- 1

x = y = 2

x = y <- 3

x <- y = 4

Загрузка stage слоя DWH. Часть 1

demche Jan 10 2022 at 18:05

Почему выбрали именно NiFi? Какие ещё альтернативы рассматривали?

Кстати, с такой постановкой задачи ("обеспечить загрузку данных по мере их изменения на источнике") был смысл использовать CDC инструменты.

Нарастающий итог в SQL с разрывами в данных

demche Dec 27 2021 at 16:05

Спасибо, это довольно важное замечание, хотя и не во всех СУБД такие ограничения есть (добавил в статью). Кстати, дефолтная глубина в MySQL 8.0 – 1000 (линк), причем это была новая фича релиза.

Нарастающий итог в SQL с разрывами в данных

demche Dec 27 2021 at 12:08

А при чем тут вообще дашборды? Во-первых, данные могут использоваться для разных целей. Во-вторых, современные BI системы позволяют набросать дашборд с фильтрами и без dimension таблиц. Если у вас база не проектировалась как хранилище данных – в ней таких таблиц и не будет.

Сколько ты стоишь? Метод анализа вакансий с HR-агрегаторов

demche Nov 11 2021 at 19:35

Использование зарплат с HR-агрегаторов несет в себе вполне определенную проблему: вы анализируете не рыночные зарплаты как таковые, а зарплаты компаний, которые готовы их раскрыть. Чем выше зарплата, - тем менее охотно работодатели её указывают. Так что ваша оценка будет заниженной.

Чтобы такой сервис давал максимально точную оценку - нужны эксклюзивные данные по реальным заработным платам. Причем в первую очередь интересны не текущие зарплаты, а недавние наймы (т.е. текущий рынок). Например, украинский сайт для анонимного поиска работы джинн (djinni.co) предоставляет статистику по недавним наймам через телеграм бот (@djinni_jobs_bot). Пример использования: /howmuch middle python

Что такое транзакция

demche Jan 16 2021 at 18:53

+1 за форму подачи. Художник — сам автор, или кто-то другой? Где можно посмотреть другие работы?

Анонимный Дед Мороз 2020-2021: пост хвастовства новогодними подарками

demche Dec 31 2020 at 16:07

Подарок приехал аккурат под новый год. Спасибо дедушке )

Содержимое

Сломанный алгоритм, отравивший американскую транспортную систему

demche Sep 15 2020 at 12:37

Перевод хромает. Например, induced demand — индуцированный (устоявшийся перевод термина), или "спровоцированный" (свободный перевод) спрос. Но ни разу не "вынужденный", как в этом переводе.

Gnuplot и с чем его едят

demche Sep 4 2020 at 07:57

Так, понимаю, вы в R использовали один из пакетов (ggplot2 или lattice), а не базовую графику? Ваш комментарий можно доработать до полноценной статьи, кстати )

Сводные таблицы в SQL

demche Jun 28 2020 at 08:59

Выражусь точнее: для тестов всё равно. Но naming convention в PosgreSQL (о котором шла речь) предполагает использование именно bigint, поэтому на практике лучше всегда писать именно так

Сводные таблицы в SQL

demche Jun 28 2020 at 07:28

Да, вы правы (я поменял оба пункта в статье). На счет типа данных: для этих тестовых данных достаточно int8 (хотя на практике действительно почти всегда будет нужен bigint).

Анонимный Дед Мороз 2019-2020: пост хвастовства новогодними подарками

demche Jan 24 2020 at 17:26

Первый раз участвую, и мне невероятно повезло с дедушкой!

Как раз буду собирать новый ПК

+21

Пропаганда тоталитарного режима, антисемитизм и гомофобия в учебнике по программированию 2019 года? — Это возможно

demche Jan 5 2020 at 15:55

Присутствует как в крупных интернет-магазинах, так и в мелких (1, 2, 3, 4, 5, и т.д.). Наверняка был дополнительный тираж

Нарастающий итог в SQL

demche Nov 20 2019 at 18:04

А вы попробуйте написать проще. Если что, lag(total) over (order by dt) + val as total не работает: SQL не допускает обращения к столбцу до того, как он был объявлен.

Нарастающий итог в SQL

demche Nov 17 2019 at 14:09

СУБД – это важное уточнение (в SQL Server, Oracle, и других синтаксис не такой как в MariaDB).

Могу предположить, что SELECT вывел записи в порядке их добавления в базу. Без сортировки это поведение не должно быть гарантированным

Нарастающий итог в SQL

demche Nov 17 2019 at 13:30

Даже если оставить за скобками синтаксис (этот код нерабочий), в Excel мы используем заранее отсортированный список. К расчёту «как в Еxcel» ближе всего способ с MODEL в Oracle.

Нарастающий итог в SQL

demche Nov 17 2019 at 13:28

В большинстве случаев у нас будет поле, которое позволяет сортировать записи (будь то дата и время, id записи, и т.д. и т.п.). Дата в моих примерах – всего лишь упрощение, достаточное для туториала. Если нужного поля нет, то и нарастающий итог post-factum не посчитать никак.

Нарастающий итог в SQL

demche Nov 17 2019 at 13:27

Ваше решение считает итог только для последней записи. Кроме того, можно обойтись и без functools:

vals = [6, 3, 3, 4, 2, 4, 8, 0, 6, 0, 8, 8, 0, 2, 8, 7]
total = [vals[0]]; [total.append(total[i] + val) for i, val in enumerate(vals[1:])]

А приз выдадут довольные клиенты (когда увидят perform вычислений на уровне приложения)

Нарастающий итог в SQL

demche Nov 16 2019 at 19:35

Через LAG попросту нет элегантного решения. Понадобится CTE или процедура с циклом (и у меня есть сомнения, что это даст ускорение в сравнении с SUM() OVER …).

Нарастающий итог в SQL

demche Nov 16 2019 at 13:02

В SQL Server 2005 были исключительно оконные функции для ранжирования (т.е. ROW_NUMBER, RANK, DENSE_RANK, и NTILE). А полноценная поддержка с полным набором функций введена только в 2012.