Comments / Profile of am-habr / Habr

Андрей Марченко @am-habr

Business Intelligence / DWH

ProfileArticles8PostsNewsComments160

Проверка разметки сайтов-участников W3C

am-habr Jul 16 2020 at 01:24

Тест прежний validator.w3.org/check?uri=http%3A%2F%2Fwww.w3c.org
просто исправили ошибки html на главной странице, текст её тоже прежний остался, последняя новость 07.07.2020

+1

Проверка разметки сайтов-участников W3C

am-habr Jul 16 2020 at 00:50

Вы правы. 13.07 было 5, 15.07 одна и сейчас 0. Поправил текст.

+1

Сколько данных может обработать Raspberry Pi быстро

am-habr Jul 15 2020 at 19:15

Ваша оценка времени оказалась достаточно точной. Показал заметку ответственному за Экзадату специалисту.
EXTERNAL TABLE неожиданно реализовалось и время первого этапа составило 10 минут вместо 90. Полный цикл обработки — 70 минут.

+1

Сколько данных может обработать Raspberry Pi быстро

am-habr Jul 2 2020 at 13:45

Хотел бы спросить.
Почему все хотят видеть техническую статью, не привязанную к реальности?

Вы встречали организацию без организационно-бюрократических проблем?
Или где доступ к параметрам ОС, в которой стоит база, раздают всем желающим.

Есть ли информация о том, сколько у Вас в среднем времени проходит от external table до готового отчёта?

0

Сколько данных может обработать Raspberry Pi быстро

am-habr Jul 2 2020 at 12:37

Благодаря комментариям обнаружил, что какой-то жук задеплоил очень старый файл конфигурации для загрузки файла и уже давно. Поправлю и измерю ещё раз время.

0

Сколько данных может обработать Raspberry Pi быстро

am-habr Jul 2 2020 at 10:43

Oracle Database 18c. Ваши замечания и вопросы верные и логичные.
Для описания причин нужно писать статью, но такие плохо читаются и сильно минусуются энтерпрайзом, пот. быстро уходят в сторону «эффективных менеджеров» (уже поробовал и удалил про конфликт интересов).

Один аспект. Все операции тем эффективные, чем ближе к железу.
Например, метод внешних таблиц в Оракле будет очень быстрым.
Но нужно иметь расширенные права к диску и окружению. Часто даже к ОС, тут сложно становится с гарантийным обслуживанием.
Администратор БД, чел. по безопасности и аналитик будут испытывать конфликт интересов (одни не занимаются содержимым, другие могут что-нибудь сломать).
Но есть другой способ — sqlloader, гибкий и не сильно быстрый. Можно быстро, но должно лежать рядом с базой и тут снова конфликт.

Оптимизация и распределение знаний в проекте тоже являются причиной конфликта интересов. Тот, кто с паролем и всё может, будет концентрировать знания вокруг себя, что приведёт к проблеме в случае его отсутствия.
Быстро загрузить — не всегда эффективно.

Поэтому во втором случае PHP для файла, чтобы сохранить баланс :)

0

Сколько данных может обработать Raspberry Pi быстро

am-habr Jul 2 2020 at 08:11

Про скорость Exadata согласен: в случае ошибок проще сделать резервную копию и перегрузить таблицы целиком, чем исправлять, так быстрее.
В Exadata всё включено, диски SSD, всё параллельно, нагрузка равномерно распределена, таблицы с партициями, с большой компрессией, статистика собрана, пакеты скомпилированы для выполнения нативно и параллельно.

Но это ведь не один SQL Select Insert и не измерение скорости Exadata. Она действительно быстра, спору нет.

Идея была описать время всего цикла интеграции относительно количества исходных данных.
На это время влияют факторы:
— дедубликация, очистка данных, форматы (используются условия, строковые функции, преобразования)
— вызов функций из другого пакета
— подключение других таблиц для формирования ссылки
— загрузка исторических таблиц

Было бы интересно узнать примеры из других проектов. Сколько времени требуется до готовности отчётов.

0

Сколько данных может обработать Raspberry Pi быстро

am-habr Jul 2 2020 at 07:24

При написании SQL ориентируюсь на скорость 100K в секунду для одного запроса вставки в таблицу. Эксперимент описывает интеграцию данных. Из исходных данных загружаются измерения и агрегаты.
Общее время, необходимое для интеграции делится на количество исходных записей.
Метод загрузки файла выбран не самый быстрый, его можно оптимировать, но в 2 раза, а не на порядок.
Но и метод с PHP не самый быстрый, поэтому этот шаг можно считать эквивалентным.

0

Витрины данных DATA VAULT

am-habr Jun 5 2020 at 15:03

Схема, которая помогла мне понять смысл хабов и линков:

Есть момент, который я так и не понял в этой архитектуре, вернее не нашёл в публикациях. Откуда она возникла, какую задачу решала изначально.
Например, облачные технологии и БигДата являются побочным продуктом интернет-гигантов, которые предлагают использовать свои методологии в других сферах.
DATA VAULT описывает хранение в реляционной базе больших данных и предлагает делать из этого Business Intelligence. Но механизм удаления бизнес логики и воссоздание её в поздних слоях вредит эффективному анализу данных.

Тоже самое касается использования в целях Business Intelligence и анализа бизнес процессов стека Kibana с базой Elasticsearch. Это пример, когда технологии используются не с той целью, для которой были созданы.

+2

Развитие DATA VAULT и переход к BUSINESS DATA VAULT

am-habr May 31 2020 at 21:07

Хотелось бы узнать о контексте или области хранилища. Потому что мой опыт в телекоммуникации был скорее отрицательным относительно data vault.

Бизнес data vault часто является уровнем для анализа бизнес процессов или поиска ошибок в них. Даже PIT и BRIDGE таблицы не сильно упрощают запрос, если его пишет бизнес-аналитик, а не разработчик. Эти объекты призваны решить техническую проблему со связями n:m
Для восстановления бизнес логики понадобится гигантский запрос со сложными условиями по датам, что добавляет вероятности ошибок.

0

Основы Data Vault

am-habr May 31 2020 at 20:43

Хороший пост про основы этой новой методологии. Три года назад мне повезло её опробовать.
Результат в сравнении с хранением в нормальной форме (по Инмону, где нормализуются сущности в централизованных хранилищах):

объектов в базе нужно примерно в два раза больше -> больше ресурсов для поддержки
создавать вручную объекты HUB, LINK и SAT очень сложно, возникает много ошибок, которые нужно искать и исправлять -> нужно сначала создать фреймворк для автоматической генерации объектов и процедур загрузки. Кто-нибудь встречал готовые? Я не нашёл.
На базе raw data vаult создаём историческое измерение для отчёта — в реляционной базе происходит cartesian product. Да, мы знаем, что набор комбинаций ограничен, но связи n:m энтерпрайз-сущностей в недельном промежутке времени вводит базу данных в невыводимый ступор.
Для решения этой проблемы придумали бизнес data vаult — это ещё один уровень абстракции, не отменяющий витрину данных (data mart), потому что он всё ещё медленный. Уровень абстракции добавляет объектов и усложняет поиск ошибок в логике бизнес процессов.
Бизнес анализ на базе business data vault получается весьма неэффективным. Причина: источники данных разлагаются на простые формы HUB, LINK и SAT. На следующем уровне снова воссоздаётся бизнес логика.
Например, в отчёте вы видите ошибку и спускаетесь по-уровням хранилища до data vault, а тут нет бизнес логики, проследить ошибку часто бывает невозможным.

Всё ещё считаю, что самая дешёвая и эффективная методология от Кимбалла.

0

am-habr May 11 2020 at 09:51

Почти угадали :-) Через 3 года сделал апгрейд, с Raspi2 до Raspi3+, это и есть рабочий компьютер. Основные сложности:

почему-то я могу открывать любые документы и медиа файлы, а другие могут только .doc
после сходить распечатать с usb появляются exe и bat файлы, не хотят открываться
устал всем отвечать: у меня вирусов нет

После поломки домашнего старенького ноутбука с убунтой, родители проявили самостоятельность и купили новый с виндой. И тут я снова превратился в отдел сапорта. Решение было быстрым — Fedora.
Мне кажется, что многих людей заставили застрять в десятых годах этого века. Линукс с его десктопным оформлением очень сильно подтянулся и лет пять назад обогнал винду в цене, удобности и скорости. Ubuntu, Fedora, Debian удобно ставятся из коробки, единственное — нужно включить несвободные репозитории и нет этой тягомотии с кодеками.
Нет игр, но их полно онлайн и в телефоне, где им и место.

+1

am-habr May 5 2020 at 21:37

Поставьте родителям своей девушки и бросьте ее.

Поставил отцу на рабочий компьютер. Три года жалоб не поступало.

0

am-habr May 4 2020 at 22:13

Да не наберет он пользовательской базы. Люди идут покупать компьютер. А ОС — это часто синоним компьютеру.
lenovo yoga производится с сигнатурой MS, чтобы другого нельзя было поставить. Нужно это потребителям или нет — решать не им.

0

am-habr May 4 2020 at 22:00

Пост хороший.
Моё первое знакомство с Linux RH в 1999 закончилось в пользу Windows. Причина — отсутствие нормального интернета. К 2011 году полностью разочаровался во второй и попробовал KDE, Ubuntu, Debian и Fedora. Проект Raspberry Pi оставил меня в Debian.

Чем больше читал и пробовал, тем больше меня удивляла простота, надёжность и логичность всей экосистемы. Это просто другой мир, всё по-другому сделано и сделано очень хорошо.

Вначале бесило то, что каждая программа — это свой мир со своими названиями, параметрами и особенно сокращениями. Но это и есть свобода выбора написания ПО, пот. каждая програма написана для своей цели своей командой.
Радует постоянное улучшение производительности и интерфейса в мире Linux в отличие от MS.
ПО молодых команд стремится к абстракциям, что ведёт к замедлению.
Возможно проект Raspberry Pi взрастит новое поколение специалистов, свободных от предрассудков «домохозяев».

0

Реверс-инжиниринг антиблокировщика рекламы BlockAdBlock

am-habr Apr 27 2020 at 14:19

Поддерживаю мнение о ресурсах. Рекламные блоки начинают снимать отпечатки пальцев, чтобы пользователя идентифицировать. Если есть кулер и открыть штук десять сайтиков с рекламой, то во время загрузки можно сушить волосы.
Потраченные дополнительные ресурсы пользователей никто не считает.

0

Коронавирус: опасная иллюзия неопасности

am-habr Apr 25 2020 at 01:02

Вирус и вызываемые им болезни — опасны. Предпринятые меры считаю верными. Но начинает быть заметен перебор, когда статистикой и дальнейшими мерами злоупотребляют.
Например, в первые недели во всех изданиях показывали 3 метрики без подробного описания и которые сравнивать по странам нельзя. Последнюю неделю на первый план выходит исключительно число новых заражённых.

Нашёл канал, где Dr. Bodo Schiffmann объясняет про статистику и охватывает много аспектов этой проблемы www.youtube.com/watch?v=C_gMzRlsKlg

+1

Знаменитые дизайнеры vs научные исследования про читаемость шрифтов

am-habr Apr 25 2020 at 00:43

Господин Stanislas Dehaene написал книгу о своём 20ти-летнем опыте исследования мозга. Его презентация, как мозг учится читать: www.youtube.com/watch?v=25GI3-kiLdo
На вопрос какие буквы лучше читаются, он ответил, что скорость чтения и понимания зависит не от шрифтов, а от того, как нас учили читать в детстве. Чем больше закорючек и разнообразных букв видят дети, тем быстрее и легче им будет потом читать и учить языки.

Интернет-шрифтов всего 15, стандартных. Но научных обоснований (исследований) нет. Есть просто правила, к которым пришли эмпирическим путём. Скорее всего, потому что их придумали инженеры, а не учёные. С тех пор они не подвергались сомнению, кроме, разве что, дизайнерами.

Есть интервью Джонатана Айва (ссылку не нашёл), где он рассказывает, зачем и почему создают новые шрифты, связано это именно с особенностями новых экранов.

+3

Как вирус Эбола научил нас работать с данными про заражения, а мы забыли все его уроки

am-habr Apr 14 2020 at 18:20

Хороший ответ. Никак не сравнивать, пот. условия для данных разные.
Нашёл пример, из которого понятно, что ничего из всех этих данных не понятно
www.youtube.com/watch?v=54XLXg4fYsc

0

FOSS News №11 — обзор новостей свободного и открытого ПО за 6 — 12 апреля 2020 года

am-habr Apr 12 2020 at 21:24

Практически всё перечисленное ПО — свободное или скорее условно свободное (для использования), но не открытое. Открытое — это опен сурс. Или я ошибаюсь?

0

4