Ваша оценка времени оказалась достаточно точной. Показал заметку ответственному за Экзадату специалисту.
EXTERNAL TABLE неожиданно реализовалось и время первого этапа составило 10 минут вместо 90. Полный цикл обработки — 70 минут.
Благодаря комментариям обнаружил, что какой-то жук задеплоил очень старый файл конфигурации для загрузки файла и уже давно. Поправлю и измерю ещё раз время.
Oracle Database 18c. Ваши замечания и вопросы верные и логичные.
Для описания причин нужно писать статью, но такие плохо читаются и сильно минусуются энтерпрайзом, пот. быстро уходят в сторону «эффективных менеджеров» (уже поробовал и удалил про конфликт интересов).
Один аспект. Все операции тем эффективные, чем ближе к железу.
Например, метод внешних таблиц в Оракле будет очень быстрым.
Но нужно иметь расширенные права к диску и окружению. Часто даже к ОС, тут сложно становится с гарантийным обслуживанием.
Администратор БД, чел. по безопасности и аналитик будут испытывать конфликт интересов (одни не занимаются содержимым, другие могут что-нибудь сломать).
Но есть другой способ — sqlloader, гибкий и не сильно быстрый. Можно быстро, но должно лежать рядом с базой и тут снова конфликт.
Оптимизация и распределение знаний в проекте тоже являются причиной конфликта интересов. Тот, кто с паролем и всё может, будет концентрировать знания вокруг себя, что приведёт к проблеме в случае его отсутствия.
Быстро загрузить — не всегда эффективно.
Поэтому во втором случае PHP для файла, чтобы сохранить баланс :)
Про скорость Exadata согласен: в случае ошибок проще сделать резервную копию и перегрузить таблицы целиком, чем исправлять, так быстрее.
В Exadata всё включено, диски SSD, всё параллельно, нагрузка равномерно распределена, таблицы с партициями, с большой компрессией, статистика собрана, пакеты скомпилированы для выполнения нативно и параллельно.
Но это ведь не один SQL Select Insert и не измерение скорости Exadata. Она действительно быстра, спору нет.
Идея была описать время всего цикла интеграции относительно количества исходных данных.
На это время влияют факторы:
— дедубликация, очистка данных, форматы (используются условия, строковые функции, преобразования)
— вызов функций из другого пакета
— подключение других таблиц для формирования ссылки
— загрузка исторических таблиц
Было бы интересно узнать примеры из других проектов. Сколько времени требуется до готовности отчётов.
При написании SQL ориентируюсь на скорость 100K в секунду для одного запроса вставки в таблицу. Эксперимент описывает интеграцию данных. Из исходных данных загружаются измерения и агрегаты.
Общее время, необходимое для интеграции делится на количество исходных записей.
Метод загрузки файла выбран не самый быстрый, его можно оптимировать, но в 2 раза, а не на порядок.
Но и метод с PHP не самый быстрый, поэтому этот шаг можно считать эквивалентным.
Схема, которая помогла мне понять смысл хабов и линков:
Есть момент, который я так и не понял в этой архитектуре, вернее не нашёл в публикациях. Откуда она возникла, какую задачу решала изначально.
Например, облачные технологии и БигДата являются побочным продуктом интернет-гигантов, которые предлагают использовать свои методологии в других сферах.
DATA VAULT описывает хранение в реляционной базе больших данных и предлагает делать из этого Business Intelligence. Но механизм удаления бизнес логики и воссоздание её в поздних слоях вредит эффективному анализу данных.
Тоже самое касается использования в целях Business Intelligence и анализа бизнес процессов стека Kibana с базой Elasticsearch. Это пример, когда технологии используются не с той целью, для которой были созданы.
Хотелось бы узнать о контексте или области хранилища. Потому что мой опыт в телекоммуникации был скорее отрицательным относительно data vault.
Бизнес data vault часто является уровнем для анализа бизнес процессов или поиска ошибок в них. Даже PIT и BRIDGE таблицы не сильно упрощают запрос, если его пишет бизнес-аналитик, а не разработчик. Эти объекты призваны решить техническую проблему со связями n:m
Для восстановления бизнес логики понадобится гигантский запрос со сложными условиями по датам, что добавляет вероятности ошибок.
Хороший пост про основы этой новой методологии. Три года назад мне повезло её опробовать.
Результат в сравнении с хранением в нормальной форме (по Инмону, где нормализуются сущности в централизованных хранилищах):
объектов в базе нужно примерно в два раза больше -> больше ресурсов для поддержки
создавать вручную объекты HUB, LINK и SAT очень сложно, возникает много ошибок, которые нужно искать и исправлять -> нужно сначала создать фреймворк для автоматической генерации объектов и процедур загрузки. Кто-нибудь встречал готовые? Я не нашёл.
На базе raw data vаult создаём историческое измерение для отчёта — в реляционной базе происходит cartesian product. Да, мы знаем, что набор комбинаций ограничен, но связи n:m энтерпрайз-сущностей в недельном промежутке времени вводит базу данных в невыводимый ступор.
Для решения этой проблемы придумали бизнес data vаult — это ещё один уровень абстракции, не отменяющий витрину данных (data mart), потому что он всё ещё медленный. Уровень абстракции добавляет объектов и усложняет поиск ошибок в логике бизнес процессов.
Бизнес анализ на базе business data vault получается весьма неэффективным. Причина: источники данных разлагаются на простые формы HUB, LINK и SAT. На следующем уровне снова воссоздаётся бизнес логика.
Например, в отчёте вы видите ошибку и спускаетесь по-уровням хранилища до data vault, а тут нет бизнес логики, проследить ошибку часто бывает невозможным.
Всё ещё считаю, что самая дешёвая и эффективная методология от Кимбалла.
Почти угадали :-) Через 3 года сделал апгрейд, с Raspi2 до Raspi3+, это и есть рабочий компьютер. Основные сложности:
почему-то я могу открывать любые документы и медиа файлы, а другие могут только .doc
после сходить распечатать с usb появляются exe и bat файлы, не хотят открываться
устал всем отвечать: у меня вирусов нет
После поломки домашнего старенького ноутбука с убунтой, родители проявили самостоятельность и купили новый с виндой. И тут я снова превратился в отдел сапорта. Решение было быстрым — Fedora.
Мне кажется, что многих людей заставили застрять в десятых годах этого века. Линукс с его десктопным оформлением очень сильно подтянулся и лет пять назад обогнал винду в цене, удобности и скорости. Ubuntu, Fedora, Debian удобно ставятся из коробки, единственное — нужно включить несвободные репозитории и нет этой тягомотии с кодеками.
Нет игр, но их полно онлайн и в телефоне, где им и место.
Да не наберет он пользовательской базы. Люди идут покупать компьютер. А ОС — это часто синоним компьютеру.
lenovo yoga производится с сигнатурой MS, чтобы другого нельзя было поставить. Нужно это потребителям или нет — решать не им.
Пост хороший.
Моё первое знакомство с Linux RH в 1999 закончилось в пользу Windows. Причина — отсутствие нормального интернета. К 2011 году полностью разочаровался во второй и попробовал KDE, Ubuntu, Debian и Fedora. Проект Raspberry Pi оставил меня в Debian.
Чем больше читал и пробовал, тем больше меня удивляла простота, надёжность и логичность всей экосистемы. Это просто другой мир, всё по-другому сделано и сделано очень хорошо.
Вначале бесило то, что каждая программа — это свой мир со своими названиями, параметрами и особенно сокращениями. Но это и есть свобода выбора написания ПО, пот. каждая програма написана для своей цели своей командой.
Радует постоянное улучшение производительности и интерфейса в мире Linux в отличие от MS.
ПО молодых команд стремится к абстракциям, что ведёт к замедлению.
Возможно проект Raspberry Pi взрастит новое поколение специалистов, свободных от предрассудков «домохозяев».
Поддерживаю мнение о ресурсах. Рекламные блоки начинают снимать отпечатки пальцев, чтобы пользователя идентифицировать. Если есть кулер и открыть штук десять сайтиков с рекламой, то во время загрузки можно сушить волосы.
Потраченные дополнительные ресурсы пользователей никто не считает.
Вирус и вызываемые им болезни — опасны. Предпринятые меры считаю верными. Но начинает быть заметен перебор, когда статистикой и дальнейшими мерами злоупотребляют.
Например, в первые недели во всех изданиях показывали 3 метрики без подробного описания и которые сравнивать по странам нельзя. Последнюю неделю на первый план выходит исключительно число новых заражённых.
Господин Stanislas Dehaene написал книгу о своём 20ти-летнем опыте исследования мозга. Его презентация, как мозг учится читать: www.youtube.com/watch?v=25GI3-kiLdo
На вопрос какие буквы лучше читаются, он ответил, что скорость чтения и понимания зависит не от шрифтов, а от того, как нас учили читать в детстве. Чем больше закорючек и разнообразных букв видят дети, тем быстрее и легче им будет потом читать и учить языки.
Интернет-шрифтов всего 15, стандартных. Но научных обоснований (исследований) нет. Есть просто правила, к которым пришли эмпирическим путём. Скорее всего, потому что их придумали инженеры, а не учёные. С тех пор они не подвергались сомнению, кроме, разве что, дизайнерами.
Есть интервью Джонатана Айва (ссылку не нашёл), где он рассказывает, зачем и почему создают новые шрифты, связано это именно с особенностями новых экранов.
Хороший ответ. Никак не сравнивать, пот. условия для данных разные.
Нашёл пример, из которого понятно, что ничего из всех этих данных не понятно www.youtube.com/watch?v=54XLXg4fYsc
Практически всё перечисленное ПО — свободное или скорее условно свободное (для использования), но не открытое. Открытое — это опен сурс. Или я ошибаюсь?
просто исправили ошибки html на главной странице, текст её тоже прежний остался, последняя новость 07.07.2020
EXTERNAL TABLE неожиданно реализовалось и время первого этапа составило 10 минут вместо 90. Полный цикл обработки — 70 минут.
Почему все хотят видеть техническую статью, не привязанную к реальности?
Вы встречали организацию без организационно-бюрократических проблем?
Или где доступ к параметрам ОС, в которой стоит база, раздают всем желающим.
Есть ли информация о том, сколько у Вас в среднем времени проходит от external table до готового отчёта?
Для описания причин нужно писать статью, но такие плохо читаются и сильно минусуются энтерпрайзом, пот. быстро уходят в сторону «эффективных менеджеров» (уже поробовал и удалил про конфликт интересов).
Один аспект. Все операции тем эффективные, чем ближе к железу.
Например, метод внешних таблиц в Оракле будет очень быстрым.
Но нужно иметь расширенные права к диску и окружению. Часто даже к ОС, тут сложно становится с гарантийным обслуживанием.
Администратор БД, чел. по безопасности и аналитик будут испытывать конфликт интересов (одни не занимаются содержимым, другие могут что-нибудь сломать).
Но есть другой способ — sqlloader, гибкий и не сильно быстрый. Можно быстро, но должно лежать рядом с базой и тут снова конфликт.
Оптимизация и распределение знаний в проекте тоже являются причиной конфликта интересов. Тот, кто с паролем и всё может, будет концентрировать знания вокруг себя, что приведёт к проблеме в случае его отсутствия.
Быстро загрузить — не всегда эффективно.
Поэтому во втором случае PHP для файла, чтобы сохранить баланс :)
В Exadata всё включено, диски SSD, всё параллельно, нагрузка равномерно распределена, таблицы с партициями, с большой компрессией, статистика собрана, пакеты скомпилированы для выполнения нативно и параллельно.
Но это ведь не один SQL Select Insert и не измерение скорости Exadata. Она действительно быстра, спору нет.
Идея была описать время всего цикла интеграции относительно количества исходных данных.
На это время влияют факторы:
— дедубликация, очистка данных, форматы (используются условия, строковые функции, преобразования)
— вызов функций из другого пакета
— подключение других таблиц для формирования ссылки
— загрузка исторических таблиц
Было бы интересно узнать примеры из других проектов. Сколько времени требуется до готовности отчётов.
Общее время, необходимое для интеграции делится на количество исходных записей.
Метод загрузки файла выбран не самый быстрый, его можно оптимировать, но в 2 раза, а не на порядок.
Но и метод с PHP не самый быстрый, поэтому этот шаг можно считать эквивалентным.
Есть момент, который я так и не понял в этой архитектуре, вернее не нашёл в публикациях. Откуда она возникла, какую задачу решала изначально.
Например, облачные технологии и БигДата являются побочным продуктом интернет-гигантов, которые предлагают использовать свои методологии в других сферах.
DATA VAULT описывает хранение в реляционной базе больших данных и предлагает делать из этого Business Intelligence. Но механизм удаления бизнес логики и воссоздание её в поздних слоях вредит эффективному анализу данных.
Тоже самое касается использования в целях Business Intelligence и анализа бизнес процессов стека Kibana с базой Elasticsearch. Это пример, когда технологии используются не с той целью, для которой были созданы.
Бизнес data vault часто является уровнем для анализа бизнес процессов или поиска ошибок в них. Даже PIT и BRIDGE таблицы не сильно упрощают запрос, если его пишет бизнес-аналитик, а не разработчик. Эти объекты призваны решить техническую проблему со связями n:m
Для восстановления бизнес логики понадобится гигантский запрос со сложными условиями по датам, что добавляет вероятности ошибок.
Результат в сравнении с хранением в нормальной форме (по Инмону, где нормализуются сущности в централизованных хранилищах):
Например, в отчёте вы видите ошибку и спускаетесь по-уровням хранилища до data vault, а тут нет бизнес логики, проследить ошибку часто бывает невозможным.
Всё ещё считаю, что самая дешёвая и эффективная методология от Кимбалла.
После поломки домашнего старенького ноутбука с убунтой, родители проявили самостоятельность и купили новый с виндой. И тут я снова превратился в отдел сапорта. Решение было быстрым — Fedora.
Мне кажется, что многих людей заставили застрять в десятых годах этого века. Линукс с его десктопным оформлением очень сильно подтянулся и лет пять назад обогнал винду в цене, удобности и скорости. Ubuntu, Fedora, Debian удобно ставятся из коробки, единственное — нужно включить несвободные репозитории и нет этой тягомотии с кодеками.
Нет игр, но их полно онлайн и в телефоне, где им и место.
Поставил отцу на рабочий компьютер. Три года жалоб не поступало.
lenovo yoga производится с сигнатурой MS, чтобы другого нельзя было поставить. Нужно это потребителям или нет — решать не им.
Моё первое знакомство с Linux RH в 1999 закончилось в пользу Windows. Причина — отсутствие нормального интернета. К 2011 году полностью разочаровался во второй и попробовал KDE, Ubuntu, Debian и Fedora. Проект Raspberry Pi оставил меня в Debian.
Чем больше читал и пробовал, тем больше меня удивляла простота, надёжность и логичность всей экосистемы. Это просто другой мир, всё по-другому сделано и сделано очень хорошо.
Вначале бесило то, что каждая программа — это свой мир со своими названиями, параметрами и особенно сокращениями. Но это и есть свобода выбора написания ПО, пот. каждая програма написана для своей цели своей командой.
Радует постоянное улучшение производительности и интерфейса в мире Linux в отличие от MS.
ПО молодых команд стремится к абстракциям, что ведёт к замедлению.
Возможно проект Raspberry Pi взрастит новое поколение специалистов, свободных от предрассудков «домохозяев».
Потраченные дополнительные ресурсы пользователей никто не считает.
Например, в первые недели во всех изданиях показывали 3 метрики без подробного описания и которые сравнивать по странам нельзя. Последнюю неделю на первый план выходит исключительно число новых заражённых.
Нашёл канал, где Dr. Bodo Schiffmann объясняет про статистику и охватывает много аспектов этой проблемы www.youtube.com/watch?v=C_gMzRlsKlg
На вопрос какие буквы лучше читаются, он ответил, что скорость чтения и понимания зависит не от шрифтов, а от того, как нас учили читать в детстве. Чем больше закорючек и разнообразных букв видят дети, тем быстрее и легче им будет потом читать и учить языки.
Интернет-шрифтов всего 15, стандартных. Но научных обоснований (исследований) нет. Есть просто правила, к которым пришли эмпирическим путём. Скорее всего, потому что их придумали инженеры, а не учёные. С тех пор они не подвергались сомнению, кроме, разве что, дизайнерами.
Есть интервью Джонатана Айва (ссылку не нашёл), где он рассказывает, зачем и почему создают новые шрифты, связано это именно с особенностями новых экранов.
Нашёл пример, из которого понятно, что ничего из всех этих данных не понятно
www.youtube.com/watch?v=54XLXg4fYsc