Как стать автором
Обновить
14
0
Андрей Марченко @am-habr

Business Intelligence / DWH

Отправить сообщение

Проверка разметки сайтов-участников W3C

Время на прочтение2 мин
Количество просмотров3.1K
Учитывая возможные сложности с дорогой на собеседование в одну известную фирму, я запланировал один час как запас времени. Два поезда не пришли и запас времени быстро закончился. В приглашении вместо номера телефона и емейла была ссылка на корпоративный сайт, где можно отправить сообщение любому работнику.

Оказалось, что сайт живёт своей собственной жизнью, если его открыть с мобильного телефона. В результате, простая отправка сообщения об опоздании заняла у меня 20 минут и четверть заряда аккумулятора, которого до этого была только половина.

Это был случай, когда технологии, которым я стал доверять, подвели меня.

Позже я заметил, что технологии стали подводить всё чаще и стал меньше на них полагаться.
Читать дальше →
Всего голосов 10: ↑9 и ↓1+12
Комментарии9

Сколько данных может обработать Raspberry Pi быстро

Время на прочтение3 мин
Количество просмотров7.8K
Время обработки данных в одном знакомом мне проекте энтерпрайз-хранилища данных с реляционной моделью составляет почти 2,5 часа. Много это или мало?

Заметка описывает эксперимент по созданию маленькой копии энтерпрайз-хранилища данных с сильно ограниченными техническими условиями. А именно, на базе одноплатного компьютера Raspberry Pi.

Модель и архитектура будут упрощёнными, но похожими на энтерпрайз-хранилище. Результатом является оценка возможности использования Raspberry Pi в области обработки и анализа данных.


Читать дальше →
Всего голосов 10: ↑4 и ↓60
Комментарии17

Биография зарплаты в Германии 2019

Время на прочтение2 мин
Количество просмотров24K
Привожу неполный перевод исследования «Развитие зарплаты в зависимости от возраста». Гамбург, август 2019

Кумулятивный доход специалистов в зависимости от их возраста в евро брутто

image
Читать дальше →
Всего голосов 27: ↑24 и ↓3+21
Комментарии63

Мониторинг ETL-процессов в маленьком хранилище данных

Время на прочтение6 мин
Количество просмотров6.5K
Многие используют специализированные инструменты для создания процедур извлечения, трансформации и загрузки данных в реляционные базы данных. Процесс работы инструментов логируется, ошибки фиксируются.

В случае ошибки в логе содержится информация о том, что инструменту не удалось выполнить задачу и какие модули (часто это java) где остановились. В последних строках можно найти ошибку базы данных, например, нарушение уникального ключа таблицы.

Чтобы ответить на вопрос, какую роль играет информация об ошибках ETL, я классифицировал все проблемы, произошедшие за последние два года в немаленьком хранилище.

image
Читать дальше →
Всего голосов 16: ↑14 и ↓2+12
Комментарии4

Чем живёт домашний интернет и статистика сервера доменных имён

Время на прочтение6 мин
Количество просмотров6.1K
Домашний роутер (в данном случае FritzBox) умеет многое регистрировать: сколько трафика когда ходит, кто с какой скоростью подключён и т.п. Узнать, что скрывается под непонятными адресатами, мне помог сервер доменных имён (DNS) в локальной сети.

В целом, DNS оказал положительное влияние на домашнюю сеть: добавил скорость, устойчивость и управляемость.

Ниже приведена диаграмма, которая вызвала вопросы и необходимость разбираться в происходящем. В результатах уже отфильтрованы известные и рабочие запросы к серверам доменных имён.

По какой причине каждый день опрашиваются 60 непонятных доменов во время, когда все ещё спят?

Каждый день опрашиваются 440 неизвестных доменов в активное время. Кто это такие и что они делают?
Читать дальше →
Всего голосов 15: ↑12 и ↓3+9
Комментарии16

Больше статистики сайта в своём маленьком хранилище

Время на прочтение10 мин
Количество просмотров2.4K
Анализируя статистику сайта, мы получаем представление о том, что происходит с ним. Результаты мы сопоставляем с другими знаниями о продукте или сервисе и этим улучшаем наш опыт.

Когда анализ первых результатов завершён, прошло осмысление информации и сделаны выводы, начинается следующий этап. Возникают идеи: а что будет, если посмотреть на данные с другой стороны?

На этом этапе есть ограничения инструментов анализа. Это одна из причин, почему мне было недостаточно инструмента Google Analytics, а именно, из-за ограниченной возможности видеть свои данные и манипулировать ими.

Всегда хотелось быстро загрузить базовые данные (мастер-данные), добавить другой уровень агрегации или иначе интерпретировать имеющиеся значения.

Это легко сделать в своём маленьком хранилище на основе файла access.log и для этого достаточно языка SQL.
Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Комментарии2

Статистика сайта и своё маленькое хранилище

Время на прочтение9 мин
Количество просмотров6.4K
Утилита Webalizer и инструмент Google Analytics помогали мне много лет получать представление о том, что происходит на веб сайтах. Сейчас я понимаю, что они дают очень мало полезной информации. Имея доступ к своему файлу access.log, разобраться со статистикой очень просто и для реализации достаточно элементарных инструментов, таких как sqlite, html, языка sql и любого скриптового языка программирования.

Источником данных для Webalizer является файл access.log сервера. Так выглядят его столбики и цифры, из которых понятен лишь общий объём трафика:

image
Читать дальше →
Всего голосов 28: ↑26 и ↓2+24
Комментарии2

Качество данных в хранилище

Время на прочтение4 мин
Количество просмотров4.5K
Качество данных в хранилище является важной предпосылкой к получению ценной информации. Плохое качество ведёт к негативной цепной реакции в долгосрочной перспективе.
Сначала теряется доверие к предоставленной информации. Люди начинают меньше использовать Business Intelligence приложения, потенциал приложений остаётся не востребованным.
В результате, под вопрос ставятся дальнейшие инвестиции в аналитический проект.

Ответственность за качество данных


Аспект, связанный с улучшением качества данных, является мегаважным в BI проектах. Однако, он не является привилигией только технических специалистов.
Читать дальше →
Всего голосов 12: ↑10 и ↓2+8
Комментарии1

Информация

В рейтинге
Не участвует
Откуда
Unterföhring, Bayern, Германия
Зарегистрирован
Активность