Pull to refresh
14
0.1
Андрей Марченко @am-habr

Business Intelligence / DWH

Send message

Проверка разметки сайтов-участников W3C

Reading time2 min
Views3.1K
Учитывая возможные сложности с дорогой на собеседование в одну известную фирму, я запланировал один час как запас времени. Два поезда не пришли и запас времени быстро закончился. В приглашении вместо номера телефона и емейла была ссылка на корпоративный сайт, где можно отправить сообщение любому работнику.

Оказалось, что сайт живёт своей собственной жизнью, если его открыть с мобильного телефона. В результате, простая отправка сообщения об опоздании заняла у меня 20 минут и четверть заряда аккумулятора, которого до этого была только половина.

Это был случай, когда технологии, которым я стал доверять, подвели меня.

Позже я заметил, что технологии стали подводить всё чаще и стал меньше на них полагаться.
Читать дальше →
Total votes 10: ↑9 and ↓1+12
Comments9

Сколько данных может обработать Raspberry Pi быстро

Reading time3 min
Views7.8K
Время обработки данных в одном знакомом мне проекте энтерпрайз-хранилища данных с реляционной моделью составляет почти 2,5 часа. Много это или мало?

Заметка описывает эксперимент по созданию маленькой копии энтерпрайз-хранилища данных с сильно ограниченными техническими условиями. А именно, на базе одноплатного компьютера Raspberry Pi.

Модель и архитектура будут упрощёнными, но похожими на энтерпрайз-хранилище. Результатом является оценка возможности использования Raspberry Pi в области обработки и анализа данных.


Читать дальше →
Total votes 10: ↑4 and ↓60
Comments17

Биография зарплаты в Германии 2019

Reading time2 min
Views24K
Привожу неполный перевод исследования «Развитие зарплаты в зависимости от возраста». Гамбург, август 2019

Кумулятивный доход специалистов в зависимости от их возраста в евро брутто

image
Читать дальше →
Total votes 27: ↑24 and ↓3+21
Comments63

Мониторинг ETL-процессов в маленьком хранилище данных

Reading time6 min
Views6.6K
Многие используют специализированные инструменты для создания процедур извлечения, трансформации и загрузки данных в реляционные базы данных. Процесс работы инструментов логируется, ошибки фиксируются.

В случае ошибки в логе содержится информация о том, что инструменту не удалось выполнить задачу и какие модули (часто это java) где остановились. В последних строках можно найти ошибку базы данных, например, нарушение уникального ключа таблицы.

Чтобы ответить на вопрос, какую роль играет информация об ошибках ETL, я классифицировал все проблемы, произошедшие за последние два года в немаленьком хранилище.

image
Читать дальше →
Total votes 16: ↑14 and ↓2+12
Comments4

Чем живёт домашний интернет и статистика сервера доменных имён

Reading time6 min
Views6.1K
Домашний роутер (в данном случае FritzBox) умеет многое регистрировать: сколько трафика когда ходит, кто с какой скоростью подключён и т.п. Узнать, что скрывается под непонятными адресатами, мне помог сервер доменных имён (DNS) в локальной сети.

В целом, DNS оказал положительное влияние на домашнюю сеть: добавил скорость, устойчивость и управляемость.

Ниже приведена диаграмма, которая вызвала вопросы и необходимость разбираться в происходящем. В результатах уже отфильтрованы известные и рабочие запросы к серверам доменных имён.

По какой причине каждый день опрашиваются 60 непонятных доменов во время, когда все ещё спят?

Каждый день опрашиваются 440 неизвестных доменов в активное время. Кто это такие и что они делают?
Читать дальше →
Total votes 15: ↑12 and ↓3+9
Comments16

Больше статистики сайта в своём маленьком хранилище

Reading time10 min
Views2.4K
Анализируя статистику сайта, мы получаем представление о том, что происходит с ним. Результаты мы сопоставляем с другими знаниями о продукте или сервисе и этим улучшаем наш опыт.

Когда анализ первых результатов завершён, прошло осмысление информации и сделаны выводы, начинается следующий этап. Возникают идеи: а что будет, если посмотреть на данные с другой стороны?

На этом этапе есть ограничения инструментов анализа. Это одна из причин, почему мне было недостаточно инструмента Google Analytics, а именно, из-за ограниченной возможности видеть свои данные и манипулировать ими.

Всегда хотелось быстро загрузить базовые данные (мастер-данные), добавить другой уровень агрегации или иначе интерпретировать имеющиеся значения.

Это легко сделать в своём маленьком хранилище на основе файла access.log и для этого достаточно языка SQL.
Читать дальше →
Total votes 9: ↑9 and ↓0+9
Comments2

Статистика сайта и своё маленькое хранилище

Reading time9 min
Views6.4K
Утилита Webalizer и инструмент Google Analytics помогали мне много лет получать представление о том, что происходит на веб сайтах. Сейчас я понимаю, что они дают очень мало полезной информации. Имея доступ к своему файлу access.log, разобраться со статистикой очень просто и для реализации достаточно элементарных инструментов, таких как sqlite, html, языка sql и любого скриптового языка программирования.

Источником данных для Webalizer является файл access.log сервера. Так выглядят его столбики и цифры, из которых понятен лишь общий объём трафика:

image
Читать дальше →
Total votes 28: ↑26 and ↓2+24
Comments2

Качество данных в хранилище

Reading time4 min
Views4.6K
Качество данных в хранилище является важной предпосылкой к получению ценной информации. Плохое качество ведёт к негативной цепной реакции в долгосрочной перспективе.
Сначала теряется доверие к предоставленной информации. Люди начинают меньше использовать Business Intelligence приложения, потенциал приложений остаётся не востребованным.
В результате, под вопрос ставятся дальнейшие инвестиции в аналитический проект.

Ответственность за качество данных


Аспект, связанный с улучшением качества данных, является мегаважным в BI проектах. Однако, он не является привилигией только технических специалистов.
Читать дальше →
Total votes 12: ↑10 and ↓2+8
Comments1

Information

Rating
3,309-th
Location
Unterföhring, Bayern, Германия
Registered
Activity