Comments / Profile of am-habr / Habr

Андрей Марченко @am-habr

Business Intelligence / DWH

ProfileArticles8PostsNewsComments160

Чем живёт домашний интернет и статистика сервера доменных имён

am-habr Aug 16 2019 at 14:34

Готовых решений DNS много, pihole подошёл бы тоже. Целью было получение опыта работы с сервером и его логом, результат был бонусом. Исследование запросов дало информацию о тенденциях в интернете, в полном объёме разбор повторять не буду.

+2

Чем живёт домашний интернет и статистика сервера доменных имён

am-habr Aug 16 2019 at 13:40

Полагаю, Вы намекаете на то, что вне дома всё равно всё трекается и блокировки операторов активны, реклама доставляется в полном объёме и не стоит, вообще, париться. И Вы правы и я не парился.
Вытекающих причин для паранои много, но основная причина, всё-таки, реклама, она просто надоедает и раздражает. Нахождение дома можно ведь сделать комфортнее.

+2

Чем живёт домашний интернет и статистика сервера доменных имён

am-habr Aug 16 2019 at 12:56

С Office365 Вы правы. Будет включён снова.
Ночью по LAN ходят стандартные: ntp, local, nas, dyndns и т.п. В 6:50 утра весь народ в доме спит, включается WLAN. В первый 10ти минутный период опрашиваются около 60 доменов из списка «Самые первые».
Часть их составляют ...data.microsoft.com, windowsupdate.microsoft.com, googleapis, accounts.google и т.п.
Но большая часть самых первых является функциональной.

0

Чем живёт домашний интернет и статистика сервера доменных имён

am-habr Aug 16 2019 at 11:44

Да, полегчало и даже дало ожидаемые результаты.
Теперь, при желании послушать музыку в youtube, выдаёт не «жили у бабуси два весёлых гуся», а более нейтральный список.
И рекламы стало сильно поменьше. Больше не показывают мне диван, который я уже купил.

+6

Статистика сайта и своё маленькое хранилище

am-habr Aug 15 2019 at 19:27

Думаю, что понимаю, о чём Вы пишите. Готовых решений, конечно же, хватает.
Как правило, в подобных решенях 90% всего уже готово. Остаётся всего 10% того, что нужно сделать — это нюансы бизнеса.
В конечном счёте, реализация этих 10ти процентов оказывается самой дорогой частью проекта.

Статья — учебная, в ней сделана попытка реализовать нюансы в ограниченных условиях, а именно, с помощью SQL. Потому что SQL — это лишь текст, который можно прочитать.

0

Больше статистики сайта в своём маленьком хранилище

am-habr Aug 14 2019 at 06:00

Спасибо. Поправил.

0

Не работайте в плохих проектах

am-habr Aug 13 2019 at 11:35

Важно понимать одну ключевую идею: нет смысла пытаться улучшить плохой проект. Это нерационально.

Плохой проект находится в пограничных условиях. Плохой возможно он потому, что находится на завершающем этапе своей жизни. Этап этот может быть, правда, и затяжным.
Но нет лозунгов, никто не бьёт себя в грудь и не кричит, какие мы крутые, нет тим-билдингов и веселухи. В плохом проекте очень хорошо видно, насколько эффективна попытка, сделать его лучше, нужно о-очень сильно постараться. В этом-то и соль.
Много времени проводить в таких проектах — нерационально, однако попробовать не помешает.

0

Вселенная отчётности на SAP

am-habr Jul 31 2019 at 22:29

… создали сервис, который при звонке клиента по номеру его телефона автоматически открывает отчёт и показывает оператору всю историю покупок звонящего

Недельный отчёт открывается 30мин. А сколько времени открывается операционный при звонке клиента?
В своё время в похожем проекте приняли 10 секунд как максимально терпимое.
Недельные отрабатывали тоже по полчаса. Это всё было 11 лет назад. Вот интересно, что изменилось с тех пор.

0

Геопозиция и геолокация: мега-инструмент

am-habr Jul 25 2019 at 21:46

геолокация по ip — это, безусловно, крутой инструмент. Только не нашёл в статье самого интересного — механизма, но он описан на сайте у maxmind.

Числа в IP-адресе разделены на две части: одна часть содержит идентификатор Вашей сети, а вторая часть содержит информацию о местоположении.

это утверждение не верно. По самому номеру невозможно определить местоположение и это — замечательное свойство интернета. Локацию определяют по косвенным параметрам.

0

Семь раз отмерь, один раз внедри BI инструмент

am-habr Jul 23 2019 at 11:07

Спасибо за замечание. По комментарию, безусловно, сложно судить. Хочу добавить.

— Первым в моём списке оказался стек технологий IBM cognos на базе данных оракла. Застал конец миграции ETL c Informatica на пакеты pl/SQL, т.к. первая перестала справляться. 4 года в области построения отчётов. У cognos сложновато с настройкой и управлением BI инфраструктуры.

— Следующим был стек от SAP и 6 лет с ним. Всё делали BO и BODI средствами. Когда вышел новый релиз без поддержки старого, мы встряли с нашими 4мя тысячами джобов. За год всё переделали на оракл пакеты, репортинг остался на SAP, позже его мигрировали в Tableau. sap тогда казался круче когноса.

— Потом достался BI от оракла и одно хранилище со стеком MS. Полгода ковырялись. Про ODI и OBIEE вообще не хочу писать, это каменный век. Всё это мигрировали в базу оракла и Tableau для репортов. Заодно все сервера перевели на линукс.

— Последние 2 года работа приносит удовольствие, потому что можно сосредоточиться на анализе данных, а не разбираться, почему программы живут своей жизнью. При этом хранилище побольше, чем были до этого: за ночь обрабатывается 10,5 миллиардов записей. Кубы (у Табло они называются экстрактами) тоже большие, но они полезны для аналитиков, чтобы оффлайн работать. Для регулярных отчётов технология кубов устарела, машины справляются если модель быстрая.
— Ещё используем knime, но не продуктивно, а для помощи в анализе, если нужно локально преобразовать данные.

При этом мне сложно представить как мои MS AS кубы на десятки Гб после процессинга запихнуть в Tableau

я бы попробовал «в лоб» решить: сохранить это дело в CSV и просто перетащить в Tableau desktop. Пробовал с одним миллиардом записей — работает, минут 15 думает и проглатывает. Можно упаковать в hyper, тогда файл будет раз в сто меньше и летать как эксель.
Миграция или рефакторинг — это, конечно, целая тема, отдельная.

0

Семь раз отмерь, один раз внедри BI инструмент

am-habr Jul 23 2019 at 06:57

Всё дело во времени. Эффективность работы с данными определяет успех затеи BI. Разница во времени реализации проекта различными программными продуктами составляет уже не разы, а порядки.
Если говорить о деталях, то в продуктах, описанных в статье, нужно гораздо меньше кликать. Миллион записей для человека — это очень много, но в современных системах их ещё больше и нужны адекватные инструменты, чтобы понять, что там происходит.
Если добавить факторы version control, code review, team collaboration, то бывшим гигантам нужно позволить уйти на покой.

0

Семь раз отмерь, один раз внедри BI инструмент

am-habr Jul 22 2019 at 18:40

Отличная статья, обзор современных и мощных инструментов работы с данными, без устаревших и убогих продуктов от sap, ibm и microsoft. Могу высказать мнение о Tableau, с которым активно работаю 2 года.

«В Tableau не предусмотрены version control, code review, team collaboration, как и нет продуманной среды разработки и тестирования»

— все объекты автоматически версионируются, всё на сервере можно откатить. Исходный код артефактов — XML, т.е. версионирование в github не проблема, что мы и делаем.
team collaboration — этого нет.
Но есть: — очень быстрая работа с большими данными, миллиард строк — не проблема, отображает быстрее, чем эксель свой миллион.
— полноценная система управления правами доступа.
— рассылка данных в форматах pdf, csv, картинки. При этом без костылей, всё красиво и ровно.
— создание не только дашбоардов, но и «data story», топ-менеджмент в восторге.
И ещё замечание

главная сложность, с которой сталкивается половина DS — это грязные данные [2]). Основной проблемой в этом случае, очевидно, будет трудоемкость и неэффективность использования времени аналитиков.

Всегда считал, что хороший аналитик делает именно эту работу: правила, как из грязных данных получить чистые. В грязных данных вся соль. И кто, как ни аналитик, найдёт логическую ошибку в SQL, ведь только он знает, что нужно получить на выходе.

0

Вам есть что скрывать

am-habr Jul 22 2019 at 16:54

GDPR помог изыскать 10 млрд евро с концернов, которым от этого стало не сильно хуже. Сама реализация отстала от своего времени лет на 10. В реальности от него больше вреда, чем пользы. Политики во всех странах одинаковые.

С приватностью мы имеем феномен. С одной стороны продаём себя с потрахами за пункты и скидку в магазине, у всех есть скидочная карта. С другой — орём, как сумасшедшие по поводу сохранённого айпи. Но нашу информацию нам же потом много раз продают.

0

Битва за аккаунт. Основатель сети Jeffrey’s Coffee подаёт в суд на ВКонтакте

am-habr Jul 22 2019 at 15:00

К своему сожалению, как-то обнаружил, что в 2019 году на веб страницы и собственные домены люди больше не ходят, интернет с людьми принадлежит соц. сетям и поисковикам.
Но вот вконтакте сильно подотстал с технологиями.
"… так как текущий владелец подтвердил право доступа" — это он типа прислал смс с нового номера. Им бы этот номер на особый контроль взять, а не отписки писать.

+12

Как отличить хороший SCRUM от плохого, используя подход основоположника квантовых вычислений

am-habr Jul 22 2019 at 14:39

Раздел «Теория Разумных Объяснений Дэвида Дойча» интересен. Насколько я понял, это анализ теорий с целью получить формулу, которая может помочь в процессе решения проблемы. Это полезно, т.к. представляет собой передачу опыта.
Скрам — это не только фреймворк для организации процесса. Где-то на хабре была уже ссылка на «the future of programming» youtu.be/ecIWPzGEbFc
на минуте 01:03:00 как раз про него. Т.е. час он рассказывал про исторические причины, приведшие к идее скрам.
И там же было, почему вопрос «что нужно работать?» превратился в «как нужно работать?»

0

7 штук, которые точно не надо делать при открытии кружка робототехники. Вот совсем не надо делать

am-habr Jul 12 2019 at 14:01

Такой кружок определил моё хобби и повлиял на выбор проф. деятельности. Это хорошее дело.
Мы ходили с одноклассником туда. И в 93 году детей выгоняли. Думаю, они не изменились.
Помню, что было не понятно, почему выгоняют или кричат. Ну иногда шумновато становилось или кто-то сильно отвлекался.
Мне кажется, что уровень квалификации работы с детьми недооценен. Пункт про преподавателя важный. Опыт с детьми — это нужно, актуальность знаний о них не менее важна.
Ведь разный их возраст имеет свои психологические особенности.
Мне было не прикольно ходить одному, потому что друг спалил последний транзистор, его выгнали и он больше не приходил.

+2

Технические отличия BI систем (Power BI, Qlik Sense, Tableau)

am-habr Jul 12 2019 at 10:13

Не совсем понял, именно этот выбор представителей, т.к. Tableau дороговат в их нише и кто их всех туда поставил.
Но напишу про Tableau, т.к. спустя 10 лет интенсивной работы с продуктами BI от IBM, SAP и Oracle, возвращаться назад точно не буду.
Порог вхождения. Если знакомы с SAP или IBM Cognos, то 0 — всё тоже самое, только всё лишнее убрано.
Tableau cервер можно поставить и у себя, есть под win и linux. На Linux получается существенно производительней.
Отличается от ВСЕХ остальных подходов в моделировании. Tableau даёт строить только один контекст на базе фактовой таблицы, зато контексты(модели) строятся быстро. Вероятность ошибок в модели сильно уменьшается. Есть нюанс с обновлением моделей, но нужно просто чётко отладить процесс, чтобы не оставалось дохлых моделей на сервере. Можно откатить, на сервере всё версионируется.

Если модель в базе данных правильно организована, например, индексы, ссылающиеся поля одинаково названы, типы унифицированны, то в Tableau вы просто дважды кликаете и все связи строятся автоматически, названия колонок, типы полей. Потом не нужно тыщу раз кликать, как в других продуктах.

Проект и его артефакты создаются тоже в пределах контекста, как блокнот, куда вы пишите заметки. Деление в других продктах происходит по функиональному принципу, что при большом количестве проектов и артефактов требует гораздо больших человекозатрат.
Блокнот или книга очень удобны, если использовать экстракты (кубы по-старому). Позволяет работать без доступа к базе.

До сих пор не видел ни одного продукта, который так быстро работает и визуализирует большие данные. Вы создаёте экстракт данных на полмиллиарда записей и оно работает в разы быстрее excel-я с его возможным миллионом.

Такой возможности на лету подключить данные из всех возможных источников для исследования самих данных, ни у кого не видел.

Отправляет pdf, csv, картинки так, как вы нарисовали. Одна строчка кода на сервере и оно отправляется в красивом виде и сырые данные и любые картинки и пдф.

ETL у них — это побочный продукт, вообще весь ETL должен быть в виде SQL и заниматься им должна база данных, но это другая тема.

Цена Tableau может испугать, конечно, и все обучения дорогие, пот. учат делать вещи, которые дорого и вредно в BI делать.
Кароче, современный инструмент, современный подход к обработке больших данных. Экономит людей.

0

Агро-робот с ИИ научился аккуратно собирать с грядки только созревший салат

am-habr Jul 11 2019 at 09:28

Мне кажется, что люди, занимающиеся сельским хозяйством, считать умеют очень хорошо. Стоимость трех человек с ноутбуком и рука робота будет примерно такой же, как армия желающих подработать на уборке урожая людей, умноженная на, скажем, на 50. А если эта штуковина сломается посреди поля в разгар урожая, то всё, каюк. Т.е. ещё полвека можно не париться, а алгоритм сбора корректировать путём инструктажа.

-1

На пенсию в 22

am-habr Jul 10 2019 at 08:00

В описанном вами режиме пробовал работать пять лет. Усталость иногда наваливается — это да. Мешки под глазами, глаза красные, хочеться иногда поругаться. Пару дней поспать, на шашлычок с друзьями или на лодке погребсти — и снова погнал.
Работу менять при усталости или даже выгорании не обязательно, теряется ценный опыт, когда можно проследить жизненный цикл продуктов.
Один знакомый лет десять программировал, потом купил трактор такой, который лес режет, сделался ИПом. И компьютер кроме как для новостей больше не пользует. Вот это называется выгорел.

+2

«Сгоревшие» сотрудники: есть ли выход?

am-habr Jul 10 2019 at 07:22

Можно ведь и не годовую, и не на месяц, а просто — эквивалентную усталости. У каждого ведь есть отпуск и каждый сам решает, когда он устал. А если в отпуске не хватает дней, то за счёт премии их количество увеличивается.

+1

1 2 ...

8