Как стать автором
Обновить
24
Карма
0
Рейтинг
Aleksandr Goida @ETman

Software Developer

Создание Data Lake и Warehouse на GCP

В нашем случае, файлы мы используем, главным образом, чтобы иметь оригинальные данные, которые сохраниются "как есть". А аналитику вcю делаем в BigQuery, предварительно выполнив обработку файлов, приведя их к некоему формату и добавив в BQ таблицы. Таким образом мы обрабатываем входящие данные, практически, сразу, как они попадают в Data Lake. Поэтому мы ушли сначала от Parquet к Avro, а потом от Avro к JSON. В нашем случае, данные поступают с сильно разной схемой от записи к записи. Буквально, в одном и том же файле должны находиться данные с разным кол-вом колонок (в том числе и во вложенных стркутурах). Хотя, я сейчас допускаю, что мы не нашли, как это сделать в Avro.

Если не сложно, можете, пожалуйста, рассказать немного подробнее, какого характера у Вас аналитические запросы к самим файлам и как часто вы их выполняете?

Создание Data Lake и Warehouse на GCP

А можно пассивно-агресивный тон убрать из дискуссии?

Спасибо за указание неточности в тесте. Изучу внимательнее этот момент. Судя по еще и этой статье https://www.adaltas.com/en/2021/03/22/performance-comparison-of-file-formats/ разница не столь существенна. Возможно, в каких-то сценариях важна. У вас это важный момент?

Создание Data Lake и Warehouse на GCP

Привет, про evolution формат я не понял пункт. Он да, поддерживает, но не так как Avro, я написал, по-моему, об этом.

На счет сжатия, я не был бы так категоричен, как Вы. Но я не тестировал развернуто именно этот аспект. Вот тут есть сравнение (раздерл Preliminary tests): https://ericdraken.com/comparison-time-series-data-transport-formats/ Из которого видно, что нельзя быть категоричным, и что нужны всегда детали. Avro в этом сравнении, при определенных настройках, имеет лучшее сжатие, чем Parquet.

Сотрудники-нолики

По-моему, креативных людей (и работают много и замотивированы, судя по описанию), которые пытаются смотреть на задачи шире и что-то привнести в проект, назвали "ноликами". Со всеми вытекающими...

Конечно, стинные детали мне не известны.

Немного о собеседованиях с позиции .net разработчика

Очень субъективный текст. Сложно с чем-то спорить, не потому, что это неправильно. Оно правильное, но не понятно к чему претензии в итоге.

Например, тестовые задания. У людей, которые пашут по 10-14 часов времени писать ЕЩЁ те товары задания нет. А "типа интересные" вообще нет. Но с другой стороны, что-то нужно дать для проверки навыка программирования и анализа задания. Не слишком сложные, но довольно открытое, чтобы увидеть как думает кандидат. Поэтому даёшь "не интересное" задание. Если человек его решил, то как минимум есть тема для дискуссии и понятно что замотивирован.

Создание Dataflow шаблона для стриминга данных из Pub/Sub в BigQuery на базе GCP с помощью Apache Beam SDK и Python

Сдается мне, что с Kafka и KSQL вы залочены на кафку.

Google перестанет поддерживать сторонние cookie-файлы в Chrome

Интересно, будет ли относительно равноценной замена на LocalStorage, IndexedDB, или WebSQL?

Мне трудно оценить, т.к. не сильно продвинут в данных вещах. По идее, не должно быть проблемы, если и до этого кука создавалась для конкретного домена. Например, чтобы определить что это один и тот же физический юзер, который использует разные аккаунты. Конечно, если он прошаренный, он потрет и куки, и LocalStorage, и IndexedDB, и WebSQL. Но не все такие.

Да и если можно вопрос в догонку: а как прошаренного юзера определить, что он с одного и того же браузера/компа/места? Идеи?

Переключатели функциональности (feature toggles): виды, преимущества и работа с ними в .NET

Понравился Bullet train. Я сравнивал его с Vault. Мне нужен был сервер для хранения настроек (чтобы не в файлах и не в config-maps). Vault слишком громоздкий. Bullet train выглядит как очень быстрое и функциональное решение. Поднимай в Docker или k8s и «Вуаяля!». Имеет .NET клиент, что для нас важно. Но можно испоьзовать голый REST что позволяет его дергать еще и из скриптов. В общем, выглядит очень хорошо. Планируем ставить на проде.

Кто-нибудь его «очернить» может?

Запуск cron внутри Docker-контейнера

Согласен. Но вопрос именно про Docker.

Запуск cron внутри Docker-контейнера

А появилось ли что-нибудь новое для запуска крон-джобов в Docker за последние три+ года? Мне, как .NET девелоперу без большого бекграунтда в командной строке Linux, смотря на описанное в статье, хочется написать простое консольное приложение с Quartz.NET и делать там все что нужно, понимая где логи, как они пишутся и пр. и пр.

Развертывание в Docker и Kubernetes образа StatsD+Grafana

Мне понравились курсы от Google на Coursera. Очень понятно и с возможностью реально попробовать все в лабораторных. А относительно других Ваших вопросов пока ничего не могу сказать. Планирую в другой статье больше уделить внимания написанию Dockerfile для .NET Core и различных сеттингов деплойментов, в том числе конфиг-мапы. Не знаю, будет ли это Вам полезно.

Уперся — прокачался, или Три истории о том, как айтишники скилы меняли

Почему нет? От бекендщика обычно ожидается, что он разбирается не только в написании алгоритмов, но и понимает как это взаимодествует со всеми частями многослойной системы. Конечно, UI может быть сложным, но всё же гораздо чаще сложная логика и взаимодействие между сервисами пишутся на бекенде, нежели на фронте. Т.о. в общем-то это прогресс.

Подборка датасетов для машинного обучения

Хорошая подборка. А можно тоже самое, только на английском? С Коллегами поделиться…

Полем грядки вовремя, или 5 признаков скрытых проблем в команде

Хм… Это ваш опыт вам подсказывает так однобоко воспринимать информацию в статье?
Спасибо за мнение.

Полем грядки вовремя, или 5 признаков скрытых проблем в команде

не понятно на каком основании вы делаете вывод об однобокости. это ваша субьективная оценка. предоставьте факты, тогда обсуждение будет предметным. хотя бы примеры какие-то.

Полем грядки вовремя, или 5 признаков скрытых проблем в команде

вы сваливаете всё в одну кучу. проблемы бизнеса можно решать по-разному. но есть принципы, которых, на мой взгляд, следует придерживаться, если хочется построить нормальную крепкую команду. и это не относится к проблемам разряда «потрачу не 40 часов, а 160, зато с душой!».
но вы сами решаете что вам и вашей команде важно.

Проверь себя: сможете ли вы защитить компанию от кибератаки?

мне интересно, DNS-tunneling может помочь обойти, например, great china firewall?

Несколько простых рекомендаций работы в команде

Ок. Надо поправить заголовок.

Несколько простых рекомендаций работы в команде

А как определить человек с каким типом мышления (или обучения) перед тобой?

Информация

В рейтинге
Не участвует
Откуда
Lozenets, Sofiya, Болгария
Дата рождения
Зарегистрирован
Активность