Pull to refresh
3
0
Андрей Григорьев @eigrad

Linux, Python

Send message

В чем проблема для отладки запустить локально airflow? Не сложнее чем dagster. Суть в том, что dagster лучше приспособлен для написания удобно тестируемых пайплайнов обработки, он для этого предоставляет более правильные абстракции. На airflow тоже можно выстроить все что нужно, просто придется подумать об этом заранее и самостоятельно.

// адепт dagster, который отлаживается коммитами в продакшн :-(

Два года как перешёл на Dagster. Airflow можно закапывать.

Радует что хотя бы Jenkins не забыт, но вообще на дворе почти 2025й...

Ни одной чем-то выдающейся CI/CD системы не упомянуто. Только попсовые и встроенные куда-то. Стоило чуть-чуть рассказать про такие системы как Argo, Concourse, Drone. Да хоть про Buildkite.

Использовать учебные проекты с курсов для демонстрации своих навыков

Для джунов - вполне допустимо.

А так - статья как статья на самом деле норм. Видимо минусуют за Ютуб.

Технический специалист тратит буквально 2-3 минуты на оценку профиля кандидата и даёт свой ответ HR.

Геральд-скрывающий-боль.jpg. Для не совсем шлака (если нормальный HR - для любого дошедшего до меня резюме), чуть ли не полноценный osint провожу. В среднем уходит от 10 минут до получаса на кандидата :-(.

Ещё стоит спросить яндексоидов не надо ли вам включить эту штуку при работе с их S3 - https://iceberg.apache.org/docs/1.7.0/aws/?h=write.object+storage.enabled#object-store-file-layout.

Для онлайн запросов по Iceberg-данным у меня часто используется Clickhouse, правда у меня объемы данных в таблицах куда ходит Clickhouse - совсем небольшие, витрины с агрегатами, единицы миллионов записей. Пробовали ли поставить Clickhouse (или вообще какую-нибудь Impala/Presto/Trino) как фронтенд для feature-store?

Про Maintainance - речь же в первую очередь должна быть про "Compact data files", должен быть какой-то регулярный процесс, как бэкграунд мержи в clickhouse. А удаление старых файлов метаданных не должно повлиять на выполнение запросов примерно никак.

Не зря технология называется Iceberg, потому что с первого взгляда кажется – простой инструмент, а оказывается что столько всего скрыто, что можно изучать и изучать.

Apache Iceberg является более лучшей версией Hive Meta Store (HMS).

Iceberg неплохо работает с Hive Metastore, и точно не является его "версией". Не могли бы вы уточнить что вы имеете ввиду?

Вау! Респект что вышли из тени, но работать с Iceberg из Spark 3.1? Да и сам Iceberg кучу родовых травм успел починить по пути к актуальной 1.7.

Пробовали ли выйти из заморозки работать на свежей версии?)

PV над NFS... Ну допустим, хотя применимость весьма ограничена, не знаю что там ваши компоненты делают. Отказоустойчивость NFS через DRBD? Тут уже стоит хорошенько задуматься. DRBD между ДЦ - а вы проверяли как хорошо это работает? Обычно это ужасная идея.

2 зоны для отказоустойчивой системы? Окей, раз переключение вручную. Но если переключение вручную, то может это уже disaster recovery и стоит рассмотреть более простые и надёжные инструменты с чуть худшим RPO? Насколько это критично для CI/CD?

Почему не запустить три копии системы в разных ДЦ, и не реализовать масштабируемость и отказоустойчивость на прикладном уровне, а не на уровне платформы?

Стоит спросить у той LLM, которая помогала писать статью, какие альтернативы существуют кроме executorch для запуска llm'ок на мобилках, и сравниться с ними.

На основе топ-5 полученных точных имен сущностей и отношений, схожих с теми, что были извлечены на первом этапе

А сколько есть различных сущностей имеющих одинаковое написание?

Очень спорный алгоритм работы с триплетами описан в статье. Применимость результатов полученных с его использованием вызывает у меня сомнения.

БЯМ - каждый раз глаз режет это сокращение. Назвали бы хоть БоЯзМ-ами, было бы по-русски и оригинально обыгрывало страх грядущей эпохи человека под гнетом машин. А лучше аббревиатуру и вовсе не переводить, а то так и до МШП (Мирово-Широкой-Паутины) дойдём.

Сделайте service mesh простой и понятный и отвязанный от кубера, пока на envoy таких нет.

sed -i 's/nginx/angie/g' $(find repos -name Dockerfile)

мы значительно превосходим оригинальный ClickHouse: у нас в 3,5–4 раза выше плотность хранения

Система класса "Пегий дудочник"?

Пользовался jupyterlab + jupyter-collaboration extension. Результаты сохранял в notion / Google drive. В целом работает, но сыровато и велосипед. Надо потестить вашу штуку.

А я вообще ожидал увидеть туториал по какому-нибудь lark-parser. Ну, или на крайний случай что смогу зайти и с умным видом сказать "вы написали кравлер, а не парсер". А тут "как скачать данные stack overflow используя requests". Не всегда ожидания оправдываются, да уж.

Information

Rating
2,052-nd
Location
Лимассол, Government controlled area, Кипр
Date of birth
Registered
Activity