В чем проблема для отладки запустить локально airflow? Не сложнее чем dagster. Суть в том, что dagster лучше приспособлен для написания удобно тестируемых пайплайнов обработки, он для этого предоставляет более правильные абстракции. На airflow тоже можно выстроить все что нужно, просто придется подумать об этом заранее и самостоятельно.
// адепт dagster, который отлаживается коммитами в продакшн :-(
Ни одной чем-то выдающейся CI/CD системы не упомянуто. Только попсовые и встроенные куда-то. Стоило чуть-чуть рассказать про такие системы как Argo, Concourse, Drone. Да хоть про Buildkite.
Технический специалист тратит буквально 2-3 минуты на оценку профиля кандидата и даёт свой ответ HR.
Геральд-скрывающий-боль.jpg. Для не совсем шлака (если нормальный HR - для любого дошедшего до меня резюме), чуть ли не полноценный osint провожу. В среднем уходит от 10 минут до получаса на кандидата :-(.
Для онлайн запросов по Iceberg-данным у меня часто используется Clickhouse, правда у меня объемы данных в таблицах куда ходит Clickhouse - совсем небольшие, витрины с агрегатами, единицы миллионов записей. Пробовали ли поставить Clickhouse (или вообще какую-нибудь Impala/Presto/Trino) как фронтенд для feature-store?
Про Maintainance - речь же в первую очередь должна быть про "Compact data files", должен быть какой-то регулярный процесс, как бэкграунд мержи в clickhouse. А удаление старых файлов метаданных не должно повлиять на выполнение запросов примерно никак.
Не зря технология называется Iceberg, потому что с первого взгляда кажется – простой инструмент, а оказывается что столько всего скрыто, что можно изучать и изучать.
Apache Iceberg является более лучшей версией Hive Meta Store (HMS).
Iceberg неплохо работает с Hive Metastore, и точно не является его "версией". Не могли бы вы уточнить что вы имеете ввиду?
PV над NFS... Ну допустим, хотя применимость весьма ограничена, не знаю что там ваши компоненты делают. Отказоустойчивость NFS через DRBD? Тут уже стоит хорошенько задуматься. DRBD между ДЦ - а вы проверяли как хорошо это работает? Обычно это ужасная идея.
2 зоны для отказоустойчивой системы? Окей, раз переключение вручную. Но если переключение вручную, то может это уже disaster recovery и стоит рассмотреть более простые и надёжные инструменты с чуть худшим RPO? Насколько это критично для CI/CD?
Почему не запустить три копии системы в разных ДЦ, и не реализовать масштабируемость и отказоустойчивость на прикладном уровне, а не на уровне платформы?
Стоит спросить у той LLM, которая помогала писать статью, какие альтернативы существуют кроме executorch для запуска llm'ок на мобилках, и сравниться с ними.
БЯМ - каждый раз глаз режет это сокращение. Назвали бы хоть БоЯзМ-ами, было бы по-русски и оригинально обыгрывало страх грядущей эпохи человека под гнетом машин. А лучше аббревиатуру и вовсе не переводить, а то так и до МШП (Мирово-Широкой-Паутины) дойдём.
Пользовался jupyterlab + jupyter-collaboration extension. Результаты сохранял в notion / Google drive. В целом работает, но сыровато и велосипед. Надо потестить вашу штуку.
А я вообще ожидал увидеть туториал по какому-нибудь lark-parser. Ну, или на крайний случай что смогу зайти и с умным видом сказать "вы написали кравлер, а не парсер". А тут "как скачать данные stack overflow используя requests". Не всегда ожидания оправдываются, да уж.
В чем проблема для отладки запустить локально airflow? Не сложнее чем dagster. Суть в том, что dagster лучше приспособлен для написания удобно тестируемых пайплайнов обработки, он для этого предоставляет более правильные абстракции. На airflow тоже можно выстроить все что нужно, просто придется подумать об этом заранее и самостоятельно.
// адепт dagster, который отлаживается коммитами в продакшн :-(
Два года как перешёл на Dagster. Airflow можно закапывать.
Радует что хотя бы Jenkins не забыт, но вообще на дворе почти 2025й...
Ни одной чем-то выдающейся CI/CD системы не упомянуто. Только попсовые и встроенные куда-то. Стоило чуть-чуть рассказать про такие системы как Argo, Concourse, Drone. Да хоть про Buildkite.
Для джунов - вполне допустимо.
А так - статья как статья на самом деле норм. Видимо минусуют за Ютуб.
Геральд-скрывающий-боль.jpg. Для не совсем шлака (если нормальный HR - для любого дошедшего до меня резюме), чуть ли не полноценный osint провожу. В среднем уходит от 10 минут до получаса на кандидата :-(.
Ещё стоит спросить яндексоидов не надо ли вам включить эту штуку при работе с их S3 - https://iceberg.apache.org/docs/1.7.0/aws/?h=write.object+storage.enabled#object-store-file-layout.
Для онлайн запросов по Iceberg-данным у меня часто используется Clickhouse, правда у меня объемы данных в таблицах куда ходит Clickhouse - совсем небольшие, витрины с агрегатами, единицы миллионов записей. Пробовали ли поставить Clickhouse (или вообще какую-нибудь Impala/Presto/Trino) как фронтенд для feature-store?
Про Maintainance - речь же в первую очередь должна быть про "Compact data files", должен быть какой-то регулярный процесс, как бэкграунд мержи в clickhouse. А удаление старых файлов метаданных не должно повлиять на выполнение запросов примерно никак.
Iceberg неплохо работает с Hive Metastore, и точно не является его "версией". Не могли бы вы уточнить что вы имеете ввиду?
Вау! Респект что вышли из тени, но работать с Iceberg из Spark 3.1? Да и сам Iceberg кучу родовых травм успел починить по пути к актуальной 1.7.
Пробовали ли
выйти из заморозкиработать на свежей версии?)PV над NFS... Ну допустим, хотя применимость весьма ограничена, не знаю что там ваши компоненты делают. Отказоустойчивость NFS через DRBD? Тут уже стоит хорошенько задуматься. DRBD между ДЦ - а вы проверяли как хорошо это работает? Обычно это ужасная идея.
2 зоны для отказоустойчивой системы? Окей, раз переключение вручную. Но если переключение вручную, то может это уже disaster recovery и стоит рассмотреть более простые и надёжные инструменты с чуть худшим RPO? Насколько это критично для CI/CD?
Почему не запустить три копии системы в разных ДЦ, и не реализовать масштабируемость и отказоустойчивость на прикладном уровне, а не на уровне платформы?
Prophet в сравнении нет?..
Стоит спросить у той LLM, которая помогала писать статью, какие альтернативы существуют кроме executorch для запуска llm'ок на мобилках, и сравниться с ними.
А сколько есть различных сущностей имеющих одинаковое написание?
Очень спорный алгоритм работы с триплетами описан в статье. Применимость результатов полученных с его использованием вызывает у меня сомнения.
БЯМ - каждый раз глаз режет это сокращение. Назвали бы хоть БоЯзМ-ами, было бы по-русски и оригинально обыгрывало страх грядущей эпохи человека под гнетом машин. А лучше аббревиатуру и вовсе не переводить, а то так и до МШП (Мирово-Широкой-Паутины) дойдём.
Сделайте service mesh простой и понятный и отвязанный от кубера, пока на envoy таких нет.
sed -i 's/nginx/angie/g' $(find repos -name Dockerfile)
Система класса "Пегий дудочник"?
Пользовался jupyterlab + jupyter-collaboration extension. Результаты сохранял в notion / Google drive. В целом работает, но сыровато и велосипед. Надо потестить вашу штуку.
А я вообще ожидал увидеть туториал по какому-нибудь lark-parser. Ну, или на крайний случай что смогу зайти и с умным видом сказать "вы написали кравлер, а не парсер". А тут "как скачать данные stack overflow используя requests". Не всегда ожидания оправдываются, да уж.