Вопрос цены в чем? "не знаю зачем оно, но если бесплатно то так уж и быть возьму"? Очевидно эта штука не для домашних игорей, она будет в 2-3 раза дороже сопоставимого по мощности конфига с дискретной картой.
Очень классно что пишете такие статьи с роадмэпами на хабр! Спасибо!
YQL и MapReduce. Продолжаем внедрение формата Arrow для чтения и записи таблиц — он позволяет обрабатывать данные быстрее благодаря блочному представлению.
А в каком формате YQL сейчас передает данные?
Речь же про arrow как input/output формат для MR джоб? неужели раньше не было поддержки? что значит "внедрение"?
Не хочу быть очередным капитаном, но раз хочется что-то написать в комменты, то напишу что рад за кого-то кому так легко удается нормальный небольшой продакшн поддерживать силами одного PHP-разработчика, и если бы он знал чуток базу то свалил бы в какой-нибудь ВК, так что правильно что наняли кого-то кто не знает :-).
Серьезно, сложно же найти такого человека адекватного? (статья то вроде неплохо написана)
Нужен какой-то identity, привязанный к сервису, и способ его аутентификации. Например, если в облаках - то к сервису привязывается выделенная для него AWS IAM Role, для которой обвязка AWS предоставляет сервису временные AWS-креды, с помощью которых сервис генерирует нужный материал для аутентификации в Vault (в котором специально настраивается бакенд аутентификации AWS), или для Google Cloud просто проверяется OIDC-токен сервис-аккаунта соответствующего сервису (тоже нужно настроить соответствующий бакенд в Vault). В случае k8s тоже можно аутентифицироваться в vault через oidc токен сервис аккаунта пода.
Если не в облаке, то в статье упоминается AppRole аутентификация, в рамках которой штука, которая запускает или деплоит ваш сервис, получает в Vault секретную строку, которую ваш сервис сможет обменять (одноразово, в течении какого времени) на токен.
Направлять трафик выходящий из первого прокси, во второй, и так далее, и только последний прокси в цепочке будет обращаться к целевому ресурсу. Такой себе tor - вручную и на минималках.
Круто, если бы не сидел на 1password family account (который идёт бесплатно к рабочему), то заюзал бы. Хотя наверное всё-таки нет, потому что до 1password был pass, скорее все таки туда бы добавил otp плагин.
А есть документация и нормальное описание что сделали? Сравнение производительности таких таблиц с Clickhouse и Ytsaurus на аналогичном по вычислительной мощности железе?
Средство против python-разработчиков. Нет, не потому что не обратит внимание на "ещё один python" в списке задач. А потому что застрелится когда посмотрит на код.
И не говори, сначала GraphQL свой убогий в M**a придумал и впаривал всему миру, теперь вот выгнали - пошел в мамкины стартаперы впаривать всем как надо данные в пайплайнах правильно ворочать, какой негодяй!
В чем проблема для отладки запустить локально airflow? Не сложнее чем dagster. Суть в том, что dagster лучше приспособлен для написания удобно тестируемых пайплайнов обработки, он для этого предоставляет более правильные абстракции. На airflow тоже можно выстроить все что нужно, просто придется подумать об этом заранее и самостоятельно.
// адепт dagster, который отлаживается коммитами в продакшн :-(
Вопрос цены в чем? "не знаю зачем оно, но если бесплатно то так уж и быть возьму"? Очевидно эта штука не для домашних игорей, она будет в 2-3 раза дороже сопоставимого по мощности конфига с дискретной картой.
Круто что arrow-rs / datafusion стек проникает в Spark. Ещё круче будет когда ballista дорастет до полноценной платформы, и можно будет жить без JVM.
Сравнивали ли с Gluten? Clickhouse в роли вычислителя звучит ещё интереснее, чем datafusion. Или оно про другое?
А где им ещё запускаться? (или вы прям юнит тесты там же компилите и гоняете? o_0)
Как вообще community, хватает ли кому-нибудь маны чтобы пилить фичи которые в Яндексе не особо нужны?
Как у YTsaurus с работой с внешними данными? Есть ли способ эффективно считать Iceberg из S3 и обработать его в YQL?
(и в обратную сторону, сложно ли научить Spark запущенный снаружи читать данные которые лежат в YTsaurus?)
Как насчет Dagster?
Очень классно что пишете такие статьи с роадмэпами на хабр! Спасибо!
А в каком формате YQL сейчас передает данные?
Речь же про arrow как input/output формат для MR джоб? неужели раньше не было поддержки? что значит "внедрение"?
Не хочу быть очередным капитаном, но раз хочется что-то написать в комменты, то напишу что рад за кого-то кому так легко удается нормальный небольшой продакшн поддерживать силами одного PHP-разработчика, и если бы он знал чуток базу то свалил бы в какой-нибудь ВК, так что правильно что наняли кого-то кто не знает :-).
Серьезно, сложно же найти такого человека адекватного? (статья то вроде неплохо написана)
Нужен какой-то identity, привязанный к сервису, и способ его аутентификации. Например, если в облаках - то к сервису привязывается выделенная для него AWS IAM Role, для которой обвязка AWS предоставляет сервису временные AWS-креды, с помощью которых сервис генерирует нужный материал для аутентификации в Vault (в котором специально настраивается бакенд аутентификации AWS), или для Google Cloud просто проверяется OIDC-токен сервис-аккаунта соответствующего сервису (тоже нужно настроить соответствующий бакенд в Vault). В случае k8s тоже можно аутентифицироваться в vault через oidc токен сервис аккаунта пода.
Если не в облаке, то в статье упоминается AppRole аутентификация, в рамках которой штука, которая запускает или деплоит ваш сервис, получает в Vault секретную строку, которую ваш сервис сможет обменять (одноразово, в течении какого времени) на токен.
Направлять трафик выходящий из первого прокси, во второй, и так далее, и только последний прокси в цепочке будет обращаться к целевому ресурсу. Такой себе tor - вручную и на минималках.
poetry ломалась раза три, и это только после выхода 1.0
Круто, если бы не сидел на 1password family account (который идёт бесплатно к рабочему), то заюзал бы. Хотя наверное всё-таки нет, потому что до 1password был pass, скорее все таки туда бы добавил otp плагин.
А что с блогами на других платформах - твиттер и офф.сайт технологии YDB?
А есть документация и нормальное описание что сделали? Сравнение производительности таких таблиц с Clickhouse и Ytsaurus на аналогичном по вычислительной мощности железе?
Средство против python-разработчиков. Нет, не потому что не обратит внимание на "ещё один python" в списке задач. А потому что застрелится когда посмотрит на код.
И не говори, сначала GraphQL свой убогий в M**a придумал и впаривал всему миру, теперь вот выгнали - пошел в мамкины стартаперы впаривать всем как надо данные в пайплайнах правильно ворочать, какой негодяй!
Перевод не очень, статья сложная и много ошибок в критичных для понимания местах.
В чем проблема для отладки запустить локально airflow? Не сложнее чем dagster. Суть в том, что dagster лучше приспособлен для написания удобно тестируемых пайплайнов обработки, он для этого предоставляет более правильные абстракции. На airflow тоже можно выстроить все что нужно, просто придется подумать об этом заранее и самостоятельно.
// адепт dagster, который отлаживается коммитами в продакшн :-(
Два года как перешёл на Dagster. Airflow можно закапывать.
Радует что хотя бы Jenkins не забыт, но вообще на дворе почти 2025й...