Comments / Profile of Yo1 / Habr

Yo! @Yo1^{read⁠-⁠only}

Developer

ProfileArticles3PostsNewsComments370

Spark schemaEvolution на практике

Yo1 Oct 19 2020 at 14:56

что прилетело то и записали. интересно, что потом партнер с успешной экспертизой говорит, когда аудит у клиента в такой неконтролируемой помойке найдут персональные данные и натянет по полной за хранение?

+1

Базы данных: большой обзор типов и подходов. Доклад Яндекса

Yo1 Oct 8 2020 at 06:12

блокировочный read committed ставит shared блокировку лишь на одну единственную запись из огромной выборки необходимой для чтения, соответственно параллельным транзакциям ничего не мешает апдейтить записи, что уже были считаны.
ознакомьтесь с основами.

0

Базы данных: большой обзор типов и подходов. Доклад Яндекса

Yo1 Oct 6 2020 at 08:44

Read committed, чтение фиксированных данных. Этот уровень изоляции используется по умолчанию в большинстве реляционных баз, в том числе и в PostgreSQL, и в Oracle. Он гарантирует, что вы никогда не прочитаете «грязные» данные. То есть другая транзакция никогда не видит промежуточных этапов первой транзакции. Преимущество в том, что это очень хорошо подходит для маленьких коротких запросов. Мы гарантируем, что у нас никогда не будет ситуации, когда мы видим какие-то части данных, недописанные данные. Например, увеличиваем зарплату целому отделу и не видим, когда только часть людей получили прибавку, а вторая часть сидит с неиндексированной зарплатой. Потому что если у нас будет такая ситуация, логично, что наша аналитика сразу «поедет».

в целом написана ерунда. read committed из стандарта ANSI не гарантирует консистентность данных на момент старта запроса. такие гарантии дают оракл и постгрес т.к. на самом деле у них более строгий read committed, чем требует стандарт. тот же mssql на read committed может прочесть одну и ту же запись несколько раз, если по мере чтения запись куда-то переезжала (например из одной партиции в другую). по той же причине может пропустить запись. и такая лажа, как минимум по мнению майкрософт, соответствует стандарту.
sqlperformance.com/2014/04/t-sql-queries/the-read-committed-isolation-level

+1

PostgreSQL 14: Часть 1 или «июльский разогрев» (Коммитфест 2020-07)

Yo1 Aug 14 2020 at 20:21

а что там с undo на оракловый манер? vacum когда выпилят?

0

Что помешало экипажу Crew Dragon выйти из корабля?

Yo1 Aug 4 2020 at 19:04

если перелогинюсь факты как-то изменятся?

0

Что помешало экипажу Crew Dragon выйти из корабля?

Yo1 Aug 4 2020 at 14:53

Не всегда получается задуманное, например пока ракеты с ножками смогли снизить стоимость запуска спутников в космос только в два раза, хотя Маск надеялся в десять.

стоимость пуска, если и снизилась то исключительно от того, что НАСА покрывает убытки от пусков частных спутников. каждый пуск транспортника уже в $280 млн обходится, в то время как древний и одноразовый прогресс те же 2.6 тонн к мкс доставляет за $60 млн.

-15

Запускаем Apache Spark на Kubernetes

Yo1 Jul 20 2020 at 16:05

ну так из спарк шела то на других узлах запустятся экзекьютеры, там данных с прошлого пуска нет. нужен какой-то общий сторидж.

0

Запускаем Apache Spark на Kubernetes

Yo1 Jul 20 2020 at 14:05

прочитал, но так и не понял главного. куда спарк экзекьюторы писать будут? каждый на свою машину?
еще в тренде на k8s интересно чем конечный результат от спарка предполагается смотреть? что-то типа hive или impala ведь понадобится.

+1

Топ 10 заблуждений о переносе Hadoop в облако

Yo1 May 19 2020 at 18:20

я такое видел, когда от многих тысяч баз данных hive metastore поплохело (GC + out of memory). но все легко решилось выделением ему побольше памяти.
в этом плане врядли, есть реальные проблемы. просто 30+ узлов уже на дефолтных настройках не поедут.

0

Погружение в Delta Lake: принудительное применение и эволюция схемы

Yo1 May 18 2020 at 13:41

Эти ребята многое делают для развития спарка, я как-то априори склонен им скорее доверять.

делают, но паркет со схемой и эволюцей схемы появился до них и до их настройки над паркетом.

Ну, мне кажется что это скорее не бонус, а наоборот, фундамент. Все-таки, как вы себе представляете update, если транзакций нет?

да легко. как у них работает — у них при апдейте пары срок в фолдере паркетов ищутся паркетники, где нужно заменить строки. найденные файлы целиком копируются, с модификациями. после этого в папочке лога добавится json. вот появление этого json и означает фиксацию транзакции. мягко говоря не самая захватывающая фишка. DWH мир уже давненько не пишет терабайты в единой транзакции, а давно заливают в параллель и делают что-то типа exchange partition.

0

Погружение в Delta Lake: принудительное применение и эволюция схемы

Yo1 May 18 2020 at 12:41

del

0

Погружение в Delta Lake: принудительное применение и эволюция схемы

Yo1 May 17 2020 at 19:05

по моему и статья бредовая. схема — она у паркетов, что под низом у delta lake, а то что delta lake тоже имеет схему и schema evolution, так это скорее следствие того, что delta lake надстройка над паркетом.
а по транзакциям, транзакции тут вторичны. главная фишка delta lake то что он дает возможность делать update/delete/merge на файлки лежащие на hdfs. транзакции идут как бонус к невероятному к update на hdfs.

0

Facebook изменила концепцию Libra и отказалась от выпуска единой монеты

Yo1 Apr 18 2020 at 08:17

у дурова просто блокчейн, транзакции никто не контролирует. у цукенберга ноды контролирует консорциум. спецслужбы в теории смогут просить консорциум банить и откатывать транзакции.

0

Facebook изменила концепцию Libra и отказалась от выпуска единой монеты

Yo1 Apr 18 2020 at 06:50

тем что либра это консорциум жадных капиталистов. т.е. фсб или цру придется убедить консорциум банить транзакции. а там уже не только американцы, а те что американцы бабло зарабатывают далеко не только в сша.

0

Facebook изменила концепцию Libra и отказалась от выпуска единой монеты

Yo1 Apr 17 2020 at 17:07

у тебя там мелочь, которой «банк», если у него в тот день хорошее расположение духа, может позволит попользоваться. серьезную сумму за бугор российский «банк» не позволит перевести.

0

Переход от монолитного Data Lake к распределённой Data Mesh

Yo1 Apr 5 2020 at 09:22

не понятно как такое может масштабироваться. имхо основная сложность больших энтерпрайзов не в размере, а то что данные идут с разных систем, разработанных или полученных вместе покупками конкурентов, которые одни и те же понятия по разному оформляют. если каждый источник сгружает данные так как ему удобно то потом каждый потребитель должен будет изобретать какие-то свои мапинги из источника в свои понятия, что бы получить что-то осмысленное. на большом кол-ве источников это быстро превратится в ад. опять же, у источника бизнес процессы меняются. источник добавил колонку is_deleted, теперь тучи потребителей должны переколбашивать свои etl. а что если они не готовы сейчас этим заняться?
то что data owner должен сам рисовать выгрузки я согласен, но без каких-то централизованных структур в крупной организации никак. data owner должен интегрировать свои данные во что-то централизованное, корректно замапив свои понятие на некие общие.

+1

Британские пользователи Azure жалуются на проблемы с доступом к сервису и отказ в создании новых VM в облаке Microsoft

Yo1 Mar 27 2020 at 08:54

угу, а в рекламе втирали то что облака круты потом у что когда не надо ресурсы можно освобождать и не платить. а теперь вот оказывается, что облако круто, но есть нюанс :)

+1

Тюнинг Firebird и Linux для БД размером 691 Гб с 1000+ пользователей

Yo1 Mar 5 2020 at 20:06

Тогда от PostgreSQL вы вообще бежите как черт от ладана?

да. убер хорошо расписал как все хреново там где нет полноценного undo. собственно enterprisedb — основной вкладчик в постгрес, признает преимущество undo и уже года 3 пилит undo для постгрес

1) это не значит, что другие базы сразу в датафайлы не пишут. Пишут. Может не прям сразу

вот это не прям сразу дает на порядок большую производительность. потому что одно дело пару блоков в лог записать и освободить транзакцию, другое дело держать транзакцию пока каждый блок по всему диску не разложишь. и дело не в том что это транзакция дольше висит, а то что она 100500 соседних транзакций на более длительный срок задерживает.

б) некоторые озвученные применения подразумевают немаленький rps, а огнептах при этом справляется. Странно да?

пару лет назад Таблойд с sql.ru гонял тесты с 256 параллельными тредами. ФБ просто вставал колом. он отрепортил с десяток чудовищных проблем и наглядно показал, что такие нагрузки никто на ФБ не практикует

Лог транзакций не является ценностью сам по себе. Это всего лишь инструмент решения задач. Если ОгнеПтах нашел другой инструмент, то что в этом плохого?

плохо то что транзакция остается активной, когда конкуренты с логом уже следующую могут обрабатывать.

0

Impala vs Hive vs Spark SQL: Выбор правильного SQL движка для правильной работы в Cloudera Data Warehouse

Yo1 Jan 30 2020 at 12:07

Impala быстро, но не надежно. чуть больше польpователей и привед out of memory. чуть крупней датасет и привед out of memory. зато да, заметно быстрее spark sql

+1

[обновлено на 15:00 мск] Произошел масштабный сбой в работе почтового сервиса Mail.ru

Yo1 Jan 27 2020 at 11:06

точно. хабро-карма вытеснила уже и средней руки ийтишников…

+1

5

6 7 ...