Comments / Profile of bigdata-dev / Habr

@bigdata-dev^{read⁠-⁠only}

User

Как построить современное аналитическое хранилище данных на базе Cloudera Hadoop

bigdata-dev Apr 29 2021 at 05:48

в импале Admission Control используете, настроены пулы? много объектов в hive metastore? не было проблем с масштабируемостью hive metastore?

зы. 14 узлов, это всего 14к таблетов для куду, которых минимум на три надо для каждой партиции таблицы. далеко с такими крупными узлами на куду не уедешь.

Как мейнфреймы не вымерли

bigdata-dev Apr 26 2021 at 18:32

ну понятно, что RS/6000 от МФ пошла, но последние 20-30 лет все идет из LUW в МФ. cost based optimizator сначала RS/6000 выкатили, потом адаптировали на МФ

Как мейнфреймы не вымерли

bigdata-dev Apr 26 2021 at 18:27

абсолютно все локи должны хранится в одном единственном месте, которое становится узким горлышком. прежде чем прочесть данные каждая нода обязана у CF удостовериться что запись безопасно читать. как мы знаем из печальной кончины МФ, никакие танцы этого не смогло изменить.
рынок уже все расставил по местам и рулят БД кластеры не из МФ

Как мейнфреймы не вымерли

bigdata-dev Apr 25 2021 at 07:55

просто возраст дает о себе знать, а других он меряет по себе.

Как мейнфреймы не вымерли

bigdata-dev Apr 25 2021 at 07:43

центральная часть МФ — db2/zOS, который не развивается, а лишь с опозданием адаптирует фишки из LUW редакции.
у МФ жутко дорогая память, потому реальные МФ, которые еще не выкинули вынуждены ютиться в мизерном объеме памяти, отсюда и повышенный требования на i/o. все равно МФ не в состоянии соревноваться с каким-нибудь хадуп кластером который способен все данные в оперативку забрать гарантируя на 2 порядка меньшее i/o по много меньшей цене.
фишка МФ в оптимальном распределением задач в стесненных ресурсах, но это не кому не нужно по такой цене. добавить терабайт памяти в тысячи и тысячи раз дешевле, чем радоваться тому как МФ хорошо работает забив ресурсы на все 100%

Как мейнфреймы не вымерли

bigdata-dev Apr 25 2021 at 07:27

это толком не работает. что бы разные узлы db2 работали в кластере CF нода хранит единый кеш и таблицу блокировок. т.е. все узлы а каждый чих долбят CF ноду проверками на блокировку, порождая гигантский межузловой трафик и нагрузку на один, единственный узел. да, CF можно продублировать на случай сбоя, но активным может быть лишь один CF.
вобщем не взлетело.

Ещё один шаг в сторону open source: как и почему мы внедрили Arenadata DB

bigdata-dev Apr 22 2021 at 16:27

было бы интересно услышать почему такой дизайн. судя по цифрам там в полном смысле биг дата, но обычно в бидате вроде аналитику делают на бигадата платформе, а из нее уже результат пишут в витрины рсубд. а тут похоже все происходит в рсубд (постгрес с массивно параллельной примочкой). подозреваю это будет одна из крупнейших баз на гринплуме. нельзя было готовить такую отчетность спарком в хадупе?

У владельца Telegram-бота «пробива» данных «Глаз Бога» прошли обыски

bigdata-dev Apr 9 2021 at 07:03

а это точно владелец, а не бомж на которого оформили?

Oracle против Google: Верховный суд принял сторону Google в споре об авторских правах

bigdata-dev Apr 5 2021 at 17:26

как раз гугл дописал новую операционку на замену андройду :)

-11

LG Electronics откажется от выпуска смартфонов

bigdata-dev Apr 5 2021 at 13:12

за бугром такого не наблюдается

Impala для Python-разработчика на примере определения фрода при анализе трафика в маркетинговой платформе

bigdata-dev Apr 5 2021 at 13:05

бегите от куду. оно не масштабируется. там ограничение около 1000 таблетов на узел. учитывая что каждый таблет требует минимум 2 копии то реально лимит 333 таблетов на узел. это мало учитывая что в бигдате таблицы с сотнями партиций норма.

Пример использования гибридного облака на базе Cloudera Data Platform

bigdata-dev Mar 25 2021 at 08:23

это понятно, но под капотом Public Cloud файлы запишет на обычный S3? файлы на S3 будут доступны будут остальным амазоновским сервисам?

Новый сервис от Google ставит под вопрос защиту персональных данных

bigdata-dev Mar 24 2021 at 16:11

это хорошо, может mozilla из пепла востанет

Пример использования гибридного облака на базе Cloudera Data Platform

bigdata-dev Mar 21 2021 at 11:41

а в этом Public Cloud доступны только клоудеровские сервисы? databriks сервисы будут работать?

Китай ограничит использование Tesla военными и чиновниками

bigdata-dev Mar 21 2021 at 09:04

а куда бы они могли сбрасывать записи в китае?

Почему не стоит читать статьи о том, как за несколько месяцев стать специалистом по Data Science

bigdata-dev Mar 19 2021 at 10:00

программистам обычно это не интересно. у нас штук 5 аналитиков/DS, лабают скоркарды. там 95% это ковыряние в кривых данных и переписка с клиентом, почему тут какие-то дубли, а тут транзакции без суммы.

MySQL в финансах: реакция или созидание?

bigdata-dev Mar 9 2021 at 11:48

может есть, может нет, это вообще не важно. задачи бывают разные, где то лишний индекс оправдан, где-то нет. тут важно то, что mysql блокирует больше чем необходимо для обеспечения ACID.

MySQL в финансах: реакция или созидание?

bigdata-dev Mar 9 2021 at 11:41

это ложь. никто mysql не вынуждает блокировать больше строк, чем указано в предикате запроса. оракл при full scan считывает страницу данных с диска/кеша накладывая latch и блокирует на этой странице лишь те строки, какие будут модифицированы.
открой ссылку и посмотри пример c mysql, параллельные транзакции никак не пересекаются, никакой необходимости их блокировать нет. каждая создает свой набор строк и свой же набор пытаются удалить. у нормальной субд в такой ситуации не будет дедлока.

MySQL в финансах: реакция или созидание?

bigdata-dev Mar 9 2021 at 11:30

чувак, я не говорил про селект, я говорил про full scan.

MySQL в финансах: реакция или созидание?

bigdata-dev Mar 9 2021 at 11:13

ну так кроме SELECT с FOR UPDATE могут быть UPDATE, DELETE, INSERT INTO… SELECT.
пример с DELETE тут
dba.stackexchange.com/questions/238756/mysql-innodb-trying-to-lock-uncommitted-row-from-parallel-transaction-deadlock

3 4