Comments / Profile of Yo1 / Habr

Yo! @Yo1^{read⁠-⁠only}

Developer

ProfileArticles3PostsNewsComments370

«Облака были созданы, потому что все задолбались»: в чём отличие облачной инфраструктуры от своих серверов

Yo1 Mar 25 2021 at 15:17

Так-то калькуляторы «введи сколько и каких инстансов, сколько какого трафика и т.п.» у всяких AWS есть.
Не так-то просто решить, что туда вводить…

но проще чем онпермис лицензии посчитать. попробуй посчитать онпермис лицензии оракла, там то калькулятора нет, а нюансов только по субд больше чем во всех сервисах облака.

0

Вышла Java 16

Yo1 Mar 21 2021 at 09:55

намек на анекдот
— Петька, прибор!
— 20
— Что 20?
— А что прибор?

0

Вышла Java 16

Yo1 Mar 17 2021 at 16:56

надо 20

+3

Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera?

Yo1 Feb 26 2021 at 15:34

я два раза указал, что Impala Daemon Executors mem_limit итак уже поднят до 80Gb и лимит на запрос 64G. этого совершенно достаточно, что бы сделать выводы. нехватало бы памяти на узле, была бы соответствующая ошибка, а так хорошо видно что executor свои 80G получает, но не способен их грамотно распределить между конкурирующими запросами.
если уж так приспичило, на каждом узе по 128G памяти, 20 ядер. совершенно нормальные узлы, на которых и так уже большая часть ресурсов выделена Импале, которая ничего сложного и не делает. все тяжелые ETL / скоринги делает map-reduce и спарк.

0

«Облака были созданы, потому что все задолбались»: в чём отличие облачной инфраструктуры от своих серверов

Yo1 Feb 19 2021 at 16:00

вы там периферии дикие. лицензирование оракла в облаке ничем не отличается от своей железке. в облако для того и идут, что бы ораклу не платить миллионы, а юзать SaaS базы и сервисы, ценник на который заметно гуманней.

-4

«Облака были созданы, потому что все задолбались»: в чём отличие облачной инфраструктуры от своих серверов

Yo1 Feb 19 2021 at 14:51

«Есть другая информация» — тут офис приплюсовали майкрософту, отсюда и разница.

+1

«Облака были созданы, потому что все задолбались»: в чём отличие облачной инфраструктуры от своих серверов

Yo1 Feb 19 2021 at 14:48

потому и валят в облака. лицензии на оракл с партишенингом и копрессией на 96 vcpu это $3.4 млн + 18% супорт.
feel the difference.

0

«Облака были созданы, потому что все задолбались»: в чём отличие облачной инфраструктуры от своих серверов

Yo1 Feb 19 2021 at 13:42

дитетка, а ты думаешь всякие виндовсы и ораклы в датацентре будут работать не смотря на санкции?

-7

«Облака были созданы, потому что все задолбались»: в чём отличие облачной инфраструктуры от своих серверов

Yo1 Feb 19 2021 at 12:52

вы там на периферии совсем одичали. в европе полно банков с инфраструктурой в облаке, причем это банки размером с 2-3 экономики России.

-5

Business Intelligence на очень больших данных: опыт Yota

Yo1 Feb 17 2021 at 13:47

у нас теперь некая CAB session prioritizton хождение с заказами остановила. стало очень удобно отмазываться — CAB не приоритизировал, не можем взять в спринт.
кантора здоровая, фин услуги в европе, 24 страны, оборот под млрд евро.

0

Business Intelligence на очень больших данных: опыт Yota

Yo1 Feb 17 2021 at 12:16

особенности договорных отношений материнской компании и Cloudera (извините, без подробностей). Но для кейсов использования Hadoop в нашем случае support и не требуется.

так дело не в супорте, а доступе бинарникам, патчам. ну ясно, на 5.х какие-то договоры есть.

насколько снизилась нагрузка от «бизнеса»? Пока звучит как предпосылки для реализации, которая случилась недавно. Искренне интересен результат (может мы не так своих вовлекаем?).

тут особо рассказать не могу, мы данные процессим, а BI — отдельное царство куда у нас и доступа нет. на их страничке видно что что-то запустили, 150 юзеров лицензировано, подозреваю многие счастливы просто потому что альтернатива ждать когда кто-то наверху приоритизирует запрос на отчетик.
а так хоть что-то сами накликать могут.

0

Business Intelligence на очень больших данных: опыт Yota

Yo1 Feb 16 2021 at 20:01

если бы Yota была полностью независимой компанией, то конечно смысла нет — Вы правы. Но в материнской компании увидели риски.

не догоняю, в чем может быть преимущество 5.х без супорта над 6.3 без супорта?

круто, если у Вас так (подробнее расскажете?). Нам все равно приходиться делать все сложные визуализации самим.

я относительно далек от BI, но видел внутренние презентации. сложные визуализации делают на qlik, но замахались и в дополнение купили BO. презентовали, как тулзу подходящую продвинутым бизнес пользователям, которым будет быстрее (и дешевле) простые отчеты самим рисовать. показывали иерархическую структуру из нашей основной витрины, от туда можно было брать колонки и накидывать в пивот, BO сам догадывался как там чего заджоинить. простенькие графики / пирожки показывали. с виду выглядело много примитивней, чем у powerbi и соответственно много проще для бизнес пользователя.
со стороны не выглядело как легаси. выглядело как более простенький тул, с которым у бизнес пользователя есть шанс справится без программиста

0

Business Intelligence на очень больших данных: опыт Yota

Yo1 Feb 16 2021 at 18:12

не понял акробатику с cloudera, какой смысл с 6.3 переезжать на 5.x? закрыли доступ к бинарникам они в на 6.3, если 6.3 успели скачать, зачем переезжать?
161 Тб в вертике, это же наверно миллионы $$$ в год. я угадал?

и еще, у на BO внедряли именно под соусом self BI, только он позволял пользователю самому рисовать отчеты какие надо

0

Организуем платформу обработки потоковых данных из Kafka, Spark и Greenplum

Yo1 Feb 1 2021 at 19:26

если бы я путал, то рестарт запроса не помогал бы. лимит тут не причем, на свободном кластере запрос проходит. когда запрос упирается в лимит демона, на демоне вообще ничего не стартует. при срабатывании лимита демона ошибку кидает координатор, что-то типа такого:
Memory limit exceeded: Query a34a9afbf1a71fb1:85f3fbd100000000 could not start because the backend Impala daemon is over its memory limit

в моем же случае демон запрос пропустил и начал исполнять, в первую очередь потому что запрос проходит по всем лимитам. и по общему на запрос (в моем случае его не было) и по лимиту на демоне. демон начал исполнять, но заранее не зарезервировал достаточно памяти, потому свалился до достижении лимита демона.

0

Организуем платформу обработки потоковых данных из Kafka, Spark и Greenplum

Yo1 Jan 31 2021 at 16:54

можете пояснить, что значит «Memory left in process limit: 9.51 GB» в моем логе?
мне не понятно зачем трогать лимит, если он и близко не превышен? Impala Daemon Executors mem_limit итак уже поднят до 80Gb, причем таких узлов 10. 800G — этого хватает одному такому запросу, если никто крупный параллельно не исполняется. значит в целом на кластере хватает и памяти и лимитов.

0

Организуем платформу обработки потоковых данных из Kafka, Spark и Greenplum

Yo1 Jan 30 2021 at 13:21

хабр дурковатая платформа, одним комментарием в день лимитирует.
Impala Daemon десять штук, Impala Daemon Executors mem_limit 80Gb, не понятно почему вы на этот запрос грешите, вроде очевидно Admission Control толком не работает: лимит 64, выбрано 51.78, в логе он откровенно пишет: Memory left in process limit: 9.51 GB
значит проблема не в лимите запроса, а том что Executor не может выделить запросу 32.00 KB. по мне так очевидно, что параллельные запросы тоже потребляют память на узле и все скопом не уместились, а Admission Control похоже не угадывает сколько запросу на этом узле следовало бы зарезервировать памяти, увеличивает резервацию по ходу выполнения.

0

Организуем платформу обработки потоковых данных из Kafka, Spark и Greenplum

Yo1 Jan 29 2021 at 11:47

ну не знаю, десяток узлов с импалой 3.2, Enable Impala Admission Control галочка стоит, mem_limit стоит и для Impala Daemon Coordinators и для Impala Daemon Executors (30 и 80Gb сотетсвенно), scratch_dirs настроены.
типичная ошибка

Memory limit exceeded: Failed to allocate row batch

EXCHANGE_NODE (id=5) could not allocate 32.00 KB without exceeding limit.

Error occurred on backend host010.domain.net:22000

Memory left in process limit: 9.51 GB

Query(3d4641a8c316a52d:f17a2b7100000000): Reservation=51.78 GB ReservationLimit=64.00 GB OtherMemory=22.00 MB Total=51.80 GB Peak=51.80 GB

 Fragment 3d4641a8c316a52d:f17a2b7100000006: Reservation=320.00 MB OtherMemory=2.89 MB Total=322.89 MB Peak=322.89 MB

если в запросе ставить явно SET MEM_LIMIT тупо вываливается по достижении лимита. примерно те же проблемы на координаторах — он тянет весь результирующий датасет к себе в память, т.е. памяти на координаторе надо больше, чем клиент попытается утащить.

0

Организуем платформу обработки потоковых данных из Kafka, Spark и Greenplum

Yo1 Jan 28 2021 at 08:04

на сколько я знаю на cвоем железе всего 2 варианта (не считая локал) пускать спарк — хадуп кластер или k8s кластер. k8s как менеджер для spark — совсем новая тема, в проде для совсем смелых и там большой минус — нет «data locality». на хадупе — spark с yarn кажется чаще встречается. без хадупа, поднять лишь yarn думаю не выйдет. yarn наверняка нужен и zookeeper, спарку точно нужен общий сторидж (hdfs). имхо разумней весь хадуп для спарка поднять, тем более что там же у вас и kafka будет.
Hive on Spark именно с HDFS и работает, но думаю медленее Impala на простых запросах, зато стабильно. Impala, да, с тяжелыми запросами и тучей пользователей и у нас плохо дружит.
мне вот интересно как была скорость у Impala/HDFS на фоне Greenplum, обгоняла, если хватало ресурсов выполнить запрос?

+1

Организуем платформу обработки потоковых данных из Kafka, Spark и Greenplum

Yo1 Jan 27 2021 at 08:03

интересно, но нифига не понятно.
в связке с greenplum, в чем спарк запускался? из текста складывается впечатление, что спарк на одной единственной ноде запутили в локальном режиме.
когда сравнивали с хадуп, что за енжин был у hive? hive on spark пробовали?

+3

Китай практикует запуск “роя” дронов-смертников, начиненных взрывчаткой

Yo1 Nov 11 2020 at 19:47

ну в сирии российскую авиабазу регулярно примерно тех же размеров пластиковые «дроны» атакуют. замечают же исправно.

0

4

5 6 ...