ИМХО не хватает внятного интро. Пролистал первую часть, так и не понял где описывается схема, как описывается результирующая таблица. что и как происходит если, результат трансформации не пихается в результирующую таблицу. зато куча подробностей по командам, которые нафиг не нужны без понимания общей идеи. и начинать стоит с чего-то простенького, "полигоны с аутлайнами торговых центров — инстансы объектов JTS " разбираться в геоданных врятли многим интересно.
на периферии может и болота строят, но все серьезные фин организации начиная с мелочевки типа сбера заканчивая крупнейшими американскими банками, все вынесли обработку фин данных в хадупы и облака с S3. крупнейшие банки планеты пока справляются и с очисткой. как это делать, хорошо разложено в брошюре Инмона Designing the Data Lake and Avoiding the Garbage Dump.
вы путаете болото данных с data lake. у типичного data lake как минимум 3 слоя - bronze, silver, gold. на gold слое все очищено и перекодировано. у Инмона хорошая брошюра есть как это делать, он там реляционные данные в application pond предлагал грузить.
у оракла не плюшки, он лет 20 как на другом уровне относительно остальных субд. только цена весь праздник портит. у оракла есть полноценный кластер, который в самом деле масштабируется и дает реданденси. собственно потому оракл практически всех из фин сектора вытеснил - никто другой из реляционок не позволит просто добавлять узлы в кластер и обслуживать большие нагрузки.
ну и по мелочи, у оракла явно язык сторед процедур на ином уровне ем у остальных, с его пакетами и разделением дефиниции пакета и тела, отслеживание зависимостей. довольно интересная концепция с exadata, где сторидж стал совсем умным и отделен от компьют узлов. там фуллскан с предикатами уже не вычитывают все блоки таблицы как у других субд.
по IOT вы что-то не разобрались - оракл по умолчанию хранит именно всю строку в узле индекса.
не очевидно. очевидно, что под соусом тестового задания они пытались получить готовое решение, присвоить авторские права и сделать это вопреки Закону, без оформления юридически обязывающих документов. Очевидно, что кандидат выполнил достаточно для тестового задания, что бы можно было оценить скилы. а развод на полноценное решение, место тестового задания - выглядит как мошенничество. если дело в европе, полагаю это еще и нарушение трудового кодекса. они должны были договор оформить, если нужен был результат, а не тема для разговора.
Лихо берёте. Почти любая программа - что-то считать и что-то записать, но есть один нюанс.
странное заявление под статьей с кодом где программа выглядит как цикл, долбящий бедную базу по одной записи. я пытался донести, что у спарка в сортировке и в парсинге xml будут одни и те же конструкции. df.read() df.write() и не столь уж огромная разница в итоговом коде. хотя да, задачи решают эти конструкции абсолютно разные.
Теперь осталось сравнить это с решением из статьи чтобы проверить что ваше "в разы быстрей даже на ноутбуке , за счет распараллеливания."
это и так очевидно. но лично я сравнивал на 1с xml, что касается порно из статьи, так оно чему угодно проиграет, т.к. мало того что в одном потоке так еще и долбит базу построчно.
практически та же задача - вычитать в датасет, записать датасет. с архитектурной точки зрения никакой разницы. я вот примерно так xml от 1с "парсил" на машинке с 4 гб
ну тогда надо в рукопашную учиться сплитить корректно xml, изобретать план выполнения, сливать результат от множества потоков. сомнительно, что изобретать еще один spark с его catalyst оптимизатором удастся в разумные сроки.
на дворе 2023 год, можно было бы что-то не из 90х потестить. на хадупе, например, сейчас delta с от датабрикса доступна с z-order индексами поверх паркета. еще есть iceberg и hudi.
блин у меня на ПК вынь11, так он и с хибернейта запросто просыпается. вот этой ночью проснулся, запускаю
powercfg -waketimers Timer set by [SERVICE] \Device\HarddiskVolume2\Windows\System32\svchost.exe (SystemEventsBroker) expires at 12:14:30 AM on 1/12/2023. Reason: Windows will execute 'NT TASK\Microsoft\Windows\UpdateOrchestrator\Schedule Wake To Work' scheduled task that requested waking the computer.
а еще вчера -waketimers ничего не показывал. с апдейтами какой-то метод борьбы есть ? на кой он проснулся, если так и не поставил апдейты ? почему не заснул назад ? попробовал сгенерить powercfg /SleepStudy - инфы зачем проснулся там нет.
не выйдет. уж слишком passmark фуфловый. гугл говорит 19238 это в однопотоке. понятно, что он фигню измеряет, если zen2 обходит в однопотоке alder lake.
там не плюс минус, а пропасть. в Geekbench 5 i5-1240P выбивает 1640 попугаев, против 1230 у zen2 на single core, 25% разница. в multi-core 12%. в последние годы разница между поколениями 5-7%, т.е. тут разница в два поколения. 5800H в теории мог бы сравниться по multi-core, но он сильно горячей zen2. если zen2 в этой коробченке разогревается за 115 градусов, то zen3 в такой китайской коробченки (с типично китайским охладом) ничего хорошего не покажет из-за пермонентного тротлинга. полагаю у интеля не такое дурилово в охладе, плюс потребление иного порядка.
странный вопрос, учитывая что крипта вобщем-то единственный способ вывести бабло из РФ. ничего кроме крипты и не работает ...
Ledger
ИМХО не хватает внятного интро. Пролистал первую часть, так и не понял где описывается схема, как описывается результирующая таблица. что и как происходит если, результат трансформации не пихается в результирующую таблицу. зато куча подробностей по командам, которые нафиг не нужны без понимания общей идеи. и начинать стоит с чего-то простенького, "полигоны с аутлайнами торговых центров — инстансы объектов JTS " разбираться в геоданных врятли многим интересно.
на периферии может и болота строят, но все серьезные фин организации начиная с мелочевки типа сбера заканчивая крупнейшими американскими банками, все вынесли обработку фин данных в хадупы и облака с S3. крупнейшие банки планеты пока справляются и с очисткой. как это делать, хорошо разложено в брошюре Инмона Designing the Data Lake and Avoiding the Garbage Dump.
прочитай.
вы путаете болото данных с data lake. у типичного data lake как минимум 3 слоя - bronze, silver, gold. на gold слое все очищено и перекодировано. у Инмона хорошая брошюра есть как это делать, он там реляционные данные в application pond предлагал грузить.
а разве Сбер не выкупил GridGain много лет назад и не сидел на платной версии Ignite все эти годы ?
OLAP кубы в постресе, серьезные спецы
у оракла не плюшки, он лет 20 как на другом уровне относительно остальных субд. только цена весь праздник портит. у оракла есть полноценный кластер, который в самом деле масштабируется и дает реданденси. собственно потому оракл практически всех из фин сектора вытеснил - никто другой из реляционок не позволит просто добавлять узлы в кластер и обслуживать большие нагрузки.
ну и по мелочи, у оракла явно язык сторед процедур на ином уровне ем у остальных, с его пакетами и разделением дефиниции пакета и тела, отслеживание зависимостей. довольно интересная концепция с exadata, где сторидж стал совсем умным и отделен от компьют узлов. там фуллскан с предикатами уже не вычитывают все блоки таблицы как у других субд.
по IOT вы что-то не разобрались - оракл по умолчанию хранит именно всю строку в узле индекса.
не очевидно.
очевидно, что под соусом тестового задания они пытались получить готовое решение, присвоить авторские права и сделать это вопреки Закону, без оформления юридически обязывающих документов. Очевидно, что кандидат выполнил достаточно для тестового задания, что бы можно было оценить скилы. а развод на полноценное решение, место тестового задания - выглядит как мошенничество. если дело в европе, полагаю это еще и нарушение трудового кодекса. они должны были договор оформить, если нужен был результат, а не тема для разговора.
странное заявление под статьей с кодом где программа выглядит как цикл, долбящий бедную базу по одной записи. я пытался донести, что у спарка в сортировке и в парсинге xml будут одни и те же конструкции. df.read() df.write() и не столь уж огромная разница в итоговом коде. хотя да, задачи решают эти конструкции абсолютно разные.
это и так очевидно. но лично я сравнивал на 1с xml, что касается порно из статьи, так оно чему угодно проиграет, т.к. мало того что в одном потоке так еще и долбит базу построчно.
практически та же задача - вычитать в датасет, записать датасет. с архитектурной точки зрения никакой разницы. я вот примерно так xml от 1с "парсил" на машинке с 4 гб
не знаю как тут код нормально текстом прилепить
на статью у меня кармы не хватит, а так недавно мерились вот тут на тему сортировки файла
http://rsdn.org/forum/job/8348407.1
ну тогда надо в рукопашную учиться сплитить корректно xml, изобретать план выполнения, сливать результат от множества потоков. сомнительно, что изобретать еще один spark с его catalyst оптимизатором удастся в разумные сроки.
Spark с этим справился бы в несколько строк и в разы быстрей даже на ноутбуке , за счет распараллеливания.
На .net пишут лишь унылую бизнес логику, элита что пишет хадупы, spark, Kafka, Cassandra, h2o плотно сидит на jvm языках
я не особо заморачивался с доступом
а каковы шансы настроить с ключами ?
на дворе 2023 год, можно было бы что-то не из 90х потестить. на хадупе, например, сейчас delta с от датабрикса доступна с z-order индексами поверх паркета. еще есть iceberg и hudi.
блин у меня на ПК вынь11, так он и с хибернейта запросто просыпается. вот этой ночью проснулся, запускаю
а еще вчера -waketimers ничего не показывал. с апдейтами какой-то метод борьбы есть ? на кой он проснулся, если так и не поставил апдейты ? почему не заснул назад ? попробовал сгенерить powercfg /SleepStudy - инфы зачем проснулся там нет.
не выйдет. уж слишком passmark фуфловый. гугл говорит 19238 это в однопотоке. понятно, что он фигню измеряет, если zen2 обходит в однопотоке alder lake.
там не плюс минус, а пропасть. в Geekbench 5 i5-1240P выбивает 1640 попугаев, против 1230 у zen2 на single core, 25% разница. в multi-core 12%. в последние годы разница между поколениями 5-7%, т.е. тут разница в два поколения. 5800H в теории мог бы сравниться по multi-core, но он сильно горячей zen2. если zen2 в этой коробченке разогревается за 115 градусов, то zen3 в такой китайской коробченки (с типично китайским охладом) ничего хорошего не покажет из-за пермонентного тротлинга.
полагаю у интеля не такое дурилово в охладе, плюс потребление иного порядка.