Comments / Profile of Yo1 / Habr

Yo!@Yo1^{read⁠-⁠only}

Developer

Subscribers

ProfileArticles3PostsNewsComments370

“Главный вызов — это кадровый голод” — панельная дискуссия о подборе команд по работе с данными. Data Science Week 2017

Yo1 Oct 24 2017 at 11:31

добавит вашингтон РФ в санкционный список и вырубят. закон для всех един. Крым уже между прочим в списке.

-1

Yo1 Oct 24 2017 at 11:14

как раз за gridgain Грефу памятник еще поставят, когда они единственные из банков не будут вырублены ораклом и будут иметь живой пример куда двигаться в век клаудов и кластеров

-1

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

Yo1 Oct 23 2017 at 13:22

у вас хреновый архитек. в итерации не должны поля появляться, поля могут возникнуть в результате серьезной трудности засунуть сущность в существующие структуры. добавление колонки это форс мажер, а не планомерная работа. то же касается связей между таблицами, они должны настраиваться без DDL.

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

Yo1 Oct 23 2017 at 08:01

так я и не требую абсолютно все, я говорю что архитек не доработал, если вам постоянно требуется изменения в структурах. меняющиеся требования не должны требовать постоянных изменений структур.

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

Yo1 Oct 23 2017 at 04:30

в ерп тоже у всех разные требования и бизнесы, но структура хранения то одна.

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

Yo1 Oct 22 2017 at 08:50

да, SQL не идеален, требует разбивать шибко сложные запросы, требует процедурных костылей. да, но альтернативы то не решили эти проблемы, а лишь возвели их в квадрат. совсем недавно все бегали с map-reduce парадигмой, поработали пару лет и утомились писать вместо небольшого джоина на один абзац десяток классов, которые требуется рефакторить каждый квартал иначе кластер дохнет. утомившись с чистой джавой и цикл в цикле, запускает цикл срочно приладили элементы функционального языка, но и тут счастья не наступило. теперь поверх функциональщины повсюду прилаживают старый добрый SQL.
что касается ваших проблем, то у вас явно не доработал архитек, раз схема постоянно меняется. в рсубд принято воротить универсальные структуры, на все случаи жизни и на века.

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

Yo1 Oct 21 2017 at 18:21

побеждает потому, что практика показала то что все альтернативы в итоге сильно проигрывают. при разработке оптимальным ожидается одно, при запуске оказывается оптимально данные достать по другому, через какое-то время даные распухают не равномерно и оптимум уже третий. переписывая в третий раз, люди начинуют понимать силу деклативного языка и начинают от вендоров требовать прикрутить SQL. к хадупам уже прикрутили, in memory grids аля apache ignite тоже по сути SQL уже прикручен.

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

Yo1 Oct 21 2017 at 10:06

видимо вы в весьма глухом месте живете, у нас вот SQL абстракция никуда не потекла, а лишь захватила еще и наши хадупы, гнусно посмеявшись на бесплодными попытками чем либо заменить. spark на хадупах — все тот же sql, все тот же cost based оптимизатор. ничего лучше так никто и не предложил

Используем Apache Ignite в быту

Yo1 Oct 20 2017 at 08:51

вроде ignite это распределенный кластер, а тут в каком-то хитром режиме embeded поднимается?

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

Yo1 Oct 19 2017 at 21:01

В случае, когда я делаю закат солнца вручную (пишу джойны, аггрегации, подзапросы прямо в коде приложения, делаю руками выборку, вотэтовсё), я могу это легко контролировать — сделать декомпозицию на несколько простых, часто чистых, функций, каждую из которых обложить тестами и комбинировать уже готовые абстрагированные блоки, контролируя таким образом сложность, как алгоритмическую, так и тестирования.

в 80х годах прошлого века от этого подхода отказались в пользу cost based optimizator. это то же самое, что в сезон отпусков проложить маршрут через центр города, а потом весь год терять 3 часа в пробках, которые более сообразительная молодежь объезжает, потому что маршрут выбирает в зависимости от дорожных условий.
самое главное преимущество SQL — он не указывает как достать данные. это декларативный язык.

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

Yo1 Oct 18 2017 at 19:08

да, они работают ровно так же как и 30 лет назад. что рсубд, что нафигационные. поэтому подход читать в параллель все без разбору, не разбираясь нужно или не нужно выглядит чем-то новым. 30 лет назад о таком никто и помыслить не мог.

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

Yo1 Oct 18 2017 at 18:46

30 лет назад никому в голову не приходило читать параллельно с тысячи нод принципиально все данные, абсолютно все субд тогда доставали данные по индексу и соревновались методиках сокращения кол-ва чтений. что иерархические, что рсубд.

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

Yo1 Oct 18 2017 at 16:49

во первых k-v хранилище не иерархия, во вторых если я натолкаю в dbf таблички ссылку на парент, фокспро не превратиться в иерархическую субд.
там все реально по другому. суть иерархической субд — нафигация по индексу, суть того о чем я говорю противоположна. там зачастую читают абсолютно все данные начала времен.

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

Yo1 Oct 18 2017 at 15:47

ничего общего. иерахические это ничем не примечательны. одна нода, нафигация по иерархии, update/delete, блокировки, транзакции и прочее. то о чем я говорю из другого мира. тысячи нод и просто файлики, никаких транзакций, update/delete, блокировок и прочего. в файликах просто ключь-значение. это и не субд даже, это подход.

Почему SQL одерживает верх над NoSQL, и к чему это приведет в будущем

Yo1 Oct 18 2017 at 13:41

но все такие есть еще один подход, который правда базой не назвать. из парадигмы бигдата. k-v хранилище с табу на update/delete. в value храниться сложный объект (например avro-parquet). учитывая, что это все заморочено ради параллельной обработки, то все таки это нечто новое и мало похожее на все, что было ранее.

Аналитика в госсекторе: особенности больших систем хранения данных

Yo1 Oct 2 2017 at 18:28

ну BI к хадупам может совсем open source и нет, но это же крошечная часть решения, не самая дорогая и к тому же сегодня уже любой BI поверх хадупа бегает. это не самая дорогая и нагруженная часть решения. IBM, Oracle, «Полиматика», «Прогноз» все работают по верх хадупов.
по нетизе, разве там кроме NZSQL и C++ на чем то можно писать то, что будет на узлах кластера запускаться? там же все языки лишь как SQL клиент выступают.

как не крути хадупы фичастее и перспективней, а в свете санкций и ориентира на импортнозамещение считай неизбежны в гоструктурах. было бы лучше если бы госсектор в эту сторону развивал компетенции, а не подсаживался глубоко на сугубо американский софт. тем более, что хадупы много выгодней по деньгам.

Аналитика в госсекторе: особенности больших систем хранения данных

Yo1 Oct 2 2017 at 12:04

думаю хадупы намного фичастее. в хадупах можно воротить всякие реалтайм стриминги, кафки, тьма сториджей под различные задачки, джобы на разных языках можно писать, в комплекте мульёны ML библитек.

Аналитика в госсекторе: особенности больших систем хранения данных

Yo1 Sep 29 2017 at 08:54

слышал что в госструктурах зарплаты у работяг много меньше, отсюда и уровень спецов меньше.
по системе все здорово, но нафига IBM? в гоструктурах должен быть опенсоурс, дата лейк на хадупе, который все это и дешевле и фичастее сделает

Запуск регулярных задач на кластере или как подружить Apache Spark и Oozie

Yo1 Sep 29 2017 at 08:11

все хорошо, но что за задача то? зачем читаются эти файлы?
как я понимаю Oozie будет запускать каждый джоб через spark-submit скрипт, т.е. стартовать на каждый джоб отдельный jvm, соответственно каждый джоб будет иметь свой sparkSession. многим задачам такое не подойдет…

«Короли математики»: аналитика Big Data в банке. Проект ГАУСС в ВТБ

Yo1 Sep 28 2017 at 07:26

да, было бы интересно по структурам данных, RAW в какие-нибудь star схемы грузятся, vault 2.0? OLAP это реально какой-то OLAP?

подготовку витрин данных и отчётов логично сделаны Presentation (на Hive)

а движок у Hive какой, Tez?

1 2 ...

16 17