VladislavaZ 5 окт 2022 в 13:01

Большим данным настал конец. Databricks, Snowflake и конец неоправданного хайпа

9 мин

11K

Блог компании Geekfactor.ioBig Data *

Перевод

Комментарии 16

Ivan22 5 окт 2022 в 13:52

не понял заголовка. Из-за того что сноуфлейк пришел в бигдату - ей конец???? Или что?

mentin 6 окт 2022 в 08:55

Заголовок я тоже не осилил, но понял что основной посыл автора: бигдата стала обычной скучной технологией, после сноуфлейк и бигквери новых инноваций не надо. Тупик развития, он же идеал нужный пользователю.

Мое мнение что процентов для 80 бизнес пользователей это наверное так. Другие 20 не вписываются, кому нужны продвинутый дата саенс, кому реалтайм, кому большие графы...

Ivan22 6 окт 2022 в 10:16

только не 20, а 2

exfizik 5 окт 2022 в 13:57

Databricks, как и Snowflake, предлагает быструю, размещаемую на хостинге поставщика базу данных с практически бесконечными возможностями масштабирования.

Databricks - это в первую очередь Spark и сопутсвующая экосистема, плюс сейчас инструменты для всяких ML/AI/Data Science. Данные они для вас тоже могут хранить, но это необязательно - мы, например, этой функциональностью не пользуемся. Никакую БД они не предлагают - lakehouse это другое, но SQL интерфейс у этого всего есть.

Geckelberryfinn 5 окт 2022 в 15:41

Я так понял он на lakehouse и ворчит. Но вообще, статья ни о чем. Сравнивать всю инфраструктуру Databricks со snowflake ну такое. Единственное, что было для меня полезным, так это то, что я про Fivetran раньше почему то не слышал, сейчас вот посмотрю.

GromovBI 5 окт 2022 в 14:04

да, лучше взять что-то простое и нужно и просто это ускорить, чем много функционала.

Geckelberryfinn 5 окт 2022 в 15:45

Что значит верить в будущее bigdata вообще? Оно уже настоящее. Всё вот эти продукты и Snowflake и Bigquery и т.д. и т.п. они и так созданы и используются и будут использоваться для обработки данных, которые невозможно (или лень, или дорого, или просто так модно потому что "мы datadriven компания") обрабатывать на своих мощностях.

sheknitrtch 5 окт 2022 в 18:48

Если выбирать DB as a Service, то Snowflake - отличный конкурент Redshift, BigQuery. Если же надо развернуть BigData кластер в облаке, то здесь Databricks даёт готовое «скучное» решение.

Проблема в том, что «скучное» решение не подходит, когда у вас на проекте Kafka, Cassandra и HDFS. Тут уж берёте Spark и пишете нескучный BigData код.

Geckelberryfinn 6 окт 2022 в 07:48

А почему kafka с databricks не подходит? Hdfs вы имеете в виду не в облаке, а в в своих датацентрах?

Ivan22 6 окт 2022 в 10:17

поэтому на новых проектах уже hdfs и не встретишь, это уже прошлое

irsick 6 окт 2022 в 05:27

У меня несколько иной опыт работы со Snowflake. Нужен был data lake, а самописное решение на Postgress/RDS уже явно не тянуло.

Ребята из Snowflake аккуратно и правильно собрали все требования и выкатили кастомизированную презентацию, которая покрывала 97% проблем. Не было никаких продаванов и левых менеджеров. Было 2 программиста-ставших-сейлсами, которые очень грамотно и четко отвечали на все проблемы либо сами сразу, либо посовещавшись с командой разработки.

Прототип запили тоже они, причем всего за пару недель.

В итоге осталось очень приятное впечатление. Единственный неприятный момент - негибкая система кредитов по принципу "use it or loose it", которая держит на коротком поводке.

Отчасти, поэтому и ушли в итоге на BigQuery, но это уже совсем другая история...

Ivan22 6 окт 2022 в 10:18

так в итоге и не понятно, зачем вам даталейк, если подшел в итоге вариант с реляционной дб

irsick 6 окт 2022 в 15:35

Аналитика

Yo1 7 окт 2022 в 16:48

snowflake же просто sql engine, может и быстрый, не трогал, но запустить жава код как у бриксов с расчетами хоть ядерного синтеза не выйдет.

Ivan22 13 окт 2022 в 11:11

кому нужны расчеты ядерного синтеза, это бред, а sql нужен всем

Yo1 13 окт 2022 в 16:46

примерно половине пользователей датабрикс нужны. тренировка моделей не сильно от расчетов ядерного синтеза отличается. или видосик разложить на кадры и прогнать через опознавание лиц через opencv.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий