Как стать автором
Обновить

Комментарии 16

не понял заголовка. Из-за того что сноуфлейк пришел в бигдату - ей конец???? Или что?

Заголовок я тоже не осилил, но понял что основной посыл автора: бигдата стала обычной скучной технологией, после сноуфлейк и бигквери новых инноваций не надо. Тупик развития, он же идеал нужный пользователю.

Мое мнение что процентов для 80 бизнес пользователей это наверное так. Другие 20 не вписываются, кому нужны продвинутый дата саенс, кому реалтайм, кому большие графы...

только не 20, а 2

Databricks, как и Snowflake, предлагает быструю, размещаемую на хостинге поставщика базу данных с практически бесконечными возможностями масштабирования.

Databricks - это в первую очередь Spark и сопутсвующая экосистема, плюс сейчас инструменты для всяких ML/AI/Data Science. Данные они для вас тоже могут хранить, но это необязательно - мы, например, этой функциональностью не пользуемся. Никакую БД они не предлагают - lakehouse это другое, но SQL интерфейс у этого всего есть.

Я так понял он на lakehouse и ворчит. Но вообще, статья ни о чем. Сравнивать всю инфраструктуру Databricks со snowflake ну такое. Единственное, что было для меня полезным, так это то, что я про Fivetran раньше почему то не слышал, сейчас вот посмотрю.

да, лучше взять что-то простое и нужно и просто это ускорить, чем много функционала.

Что значит верить в будущее bigdata вообще? Оно уже настоящее. Всё вот эти продукты и Snowflake и Bigquery и т.д. и т.п. они и так созданы и используются и будут использоваться для обработки данных, которые невозможно (или лень, или дорого, или просто так модно потому что "мы datadriven компания") обрабатывать на своих мощностях.

Если выбирать DB as a Service, то Snowflake - отличный конкурент Redshift, BigQuery. Если же надо развернуть BigData кластер в облаке, то здесь Databricks даёт готовое «скучное» решение.

Проблема в том, что «скучное» решение не подходит, когда у вас на проекте Kafka, Cassandra и HDFS. Тут уж берёте Spark и пишете нескучный BigData код.

А почему kafka с databricks не подходит? Hdfs вы имеете в виду не в облаке, а в в своих датацентрах?

поэтому на новых проектах уже hdfs и не встретишь, это уже прошлое

У меня несколько иной опыт работы со Snowflake. Нужен был data lake, а самописное решение на Postgress/RDS уже явно не тянуло.

Ребята из Snowflake аккуратно и правильно собрали все требования и выкатили кастомизированную презентацию, которая покрывала 97% проблем. Не было никаких продаванов и левых менеджеров. Было 2 программиста-ставших-сейлсами, которые очень грамотно и четко отвечали на все проблемы либо сами сразу, либо посовещавшись с командой разработки.

Прототип запили тоже они, причем всего за пару недель.

В итоге осталось очень приятное впечатление. Единственный неприятный момент - негибкая система кредитов по принципу "use it or loose it", которая держит на коротком поводке.

Отчасти, поэтому и ушли в итоге на BigQuery, но это уже совсем другая история...

так в итоге и не понятно, зачем вам даталейк, если подшел в итоге вариант с реляционной дб

Аналитика

snowflake же просто sql engine, может и быстрый, не трогал, но запустить жава код как у бриксов с расчетами хоть ядерного синтеза не выйдет.

кому нужны расчеты ядерного синтеза, это бред, а sql нужен всем

примерно половине пользователей датабрикс нужны. тренировка моделей не сильно от расчетов ядерного синтеза отличается. или видосик разложить на кадры и прогнать через опознавание лиц через opencv.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий