Comments / Profile of VadimGeynts / Habr

User

Применение low-code в аналитических платформах

VadimGeynts Oct 1 2020 at 07:37

Фактически разницы может и не быть. Оба подхода сводятся к использованию оптимизатора Catalyst. Использование DataFrame API позволяет отловить некоторые ошибки на этапе компиляции, а ошибку в запросе SQL мы увидим только во время выполнения.
Вот статья, в которой производится сравнение: https://community.cloudera.com/t5/Community-Articles/Spark-RDDs-vs-DataFrames-vs-SparkSQL/ta-p/246547

Look

Применение low-code в аналитических платформах

VadimGeynts Sep 25 2020 at 13:33

В Datagram есть несколько видов трансформаций которые можно использовать из визуального редактора, один из видов это блок SparkSQL, который преобразуется в код Scala выдающий на выходе DataSet:

...
val queryResult = spark.sql("SELECT * FROM people WHERE age > 30 ")
queryResult.as[mainSparkSQLSchema]

Также есть специализированные визуальные блоки, которые преобразуются в нотацию DataFrame API (фильты, join, группировки, и т.д.)

преобразуется в код


def getSelectionFilter(spark: SparkSession, Expression_3: Dataset[Expression_3Schema]) = {
    import spark.implicits._
       
    Expression_3.filter(s"""age>30""")
  }

  def getAggregationDM(spark: SparkSession, SelectionFilter: Dataset[Expression_3Schema]) = {
    import spark.implicits._
        SelectionFilter
             .groupBy("id").agg($"id")
    .as[AggregationDMSchema]  
  }

Look