9fff2b2afdafd859a9418a3a5cf3b7da
计算能力-基于Spark生态技术搭建

服务计算核心架构基于Spark生态技术栈搭建。

Spark Core

Spark Core是整个BDAS生态系统地核心组件,是一个分布式大数据处理框架。Spark Core中提供了多种资源部调度管理,通过内存计算、有向无环图(DAG)等机制来保证分布式计算的快速,并引入了RDD的抽象保证数据的高容错性。

  • Spark Core提供了多种运行方式,其中包括Standalone、YARN、MESOS等
  • Spark Core提供了有向无环图(DAG)的分布式计算框架,并提供了内存机制来支持多次迭代计算或者数据共享,大大减少了迭代计算之间读取数据的开销。
  • 在Spark中引入了RDD的抽象,它是分布在一组节点中的只读对象集合,这些集合是弹性的,如果数据集一部分丢失,则可以根据“血统”对他们进行重建,保证了数据的高容错性。

SparkSQL

Spark SQL允许开发人员直接处理RDD,同时也可查询例如在 Apache Hive上存在的外部数据。Spark SQL的一个重要特点是其能够统一处理关系表和RDD,使得开发人员可以轻松地使用SQL命令进行外部查询,同时进行更复杂的数据分析。
Spark SQL的特点:

  • 引入了新的RDD类型SchemaRDD,可以象传统数据库定义表一样来定义SchemaRDD,SchemaRDD由定义了列数据类型的行对象构成。SchemaRDD可以从RDD转换过来,也可以从Parquet文件读入,也可以使用HiveQL从Hive中获取。
  • 内嵌了Catalyst查询优化框架,在把SQL解析成逻辑执行计划之后,利用Catalyst包里的一些类和接口,执行了一些简单的执行计划优化,最后变成RDD的计算
top Created with Sketch.