前沿追踪:伯克利数据分析堆栈

伯克利数据分析堆栈(BDAS, the Berkeley Data Analytics Stack)是由AMPLab实验室提供的,以Spark Core计算引擎为核心的,一套完整应对各种大数据处理场的Spark生态系统。伯克利数据分析堆栈也会随着开源软件的发展不断向前演变。 AMPLab实验室作为推动Spark生态向前发展的主要力量,其提供的伯克利数据分析堆栈非常值得技术人员持续关注。【草稿版。。。】

Spark四大特性

Apache Spark™ is a fast and general engine for large-scale data processing.
Apache Spark™是一个快速的通用的,针对于大数据集数据处理分析的计算引擎(框架)。

  • Hadoop:数据存储(HDFS)与分析(MR)
  • Spark:数据分析

在数据处理上Spark与MR比较,主要有如下四点优势特性

当前网速较慢或者你使用的浏览器不支持博客特定功能,请尝试刷新或换用Chrome、Firefox等现代浏览器