随着大数据分析市场的快速扩展到各行业务,哪些大数据技术是刚需?哪些技术有极大的潜在价值?弗雷斯特研究公司发布的TechRadar: Big Data, Q1 2016报告评估了数据生命周期中22项大数据技术的成熟度和发展状态。本文介绍了排名靠前的10项大数据技术,可为大数据从业者的职业发展方向提供参考。
本文给出列出了kafka官方wiki文档中声称已经集成了kafka的各种工具,组成了kafka的生态系统。但是这些工具集成kafka效果如何本文未作评估。
主要提要
- 消息队列系统的应用场景
- 流行的消息队列系统ActiveMQ、RabbitMQ、Kafka的比较
- kafka支持的客户端语言
伯克利数据分析堆栈(BDAS, the Berkeley Data Analytics Stack)是由AMPLab实验室提供的,以Spark Core计算引擎为核心的,一套完整应对各种大数据处理场的Spark生态系统。伯克利数据分析堆栈也会随着开源软件的发展不断向前演变。 AMPLab实验室作为推动Spark生态向前发展的主要力量,其提供的伯克利数据分析堆栈非常值得技术人员持续关注。【草稿版。。。】
Apache Spark™ is a fast and general engine for large-scale data processing.
Apache Spark™是一个快速的、通用的,针对于大数据集的数据处理分析的计算引擎(框架)。
- Hadoop:数据存储(HDFS)与分析(MR)
- Spark:数据分析
在数据处理上Spark与MR比较,主要有如下四点优势特性