一、Spark概述
Apache Spark是一种快速通用的集群计算系统。它提供使用Python、Java、Scala、SQL(应对交互式查询)的标准API来快速操控大规模数据集。它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的Spark SQL,用于实时数据进行流式计算Spark Streaming,用于机器学习的MLlib和用于图形处理的GraphX等。满足各种不同应用场景下的需求,俨然发展成了一种生态。
Spark的一个主要特点就是能够在内存中进行计算,因而更快。不过即使是必须在磁盘上进行的复杂计算,Spark 依然比MapReduce更加高效。
伴随着人工智能与机器学习的快速发展,TensorFlow on Spark、Caffe on Spark也让Spark变得更加火爆。
二、推荐一本书
《Spark快速大数据分析》是一本为Spark初学者准备的书,它没有过多深入实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark的用法,它对Spark的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。
该书由Spark开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用Spark收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题