Spark快速大数据分析

| 2022-09-09 admin

一、Spark概述

Apache Spark是一种快速通用的集群计算系统。它提供使用Python、Java、Scala、SQL（应对交互式查询）的标准API来快速操控大规模数据集。它还支持一组丰富的高级工具，包括用于SQL和结构化数据处理的Spark SQL，用于实时数据进行流式计算Spark Streaming，用于机器学习的MLlib和用于图形处理的GraphX等。满足各种不同应用场景下的需求，俨然发展成了一种生态。

Spark的一个主要特点就是能够在内存中进行计算，因而更快。不过即使是必须在磁盘上进行的复杂计算，Spark 依然比MapReduce更加高效。

伴随着人工智能与机器学习的快速发展，TensorFlow on Spark、Caffe on Spark也让Spark变得更加火爆。

二、推荐一本书

《Spark快速大数据分析》是一本为Spark初学者准备的书，它没有过多深入实现细节，而是更多关注上层用户的具体用法。不过，本书绝不仅仅限于Spark的用法，它对Spark的核心概念和基本原理也有较为全面的介绍，让读者能够知其然且知其所以然。

该书由Spark开发者及核心成员共同打造，讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark，它带领读者快速掌握用Spark收集、计算、简化和保存海量数据的方法，学会交互、迭代和增量式分析，解决分区、数据本地化和自定义序列化等问题