文章目录
- Volume
- Variety
- Value
- Velocity
- 大数据的分类
- 大数据的应用领域
- 大数据带来的挑战
- 大数据的意义
- 大数据分析
- 大数据分析的定义
- 大数据分析的能力体系
- 大数据产生的根源
- 大数据分析的技术基础
- 大数据分析技术的发展阶段
- 大数据分析的开源框架
什么是大数据
大数据(Big Data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的特征
大数据的主要特征我们可以用4个V来概括:
- Volume,大数据的体量非常巨大
- Variety,种类繁多,大数据的来源多种多样
- Value,大数据的价值密度低
- Velocity,我们处理大数据的速度要足够的快
Volume
- 根据IDC做出的估测,数据一直都在以每年50%的速度增长,即两年增长一倍
- 人类在最近两年产出的数据量相当于之前产生的全部数据量
- 人类生产的所有印刷材料的数据量是200PB
- 历史上全人类说过的所有的话的数据量大约是5EB(1EB=1024PB)
- 典型个人计算机硬盘的容量为TB量级
- 一些大企业的数据量已经接近EB量级
Variety
- 10%为结构化数据,通常存储在数据库中
- 90%为非结构化数据,格式多种多样
Value
- 以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒,价值密度低,商业价值高。
Velocity
- 从数据的生成到消费,时间窗口非常小,可用于生成决策的时间非常少。
大数据的分类
大数据的应用领域
大数据的应用领域非常的广泛,不论是零售、电商、金融等商业领域,还是制造、能源等工业领域,大数据在各行各业中都发挥着非常重要的作用:
大数据带来的挑战
- 数据规模太大,超出了我们的存储能力,存储面临巨大考验;
- 数据多样性或异构性;
- 数据量大,如何做到实时性需求?如果说相应的速度太慢,会严重影响用户的体验,从而造成流失
- 数据的价值密度低,这要求我们需要分辨出那些是真正有意义数据,尽可能的提高效率,去除冗余,使用最有价值的那部分数据进行分析
大数据的意义
大数据对于我们的社会会带来很多变革,比如说商业的变革、管理的变革以及思维的变革。
- 大数据 – 让经营及决策有据可依
大数据可以让我们深入洞察客户,实现个性化营销和服务;可以深入数据挖掘,实现预测性营销;可以进行全面的数据分析,使经营决策更科学。
- 大数据 – 让社会管理更智慧
大数据使城市管理精细化智能化;使公共服务个性化智能化;使事件应对更高效更智能。
- 大数据-改变着我们的思维
大数据分析
大数据分析的定义
数据分析是基于商业等目的,有目的地进行收集、整理、加工和分析数据,提炼有价值信息的过程。大数据分析即针对海量的、多样化的数据集合的分析。
大数据分析的能力体系
大数据产生的根源
大数据分析的技术基础
大数据分析技术的发展阶段
大数据分析的开源框架
- 在存储层, HDFS 已经成为了大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成了 K-V( key-value)、列式、文档、图这四类 NoSQL 数据库体系, Redis、 HBase、 MongoDB、Neo4j 等数据库是各个领域的领先者。
- 在·计算处理引擎方面, Spark已经取代 MapReduce 成为了大数据平台统一的计算平台,在实时计算领域 Flink 是 Spark Streaming 强力的竞争者。
- 在数据查询和分析领域,形成了丰富的 SQL on Hadoop 的解决方案, Hive、 HAWQ、Impala、 Presto、Spark SQL 等技术与传统的大规模并行处理( massively parallel processor, MPP)数据库竞争激烈,目前 Hive 还是这个领域当之无愧的王者。
- 在数据可视化领域,敏捷商业智能( business intelligence,BI)分析工具 Tableau、QlikView 通过简单的拖拽来实现数据的复杂展示,是目前最受欢迎的可视化展现方式。