阿里大数据分析概述

大数据 分析 阿里 概述 数据| 2022-09-05 admin

文章目录

  • ​大数据分析的定义​
  • ​大数据分析的能力体系​
  • ​大数据产生的根源​
  • ​大数据分析的技术基础​
  • ​大数据分析技术的发展阶段​
  • ​大数据分析的开源框架​

       

    什么是大数据

    大数据(Big Data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    大数据的特征

    大数据的主要特征我们可以用4个V来概括:

    • Volume,大数据的体量非常巨大
    • Variety,种类繁多,大数据的来源多种多样
    • Value,大数据的价值密度低
    • Velocity,我们处理大数据的速度要足够的快

    Volume

    • 根据IDC做出的估测,数据一直都在以每年50%的速度增长,即两年增长一倍
    • 人类在最近两年产出的数据量相当于之前产生的全部数据量
    • 人类生产的所有印刷材料的数据量是200PB
    • 历史上全人类说过的所有的话的数据量大约是5EB(1EB=1024PB)
    • 典型个人计算机硬盘的容量为TB量级
    • 一些大企业的数据量已经接近EB量级

    Variety

    • 10%为结构化数据,通常存储在数据库中
    • 90%为非结构化数据,格式多种多样

    Value

    • 以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒,价值密度低,商业价值高。

    Velocity

    • 从数据的生成到消费,时间窗口非常小,可用于生成决策的时间非常少。

    大数据的分类

    阿里大数据分析与应用(part1)--大数据概述_数据

    大数据的应用领域

    大数据的应用领域非常的广泛,不论是零售、电商、金融等商业领域,还是制造、能源等工业领域,大数据在各行各业中都发挥着非常重要的作用:

    阿里大数据分析与应用(part1)--大数据概述_机器学习_02

    大数据带来的挑战

    • 数据规模太大,超出了我们的存储能力,存储面临巨大考验;
    • 数据多样性或异构性;
    • 数据量大,如何做到实时性需求?如果说相应的速度太慢,会严重影响用户的体验,从而造成流失
    • 数据的价值密度低,这要求我们需要分辨出那些是真正有意义数据,尽可能的提高效率,去除冗余,使用最有价值的那部分数据进行分析

    大数据的意义

    大数据对于我们的社会会带来很多变革,比如说商业的变革、管理的变革以及思维的变革。

    • 大数据 – 让经营及决策有据可依

    大数据可以让我们深入洞察客户,实现个性化营销和服务;可以深入数据挖掘,实现预测性营销;可以进行全面的数据分析,使经营决策更科学。

    • 大数据 – 让社会管理更智慧

    大数据使城市管理精细化智能化;使公共服务个性化智能化;使事件应对更高效更智能。

    • 大数据-改变着我们的思维

    阿里大数据分析与应用(part1)--大数据概述_数据_03

    大数据分析

    大数据分析的定义

    数据分析是基于商业等目的,有目的地进行收集、整理、加工和分析数据,提炼有价值信息的过程。大数据分析即针对海量的、多样化的数据集合的分析。

    阿里大数据分析与应用(part1)--大数据概述_大数据分析_04

    大数据分析的能力体系

    阿里大数据分析与应用(part1)--大数据概述_大数据_05

    大数据产生的根源

    阿里大数据分析与应用(part1)--大数据概述_数据_06

    大数据分析的技术基础

    阿里大数据分析与应用(part1)--大数据概述_大数据分析_07

    大数据分析技术的发展阶段

    阿里大数据分析与应用(part1)--大数据概述_机器学习_08

    大数据分析的开源框架

    • 存储层, HDFS 已经成为了大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成了 K-V( key-value)、列式、文档、图这四类 NoSQL 数据库体系, Redis、 HBase、 MongoDB、Neo4j 等数据库是各个领域的领先者。
    • 在·计算处理引擎方面, Spark已经取代 MapReduce 成为了大数据平台统一的计算平台,在实时计算领域 Flink 是 Spark Streaming 强力的竞争者。
    • 数据查询和分析领域,形成了丰富的 SQL on Hadoop 的解决方案, Hive、 HAWQ、Impala、 Presto、Spark SQL 等技术与传统的大规模并行处理( massively parallel processor, MPP)数据库竞争激烈,目前 Hive 还是这个领域当之无愧的王者。
    • 数据可视化领域,敏捷商业智能( business intelligence,BI)分析工具 Tableau、QlikView 通过简单的拖拽来实现数据的复杂展示,是目前最受欢迎的可视化展现方式。