大数据导论

本文最后更新于:2 年前

前言

大数据学习笔记

一、企业数据分析方向

数据是什么

客观事物进行记录并可以鉴别的符号;

数据如何产生

对客观事物进行计量记录;

企业数据分析方向

现状分析:分析当下的数据;现阶段的整体情况,各个部分的构成占比、发展、变动;

原因分析:分析过去的数据;某一现状为什么发生,确定原因,做出调整优化;

预测分析:结合数据预测未来;结合已有数据预测未来的发展趋势;

离线分析(Batch Processing)———— 原因分析

面向过去,面向历史,分析已有的数据;
在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理

实时分析(Real Time Processing|Streaming)———— 现状分析

面向当下,分析实时产生的数据;
数据产生到数据分析到数据应用的时间间隔很短,可细分秒级,毫秒级;

机器学习(Machine Learning)———— 预测分析

基于历史数据和当下产生的实时数据预测未来发生的事情;
侧重于数学算法的运用,如分类、聚类、关联、预测;


二、数据分析基本步骤

概述

张文霖在《数据分析六部曲》说,典型的数据分析应该包含以下几个步骤:

  • 明确分析目的和思路
  • 数据收集
  • 数据处理
  • 数据分析
  • 数据展示
  • 报告攥写

Step1:明确分析目的和思路

目的:整个分析流程的起点,为数据的收集、处理、分析提供清晰的方向;
思路:分析框架体系化;先分析什么,再分析什么,后分析什么,使各分析节点具有逻辑联系,保证分析维度的完整性,分析结果的有效性正确性;需要数据分析方法论支撑;
数据分析方法论:一些营销管理学相关理论,比如用户行为理论,PEST分析法,5WSH分析法;

Step2:数据收集

数据从无到有的过程:比如传感器收集气象数据、埋点收集用户行为数据;
数据传输搬运的过程:比如采集数据库数据到数据分析平台;

当下企业当中一些常见的数据源和种类:

业务数据(RDBMS)
日志数据(服务器、应用日志)
爬虫数据(爬虫数据库)
互联网公开数据(行业、政府网站)

Step3:数据处理

准确来说,应该称之为数据预处理
数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗数据转化数据提取数据计算
数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据

Step4:数据分析

用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
需要掌握各种数据分析方法,还要熟悉数据分析软件的操作;

Step5:数据展现

数据展现又称之为数据可视化,指的是分析结果图标展示,因为人类是视觉动物;
数据可视化(Data Visualization)属于数据应用的一种;
注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等;

Step6:报告攥写

数据分析报告是对整个数据分析过程的一个总结与呈现;
把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考;
需要有明确的结论,最好有建议或解决方案;


三、大数据时代

背景

最早提出“大数据”时代 的是 麦肯锡 全球知名咨询公司;
2019年 央视《大数据时代》 政府治理、民生服务、数据安全、工业转型、未来生活等方面会带来改变和影响;

大数据定义

大数据(Big Data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;
是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;

大数据5V特征

5个V开头的单词,从5各方面准确、生动、形象的介绍了大数据特征;

  • DVolume:数据体量大
    采集数据量大;
    存储数据量大;
    计算数据量大;
    TB、PB级别起步;
  • Variety:种类、来源多样化
    种类:结构化、半结构化、非结构化;
    来源:日志文本、图片、音频、视频;
  • Value:低价值密度
    信息海量但是价值密度低;
    深度复杂的挖掘分析选哟机器学习参与;
  • Velocity:速度快
    数据增长速度快;
    获取数据速度快;
    数据处理速度快;
  • Veracity:数据的质量
    数据的准确性;
    数据的可信赖度;

应用场景:

电商领域:精准广告位、个性化推荐、大数据杀熟;
传媒领域:精准营销、猜你喜欢、交互推荐;
金融方面:理财投资;
交通领域:拥堵预测;
电信领域:舆情监控,用户画像;
安防领域:犯罪预防、天网监控;
医疗领域:智慧医疗、疾病预防、病源追踪;


四、分布式与集群

概念

分布式、集群是两个不同的概念,但口语中经常混淆二者

  • 分布式:多台机器;每台机器上部署不同组件
  • 集群:多台机器;每台机器上部署相同组件

混淆点

分布式、集群的共同点是:都是多台机器(服务器)组成的
因此口语中混淆两者概念的时候都是:相对于单机来说的

应用

数据大爆炸,海量数据处理场景面临问题;

如何存储? 单机存储有瓶颈,多台机器分布式存储;
如何计算? 单台计算能力有限,多台机器分布式计算;


大数据导论
https://www.chaierss.online/posts/9932f168.html
作者
Chaierss
发布于
2024年9月30日
许可协议