大数据分析入门:数据分析的步骤是什么?
来源:科象教育
数据就是对客观事物的逻辑归纳,是用于标识客观事物的未经加工的原始素材。
数据分析:所谓的数据就是通过工具或者方法把隐藏在数据背后的规律和价值提取处理的过程。
数据分析在商业中的作用
数据分析的结果给企业的决策提供支撑 支持决策。数据仓库的出现也是集成的数据分析平台 分析的结果支撑决策。
我们更加关注商业领域,也就是说企业为什么需要数据分析。
-
客观原因——对应历史数据
-
现状分析——对应当下数据
-
预测分析——结合数据预测未来
离线分析(批处理分析 batch processing)
分析已有的数据 历史数据,面向过去分析。
在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1)
实时分析 (Real time processing)
分析实时产生的数据 当下的数据 面向当下分析
所谓的实时从数据产生到分析到应用 时间间隔 秒级(spark streaming) 毫秒级(storm flink)
机器学习 (Machine Learning , ML)
基于历史数据和当下产生的实时数据预测未来发生的事情。
数据分析以下六个步骤
明确分析目的和思路
-
清晰数据分析思路和搭建整体分析框架,把分析目的分解,拆解成功能点,清晰明了,即分析的目的。
-
数据分析框架的体系化和逻辑化,先分析什么,后分析什么,各个分析点之间具有逻辑联系。
-
跟数据分析相关的营销、管理等理论统称为数据分析方法论。比如说用户行为理论、PEST分析法、5W2H分析法等。
目的:分析方向 分析的主题 要解决什么问题
思路:如何去开展数据分析 关键分析具有体系。
体系化也就是逻辑化,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑联系
数据收集
-
数据来源:
-
数据库 -
公开出版物 -
互联网 -
市场调查
企业常见数据源:
#1、业务数据(RDBMS 关系型数据库 比如:Mysql oracle 事务支持)
#2、日志数据、日志文件(服务器日志、应用日志、用户行为日志)
#3、爬虫数据
#4、其他事数据
数据处理
-
数据处理是指对收集的数据进行加工整理,形成适合数据分析的样式,是数据分析前必不可少的阶段。
-
数据处理目的是从大量、杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。
-
数据处理包括①数据清洗②数据转换③数据提取④数据计算等处理方法
-
数据处理是数据分析的接触
结构化数据、半结构化数据、非结构化数据
大数据青睐什么?结构化数据。
#所谓的结构化数据指的是具有schema约束信息的数据。 通俗理解易于程序处理解读的数据。
Schema 代表:字段和字段类型 (Hive Spark Flink都会使用到)
半结构化数据(json xml)
#经过预处理把数据变成干净规则统一整洁的结构化数据。
数据分析
-
数据分析是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。
-
数据挖掘其实是一种高级的数据分析方法,根据用户的需求,从大量的数据中挖掘出有用的信息。
-
数据挖掘侧重解决四类数据分析问题:①分类 ②聚类 ③关联 ④预测
数据展现
-
数据是通过表格和图形的方式来呈现的,我们常说用图表说话。
-
常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、漏斗图等。
报告撰写
-
数据分析报告其实是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考。
-
首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。
-
数据分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义。
-
最后,好的分析报告一定要有建议或解决方案。
思考:数据为什么会爆炸?
数据大爆炸和面临的挑战
-
挑战1:海量数据如何存储? -
挑战2:海量数据如何高效计算?
大数据5V特点
-
Volume:数据量大,包括采集、存储和计算的量都非常大;
-
Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据;
-
Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵;
-
Velocity:数据增长速度快,处理速度也快,时效性要求高;
-
Veracity:数据的准确性和可信赖度,即数据的质量。
大数据应用场景
电商方面:精准广告位,通过对用户的浏览行为,点击行为等进行大数据采集,分析,挖掘用户的二层三层喜欢,扩大产出。
传媒方面:猜你喜欢,通过对受众人群机型大数据分析,结合对应算法,对受众喜欢的进行交互推荐。
金融方面:理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。
交通方面:目前,交通的大数据应用主要在两个方面:一方面通过对车流量等海量数据的收集,估算,预测该路段一定时间内的车流量情况,给用户提供便利,合理进行道路规划;另一方面可以利用大数据来实现即时信号灯调度,提高已有线路通行能力。
电信方面:智慧营业厅,通过对用户当前的行为习惯、偏好,节假日的相应数据变化,调节自身业务结构,做到按需分配。
安防方面:人脸识别,通过人脸识别,匹配,存储用户数据,结合人工智能,分析及甄别用户行为,预防犯罪行为发生。
医疗方面:智慧医疗,通过对海量病例大数据的存储,匹配、检索、结合用户的饮食、行为等习惯,搭建智慧医疗体系。