超干货!数据分析方法论、流程和框架?

楼主
九数云--人人可用的数据分析及可视化工具

今天把我沉淀下来的数据分析方法论分享一下。

做数据分析,可以参考下面这个基础流程:

第一阶段:明确业务的分析需求

关键点一:清晰问题类型

如下图数据分析的指标是具体的,不是宽泛的模糊的,如果在收到一个指令并不清晰时,就必须问清楚问题的类型。结合图中5个基本问题类型,明确业务要的到底是什么:

关键点二:清晰时间状态

数据的时间状态直接决定了工作内容,工作难度和工作方式。

  • 对于实时监控的,需要事先提出监控需求,数据更新频率,监控指标等等。
  • 对于预测的,关于预测的用途,预测的精确度,也都要事先问清楚。

这里有几个亲测好用的方法:

1)业务推演法

  • 基本原理:每个部门提出直接对明年业务指标走势的看法,形成假设,之后验证假设,排除不合理假设,基于假设推算最终业绩数据。
  • 准确度:低
  • 业务参与度:高

2)时间序列法:

  • 基本原理:利用一个指标的自身过往优势,建立与时间有关的模拟函数,模拟其未来走势(包括指数平滑,自回归等方法)
  • 准确度:中
  • 业务参与度:不存在

3)相关关系模型

  • 基本原理:找与预测指标相关的指标(不一定有逻辑上的因果关系),利用机器学习方法建立预测模型,包括(树模型,神经网络,SVR等均可用。
  • 准确度:高
  • 业务参与度:低

关键点三:清晰业务行动

如图 ,数据分析的优势,是对已经发生的问题做评估。还没发生的问题,如果具体的话可以做测试;如果不具体的话,只能从逻辑上推导,最终还是得落实到具体计划才能更进一步的分析。所以理清状态非常重要,不同状态对应的方法也不同。

关键点四:清晰业务目的

不多说了,都在图里:

第二阶段:获取数据

在明确业务分析需求后,要从行业网站、业务数据、调查问卷、数据库等源头获取数据,常见的数据存储方式有:

  • Excel(最方便)
  • 数据库(最常见)
  • 网络爬虫(最危险)

对互联网行业来说最常见的是数据库存储数据,数据库一般分为关系型数据库和非关系型数据库

常用的关系型数据库,比如:

  • Oracle:是世界上使用最为广泛的数据库管理系统
  • MySQL:MySQL 被广泛地应用在 Internet 上的中小型网站中。
  • DB2:它可以运行于多种操作系统之上,并分别根据相应平台环境作了调整和优化,以便能够达到较好的性能。

我们可以将数据库理解成一个存储数据的大仓库,数据查询语句SQL则是数据仓库管理员。

写好SQL是数据分析师的基本技能,利用SQL的增删改查功能,我们可以将业务数据取出,再利用Python、Excel等数据处理用具,将业务数据清洗、整理、汇总、透视。

第三阶段:数据处理

业务中直接产生的各种数据,存在错误值、遗漏值等数据,有时候还需要对数据进行汇总、整理才能用于进一步的数据分析。除了在SQL获取数据时直接进行处理,常见数据处理工具还有Excel和Python。

其中Excel是数据分析中最常用的工具,数据分析师必须掌握的技能包括数据透视表、各种数据函数、以及函数的叠加使用,包括sum、sumif、count、countif等统计函数,lookup系列查询函数、text等文本处理函数。

但当数据量达到一定级别,Excel操作起来会非常缓慢,对专业数据分析师,还需要充分掌握Python的使用方法,主要包括Numpy、Pandas、Scikit-learn等库的使用。

  • Numpy提供多维数组对象,用于对数组进行快速操作
  • Pandas擅长处理数字型数据和时间序列数据
  • Scikit-learn是基于 Python 语言的机器学习工具

除此之外,在进行数据处理时,除了简单的清洗和汇总,还需要运用一些数据统计学知识,判断数据的基本情况,因此需要数据分析师学习极差、方差、平均差、标准差等概念,对数据的分布情况也要有基本的理解。在互联网运营过程中,还会使用AB test等手段,获取用户数据,还会涉及到概率分布、假设检验等知识。

对数据分析整个流程,数据处理是至关重要的一环,数据处理的质量会直接影响数据分析结论,甚至导致业务做出错误的判断。

第四阶段:数据分析

当业务分析需求明确,数据处理好后,要开展具体的分析工作,分析的基本步骤:整体浏览数据→初步推测结论→数据论证

常见的分析方法:

灵活掌握和运用数据分析方法,尽量不要循规蹈矩的去按固定思路去思考问题,从数据中挖掘业务中忽略的信息。

第五阶段:数据展示&报告撰写

数据分析结果通常以数据分析报告或PPT形式展示,但现在2023年了,你还得学学使用BI商业智能做可视化的数据报告。

其中数据图表占据了分析报告或PPT的绝大部分篇幅,一张美观、合理、准确的图表能够传达出一千字也无法表达的信息,因此如何选择图表、制作图表示数据分析展示的关键。

常见的数据图表类型:

  • 对比类:柱状图、条形图、词云、气泡图、旋风图
  • 趋势类:折线图、面积图、瀑布图、流水图
  • 关系类:散点图、甘特图、树状图、思维导图
  • 位置类:热力图、等高线图、地理图、流向图
  • 占比类:饼状图、玫瑰图、矩阵图、雷达图、环形图

图表选择思路可以参考:

本文图表制作工具九数云免费使用链接:https://www.jiushuyun.com

分享扩散:

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

0回帖数 1关注人数 1301浏览人数
最后回复于:2023-6-27 16:46

返回顶部 返回列表