选手简介
- 选手介绍
帆软社区用户名天下无米,目前就职于新兴铸管股份有限公司,我司是铸管行业领导者,和帆软的多次合作关系已经历十年之久。本人目前从事信息化工作岗位,侧重于数仓建设及数据分析应用领域。
- 参赛初衷
个人业余时间有关注部分彩票网站的数据,针对这部分数据,作为业余爱好,也尝试过爬取程序的开发,但爬取之后的分析应用不成体系,多有局限,本次参赛旨在抛砖引玉,希望能跟各位导师就业务背景充分交流,打开分析思路。
作品介绍
- 业务背景
本人经常关注的某网站直接或间接体现了【专家、指标、指标值、指标值预测情况】这4个维度的结构化数据。拿到这部分数据,我们可以大胆的猜测,针对某一指标,每期的专家用户猜中该指标的人数能否稳定在一个范围。如果上述猜测能证实,这对我们后续的彩票购买策略有很大的指导意义。
1.数据来源
- 自选数据
- 目前是通过开发实现这部分数据爬取的,近一个月的爬取结果已通过excel的形式导入FineBI,导入FineBI之后主要通过自助数据集的形式支撑走势图的实现,相关数据源依次截图如下:
;
;
。
2.分析思路
因为该网站列举的指标比较多,为了突出分析结果,本次参赛只使用了其中的两个在彩票行业比较熟知的指标【双胆】和【三胆】。假设该网站每一期参与预测的专家总人数是X,然后命中的专家人数是X1,未命中的专家人数是X2,且X=X1+X2。比对历史数据发现,X稳定在350-400这个区间,然后我大胆猜测,X1近一个月的走势能否像正态分布一样稳定在某一个区间。
3.数据处理
新建自助数据集的过程中有涉及数据处理,主要是把“期号”这一字段类型从数字变成文本,然后设置过滤只保留近一个月的数据,再设置过滤只保留命中数据,最后按期号分组汇总,具体截图如下:
4.可视化报告
- 已提交的仪表板中使用了两个折线图控件,一个文本组件,第一个折线图是总览,第二个折线图是切换指标维度再观察,文本组件是结论描述,具体截图如下:
- 、现尝试对采集的数据进行走势分析,重点考察每日预测专家的中奖人数按不同指标维度能否稳定在一个区间范围,不是完全随机的。从上图可以看出,不同维度下的中奖人数在一定时间范围内存在一个相对稳定的区间。
- 该网站福彩3D每次预测专家人数,三胆这一指标的平均中奖人数为241,双胆这一指标的平均中奖人数为115;同时,三胆指标命中两个号码的专家人数范围为21-84,双胆指标命中一个号码的专家人数范围为104-188。
- 参考上述分析,我们明天购买彩票的策略是:假设拟购买的号码为XYZ,然后针对明天采集的专家预测信息进行统计,若统计结果表明XYZ这一注号码明显不满足②中的区间范围,则XYZ这一注号码应该被舍弃,否则保留。
公共链接:https://bisolutions.fanruan.com/webroot/decision/link/XFFa
参赛总结
FineBI工具
我最开始购买及使用FineBI的时候,功能比较简陋,还是3.7版本,现在产品迭代已经比较成熟了,从可视化工具这个角度来说,支撑日常工作肯定是够用了,但令我不解的是,FineBI之前上线过数据挖掘模块,内置了一些回归分析,相关性分析功能,后来全部下线了,不知道负责产品的同学有没有考虑再恢复这些功能,期待中。
参赛总结
准备作品的过程中,把自己的思路跟身边的朋友也分享了下,没想到其他的小伙伴会对目前的作品感兴趣,一直担心比较冷门,一般人会有歧视,不太能接受,但分享完之后没想到不只一个人有兴趣了解这个预测功能,也算是参赛的意外收获吧。 |