我是帆软数据挖掘的产品经理,在FineBI的新版本5.0中,你们将看到数据挖掘功能,这是我们第一次做数据挖掘功能,自然是要广而告之了。市场部的同事来找我,希望我来写一篇文章宣传一下,作为产品经理,责无旁贷嘛。传统宣传三段论:功能业务价值好大->我们功能做的真好->客户给我们的评价很棒。嗯,这很简单,但缺了点什么。是什么呢?是诚意。所以我要写一些我真实的感受和想法,相信用心写的文字可以被感受到,和产品一样的。
数据挖掘很有趣,也很有用
这是我开始数据挖掘产品到现在以来最深的感受。
你一定听过黄金分割比率1.618,植物叶片形状、DNA分子结构、银河系的运行轨道都有这个比率的存在。你也应该听过斐波那契数列,从第三项开始,每一项都等于前两项之和:1、1、2、3、5、8、13、21、34...... ,这个数列后一项与前一项的比值无穷接近黄金分割1.618,是不是很神奇。同样的,自然中到处都是斐波那契数列,花瓣以及果实的排列方式,兔子的繁殖。再进一步,我们看斐波那契数列还有一个神奇的规律,前面n项的平方和=n项*n+1项,为什么?用一个图形来解释一下:
因崔斯汀,但有什么用呢?首先,设计师对黄金分割的研究是很深入的,这个不谈。不知道你是否听过,股市中有个神奇的规律,不可解释但却有用,这就是斐波那契数列周期,看大盘的走势,可以看出每一次市场的月线回调连续下跌有一定的规律,即中级别的月线下跌往往调整5个月左右,大级别的下跌往往调整8个月左右,超大级别的下跌往往会在13个月附近见底。斐波那契数列在股市的时间变盘过程中起到了一定的预测作用,虽然不能保证每次预测的百分之百的正确,但多少也给投资者指出了一个方向。而从这里我看到的是,数学真的是很有用。
该说数据挖掘了,数据挖掘的定义是有很多的,解读它的定义是没什么意思的。我觉得,数据挖掘是拉近了数学和业务场景的距离的。比如我们曾经学过的线性代数,你可能已经忘了,可以通过下面的公式来回忆一下。
矩阵的乘法为什么这样规定?为什么这么奇怪的乘法规则可以在实践中有着巨大的作用?很多看上去完全不相关的问题,最后却都可以归结到矩阵的乘法上,是不是很神奇?在矩阵乘法规则之下,是不是隐藏着世界的某些本质规律?
在我们的物理空间中,是存在运动的,在线性空间内,也是有运动的,而矩阵的乘法就是用来表达线性空间中对象的运动的。为了让你还能读下去,这里不能更多的展开了。你可能会问,矩阵运算也好,线性空间运动也好,它有什么用?当然是有用的,这些很难和生活联系起来的数学知识,在数据挖掘中都会用起来的。
人工神经网络相信你一定有所耳闻,然而你知道吗,人工神经网络中的每一层,都是由矩阵运算连接着的。它是什么作用呢,最基本的了解,看这个例子就够了。下面两个图,红线是一组数据,蓝线是一组数据,如何用一条直线把两组数据分开呢?(单层神经网络只能画出n-1维的超平面,所以二维数据只能划出一条线)
答案就是增加一层神经元,将这个二维的空间的数据,通过矩阵乘法,运动到三维线性空间,形成下图所示的数据。这样,就可以一刀切下去,把两组数据分开了,而再把这三维线性空间变回二维,中间切开的那条直线,就变成了上图中的分割线,是条曲线。是不是很神奇?
所以,神经网络的层数越多,他解决复杂问题的能力就越强,它可以识别风险、可以听声音、还可以鉴黄,前些日子又因为下棋大火了一把。当然,不管是矩阵运算,或是神经网络,都不是我今天的目的,他们都足够单独开几个主题了。你看,数学\数据挖掘是这么的因崔斯汀,这些知识也有如此多的应用,只是用起来难度确实高了点。想象一下,如果把这些知识封装起来整合到产品中,让很多企业都能享受数学福利,岂不是很赞。不用说,有这种想法的人,我不是第一个,这类的产品,市场上已经很多了。
有的在实干,有的在张望,有的在忽悠
这是我眼中的市场现象。数据挖掘知识能够发展,还是因为它有着巨大的商业价值,将它揉碎嚼烂应用到产品中,并且给企业带来商业价值的案例比比皆是。谷歌的搜索、抖音的推荐、阿里的医疗,随便一个都是让我们羡慕又赞叹的应用。
当然了,总要有人走在前面。如果你的企业还没有玩转数据挖掘,相信你也这样想过。他们因为对技术的掌握和应用赚的盆满钵满,我们虽然不能嫉妒,但也想通过这些技术喝点汤啊,毕竟已经有人走在了前面,应该不难吧。若是把他们走过的路原样都走一遍,好像也不太容易。但是如果将他们走过的路修一修,再通上公交车,这样走过去就好多了。同样,意识到这个问题的人,我不是第一个。(公交车意指市面上各种通用的数据挖掘类工具)
市场上的公交车也不少,大车小车,使命必达者为好车。可有一些车还真的是不够好,它不看路只会走直线。如果只是想要时间序列,就集成时间序列;想要聚类就集成聚类,要不了多久,这产品就已经功能齐全算法无数了。这样堆积功能的产品,除了POC时风光一时,真正用起来却各种别扭。整块整块开源算法的粗暴集成,让它们不能适应各种业务场景,而需要场景来适应算法,比如它的时序预测只支持一条序列,莫非让人家有好几百个产品的公司排队预测吗?这样造就了功能好买不好用的局面,中小企业通过第三方挖掘工具创造的挖掘价值的数量,并不理想。
我们来晚了,可这车一开,就停不下来
数学与数据挖掘很早就存在了,他们有趣也有用。没有更早一点开发她们的价值,服务我们的客户,是有遗憾的。往者不可谏,来者犹可追,我们还是来了。而且,我们为此做了些准备。FineBI5.0,我们吃透了一些算法也带来了这些算法,涉及了时间序列、聚类、关联规则、回归、分类这五类算法。我们知道,这还不够,学的越多越是觉得深不可测,所以,我们集成了R语言,很快也会集成Python,它山之石可以攻玉嘛。但是,这还是不够。
吃透的知识不是懂了,而是会用了,我们这车,卖出了票不行,送到你想去的地方才是价值。所以,在产品发布之前,我们就与我们的客户合作,将数据挖掘的价值应用到客户的业务中。这段时间,我们实现了采购价格异常的检测,我们实现了销售量的预测,我们将误差率降低到了三期权重误差为0.13;我们正挑战门店地址的销售额评估,样本量很少条件很艰苦,但我们也有了突破;我们跑了几十种算法对比分析、做了几百次的特征选择、遍历过算法的所有参数。我们也知道,现在的我们,现在的产品,都还只是初级阶段,要走的路还很远,这只是开始,但我们已经开始,就不会停下来,未来会有更强大的功能更深入的应用。
数学是个好东西,她可以服务更多的人,让高斯、莱布尼兹、欧拉、黎曼重新走进你的生活如何?总之,我们即将发车了,现在的票价不贵,等你上车,数学的乐趣和价值给你,使命必达给我们。
大风起兮云飞扬
1、基于过去的航空公司乘客数据预测未来十个月的乘客数量
2、基于已有会员数据预测未注册客户的会员等级
3、根据花萼长度和宽度、花瓣长度和宽度来对花卉种类分类
最后,FineBI 5.0 已在官网上线,赶紧上车,体验一把数据挖掘!
|