提问
 找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,极速登录

FineBI:数据挖掘的车,开了

帆软_数据挖掘 帆软员工 初学乍练(Lv1)
发表于 2018-9-27 14:18:17 | 显示全部楼层 |取消关注该作者的回复
我是帆软数据挖掘的产品经理,在FineBI的新版本5.0中,你们将看到数据挖掘功能,这是我们第一次做数据挖掘功能,自然是要广而告之了。市场部的同事来找我,希望我来写一篇文章宣传一下,作为产品经理,责无旁贷嘛。传统宣传三段论:功能业务价值好大->我们功能做的真好->客户给我们的评价很棒。嗯,这很简单,但缺了点什么。是什么呢?是诚意。所以我要写一些我真实的感受和想法,相信用心写的文字可以被感受到,和产品一样的。

数据挖掘很有趣,也很有用
这是我开始数据挖掘产品到现在以来最深的感受。
你一定听过黄金分割比率1.618,植物叶片形状、DNA分子结构、银河系的运行轨道都有这个比率的存在。你也应该听过斐波那契数列,从第三项开始,每一项都等于前两项之和:1、1、2、3、5、8、13、21、34......  ,这个数列后一项与前一项的比值无穷接近黄金分割1.618,是不是很神奇。同样的,自然中到处都是斐波那契数列,花瓣以及果实的排列方式,兔子的繁殖。再进一步,我们看斐波那契数列还有一个神奇的规律,前面n项的平方和=n项*n+1项,为什么?用一个图形来解释一下:

1.png

因崔斯汀,但有什么用呢?首先,设计师对黄金分割的研究是很深入的,这个不谈。不知道你是否听过,股市中有个神奇的规律,不可解释但却有用,这就是斐波那契数列周期,看大盘的走势,可以看出每一次市场的月线回调连续下跌有一定的规律,即中级别的月线下跌往往调整5个月左右,大级别的下跌往往调整8个月左右,超大级别的下跌往往会在13个月附近见底。斐波那契数列在股市的时间变盘过程中起到了一定的预测作用,虽然不能保证每次预测的百分之百的正确,但多少也给投资者指出了一个方向。而从这里我看到的是,数学真的是很有用。

该说数据挖掘了,数据挖掘的定义是有很多的,解读它的定义是没什么意思的。我觉得,数据挖掘是拉近了数学和业务场景的距离的。比如我们曾经学过的线性代数,你可能已经忘了,可以通过下面的公式来回忆一下。

2.png

矩阵的乘法为什么这样规定?为什么这么奇怪的乘法规则可以在实践中有着巨大的作用?很多看上去完全不相关的问题,最后却都可以归结到矩阵的乘法上,是不是很神奇?在矩阵乘法规则之下,是不是隐藏着世界的某些本质规律?

在我们的物理空间中,是存在运动的,在线性空间内,也是有运动的,而矩阵的乘法就是用来表达线性空间中对象的运动的。为了让你还能读下去,这里不能更多的展开了。你可能会问,矩阵运算也好,线性空间运动也好,它有什么用?当然是有用的,这些很难和生活联系起来的数学知识,在数据挖掘中都会用起来的。

人工神经网络相信你一定有所耳闻,然而你知道吗,人工神经网络中的每一层,都是由矩阵运算连接着的。它是什么作用呢,最基本的了解,看这个例子就够了。下面两个图,红线是一组数据,蓝线是一组数据,如何用一条直线把两组数据分开呢?(单层神经网络只能画出n-1维的超平面,所以二维数据只能划出一条线)

3.png


答案就是增加一层神经元,将这个二维的空间的数据,通过矩阵乘法,运动到三维线性空间,形成下图所示的数据。这样,就可以一刀切下去,把两组数据分开了,而再把这三维线性空间变回二维,中间切开的那条直线,就变成了上图中的分割线,是条曲线。是不是很神奇?

4.png


所以,神经网络的层数越多,他解决复杂问题的能力就越强,它可以识别风险、可以听声音、还可以鉴黄,前些日子又因为下棋大火了一把。当然,不管是矩阵运算,或是神经网络,都不是我今天的目的,他们都足够单独开几个主题了。你看,数学\数据挖掘是这么的因崔斯汀,这些知识也有如此多的应用,只是用起来难度确实高了点。想象一下,如果把这些知识封装起来整合到产品中,让很多企业都能享受数学福利,岂不是很赞。不用说,有这种想法的人,我不是第一个,这类的产品,市场上已经很多了。

有的在实干,有的在张望,有的在忽悠

这是我眼中的市场现象。数据挖掘知识能够发展,还是因为它有着巨大的商业价值,将它揉碎嚼烂应用到产品中,并且给企业带来商业价值的案例比比皆是。谷歌的搜索、抖音的推荐、阿里的医疗,随便一个都是让我们羡慕又赞叹的应用。

当然了,总要有人走在前面。如果你的企业还没有玩转数据挖掘,相信你也这样想过。他们因为对技术的掌握和应用赚的盆满钵满,我们虽然不能嫉妒,但也想通过这些技术喝点汤啊,毕竟已经有人走在了前面,应该不难吧。若是把他们走过的路原样都走一遍,好像也不太容易。但是如果将他们走过的路修一修,再通上公交车,这样走过去就好多了。同样,意识到这个问题的人,我不是第一个。(公交车意指市面上各种通用的数据挖掘类工具)

市场上的公交车也不少,大车小车,使命必达者为好车。可有一些车还真的是不够好,它不看路只会走直线。如果只是想要时间序列,就集成时间序列;想要聚类就集成聚类,要不了多久,这产品就已经功能齐全算法无数了。这样堆积功能的产品,除了POC时风光一时,真正用起来却各种别扭。整块整块开源算法的粗暴集成,让它们不能适应各种业务场景,而需要场景来适应算法,比如它的时序预测只支持一条序列,莫非让人家有好几百个产品的公司排队预测吗?这样造就了功能好买不好用的局面,中小企业通过第三方挖掘工具创造的挖掘价值的数量,并不理想。

我们来晚了,可这车一开,就停不下来

数学与数据挖掘很早就存在了,他们有趣也有用。没有更早一点开发她们的价值,服务我们的客户,是有遗憾的。往者不可谏,来者犹可追,我们还是来了。而且,我们为此做了些准备。FineBI5.0,我们吃透了一些算法也带来了这些算法,涉及了时间序列、聚类、关联规则、回归、分类这五类算法。我们知道,这还不够,学的越多越是觉得深不可测,所以,我们集成了R语言,很快也会集成Python,它山之石可以攻玉嘛。但是,这还是不够。

吃透的知识不是懂了,而是会用了,我们这车,卖出了票不行,送到你想去的地方才是价值。所以,在产品发布之前,我们就与我们的客户合作,将数据挖掘的价值应用到客户的业务中。这段时间,我们实现了采购价格异常的检测,我们实现了销售量的预测,我们将误差率降低到了三期权重误差为0.13;我们正挑战门店地址的销售额评估,样本量很少条件很艰苦,但我们也有了突破;我们跑了几十种算法对比分析、做了几百次的特征选择、遍历过算法的所有参数。我们也知道,现在的我们,现在的产品,都还只是初级阶段,要走的路还很远,这只是开始,但我们已经开始,就不会停下来,未来会有更强大的功能更深入的应用。

数学是个好东西,她可以服务更多的人,让高斯、莱布尼兹、欧拉、黎曼重新走进你的生活如何?总之,我们即将发车了,现在的票价不贵,等你上车,数学的乐趣和价值给你,使命必达给我们。

大风起兮云飞扬


5.png


6.png


1、基于过去的航空公司乘客数据预测未来十个月的乘客数量

7.png


2、基于已有会员数据预测未注册客户的会员等级

8.png


3、根据花萼长度和宽度、花瓣长度和宽度来对花卉种类分类

9.png


最后,FineBI 5.0 已在官网上线,赶紧上车,体验一把数据挖掘!






评分

参与人数 1F豆 +10 收起 理由
suainam + 10 骚年,我看好你哦

查看全部评分

此帖共有 301 位番薯登录后查看

已有1人关注本帖

chandler7966
回复

使用道具 举报

竹林舞剑  初出茅庐(Lv3)
发表于 2018-9-27 14:26:57 | 显示全部楼层 |取消关注该作者的回复
  • 评论

回复 支持 反对

使用道具 举报

19陈墨 社区微信达人 初学乍练(Lv1)
发表于 2018-9-27 16:25:15 | 显示全部楼层 |取消关注该作者的回复
  • 评论

回复 支持 反对

使用道具 举报

传说哥 社区微信达人实名认证 番薯互助团队 帆软员工 管理员
发表于 2018-9-27 18:25:57 | 显示全部楼层 |取消关注该作者的回复

  • 评论

回复 支持 1 反对 0

使用道具 举报

NH206 社区微信达人实名认证 初学乍练(Lv1)
发表于 2018-9-27 22:03:56 | 显示全部楼层 |取消关注该作者的回复
额。。。。。不懂,有空还请视频传道
  • 评论

回复 支持 反对

使用道具 举报

laobiah 社区微信达人 渐入佳境(Lv2)
发表于 2018-9-28 08:23:54 | 显示全部楼层 |取消关注该作者的回复
厉害了
  • 评论

回复 支持 反对

使用道具 举报

dtrzj139 社区微信达人实名认证 初学乍练(Lv1)
发表于 2018-9-28 11:41:57 | 显示全部楼层 |取消关注该作者的回复
66666
  • 评论

回复 支持 反对

使用道具 举报

wangxing  初出茅庐(Lv3)
发表于 2018-9-28 15:32:08 | 显示全部楼层 |取消关注该作者的回复
得好好学学
  • 评论

回复 支持 反对

使用道具 举报

tissot  渐入佳境(Lv2)
发表于 2018-9-28 16:33:42 | 显示全部楼层 |取消关注该作者的回复
比较难哎。作为一款工具类软件,对用户的要求有点高。
作为普通用户,一是要对算法以及算法中的参数意义与调教有理解(早期调参基本瞎子摸象),二是要对行业业务精通,三是要有整合应用的经验和能力,如果要再好点,还要再加一条:四、较强的创新意识和能力,这个也是个人感觉最难的,要不断的做从零到一的事。
当然,还有一些非技术因素(所有数据挖掘项目都不可避免的面临这类风险):挖是挖了,但结果发现数据里基本都是沙子,没几粒金子。业务部门气的哇哇叫,技术部门……老板,你听我解释……

总之,比起报表类项目的成功难度,这个恐怕要高一个数量级。当然事在人为,天道酬勤。努力吧,骚年。
  • 评论

回复 支持 1 反对 0

使用道具 举报

南京环洋财 社区微信达人 初学乍练(Lv1)
发表于 2018-9-28 19:19:24 来自手机 | 显示全部楼层 |取消关注该作者的回复
  • 评论

回复 支持 反对

使用道具 举报

chandler7966 帆软员工 初学乍练(Lv1)
发表于 2018-9-29 09:26:15 | 显示全部楼层 |取消关注该作者的回复
tissot 发表于 2018-9-28 16:33
比较难哎。作为一款工具类软件,对用户的要求有点高。
作为普通用户,一是要对算法以及算法中的参数意义与 ...

作为挖掘工具的使命,就是把复杂的东西包装起来,让用户快速的享受功能。如同食物需要保鲜,冰箱的将所有制冷所需的东西都封装好,我么只需要知道哪些东西需要制冷,会用冰箱封装好的功能就好了。

文章内容涉及些基础知识,但是工具的使用是不需要用户知道这些的,否则就不会有人用了。

你说的一些是对的,很多数据是不值得挖掘的,这是挖掘项目的一个难点,但是经过数据探索,这类的数据和需求,大多可以在项目开始前评估出来是否可以实现以及能够实现的程度,这些我们可以帮助可以一起来做。数据挖掘的知识和应用现在普及率还很低,希望我们可以为此做些有价值的事情。
  • 评论

回复 支持 反对

使用道具 举报

星痕 社区微信达人番薯互助团队 文档共创团队 互助叫兽、助理编辑、VIP1
发表于 2018-9-29 10:06:55 | 显示全部楼层 |取消关注该作者的回复
涉及到很多数据方便专业的东西,对我这个小学生来说理解起来稍微有点费劲,不过追寻数据价值的精神一定是值的肯定的,希望FineBI可以做的更好。
  • 评论

回复 支持 反对

使用道具 举报

Alonsosfaol 社区微信达人实名认证 渐入佳境(Lv2)
发表于 2018-9-30 09:46:17 | 显示全部楼层 |取消关注该作者的回复
每一个字我都认识,组合到一起就懵逼了
  收起(1)
  • 帆软-Royide 帆软-Royide : 浩总真幽默。。。。
    2018-10-22 14:52 评论
  • 评论

回复 支持 反对

使用道具 举报

suainam 社区微信达人实名认证 初学乍练(Lv1)
发表于 2018-9-30 13:25:41 | 显示全部楼层 |取消关注该作者的回复
黄金分割比率怎么是1.618呢??不是0.618吗??
  • 评论

回复 支持 反对

使用道具 举报

xiuleo  初学乍练(Lv1)
发表于 2018-9-30 16:57:20 | 显示全部楼层 |取消关注该作者的回复
suainam 发表于 2018-9-30 13:25
黄金分割比率怎么是1.618呢??不是0.618吗??

1:0.618   1/0.618=1.618
  • 评论

回复 支持 反对

使用道具 举报

我从山中来 社区微信达人实名认证 番薯互助团队 文档共创团队 互助砖家、助理编辑
发表于 2018-10-12 08:35:02 | 显示全部楼层 |取消关注该作者的回复
  • 评论

回复 支持 反对

使用道具 举报

15991602646 实名认证 渐入佳境(Lv2)
发表于 2018-10-15 14:20:14 | 显示全部楼层 |取消关注该作者的回复
我喜欢挖掘机,666666
  • 评论

回复 支持 反对

使用道具 举报

larven 社区微信达人 初学乍练(Lv1)
发表于 2018-11-24 18:15:56 | 显示全部楼层 |取消关注该作者的回复
豆豆真难赚!!一次来500个吧!!
  • 评论

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册  

本版积分规则

what a fine day
任务进行中

联系管理员@兔子酱|联系帆软|免责声明|手机版|帆软社区|Copyright © 帆软软件有限公司 ( 苏ICP备14031611号-3 )

GMT+8, 2018-12-13 10:21 , Processed in 0.977656 second(s), 198 queries , Gzip On.

返回顶部 返回列表