请上传宽度大于 1200px,高度大于 164px 的封面图片
    调整图片尺寸与位置
    滚轮可以放大缩小图片尺寸,按住图片拖动可调整位置,多余的会自动被裁剪掉
取消
咿咿呀(uid:94061)
职业资格认证:FCP-FineBI | FCA-FineReport | FCA-FineBI
店铺如何选址?这个模型预测销售额,误差最低仅300元!
店铺选址在生活中是经常接触到的,而且店铺选址对于企业的策略制定、营业额等都有直接或间接的影响,所以, 店铺选址并不是一个陌生的词。实际来讲店铺选址的最终落地点是店铺的未来一段时间的销量,企业通过预测店铺未来销量与开店标准对比,决定是否开这个店铺。因此,新店选址的过程也是做新店销量预测的过程。 一、新店为什么要选址? 长期性投资? 对于一个企业来讲,当外部环境发生变化时,除了店铺之外的其他经营因素都可以随之进行相应调整。但是“店址”一经确定就难以变动,因为店铺具备长期性和固定性,所以店铺是属于长期性的投资,选择一个好的地址来开店铺对于企业来讲是必要的。 企业营收的决定性因素? 《孙膑兵法》有语曰:“天时、地利、人和,三者不得,虽胜有秧。”店铺对于企业而言,就是地利因素,只要占有地利优势,就可以吸引顾客。实践证明,尽管在商品质量、服务水平、价格等基本相同的条件下,店铺所处的地理位置不同,最终的经济效益也可能有非常大的差距,这就是“地利”的作用。 制定经营目标与经营战略的重要依据? 企业在制定经营战略、目标以及在做投入规划时会考虑很多因素,其中包括对店铺的研究,比如店铺投入产出比的评估、店铺顾客群体构成、客流量等,都是店铺的附属属性,而这些对于企业制定战略计划等有着重大作用。 二、如何给店铺选址? 在做店铺选址时,有四个普遍的问题:这个地方人流量/客流量怎么样?这个地方周围的人消费水平怎么样?店铺开在这个地方销售额怎么样?这个地方符合企业商品的定位吗? 人流量/客流量如何衡量? 如何来衡量人流量?分为直接和间接两种方法,直接方法就是通过数学或者人为判定手段来直接统计店铺所在区域的人流量;间接方法则是通过诸如区域规划,商场、学校分布等相关的数据来侧方面映射人流量。 消费水平如何衡量? 消费水平的衡量主要是根据城市或者区域的收入水平以及区域人群工作性质分布等方面来进行统计衡量。 符合商品定位吗? 店铺地址是否符合商品定位,需要考虑店铺所在区域的文化环境、消费时尚以及店铺的形象特征等,对于这些因素来讲, 很难找到量化的标准。 销售额如何推断? 一个店铺的选址最终落地点还是在于销售额,企业关注的也是一个店铺开了之后每年能够赚多少钱,能带来多大的收益。销售额的判断主要是根据历史销售数据、竞争对手的销售额情况以及上述几个因素的综合考虑,从而在做店铺选址的时候能够估算到一个店铺未来一段时间的销售额。 三、店铺选址新利器:数据挖掘 大多数企业现在做新店铺选址时都是依靠简单的数学统计分析与人为经验加成下的主观判断,这种方法得出的结果会带有很强的个人感情色彩以及容易受局部数据影响而作出错误决定,从而导致最后店铺选址的结果并不可靠, 一个新店铺的销售额预估值与实际销售额存在极大的偏差。 但是使用数据挖掘来预测新店铺销售额则不会存在上述问题,其相对人为预估有如下几个优势: 不受人为主观情感影响 店铺选址时,人为做销售额预估会有一定的主观成分在里面,可能会主观认为某些地方销售额应该比较高,其他一些地方销售额应该较低。但是使用数据挖掘方法来做新店铺的销售额预测不会掺杂人为因素,最终出来的预测结果都是可衡量的科学结果。 能综合考虑所有因素 人为估算销售额时,会对某些因素有所侧重而忽略其他因素,因此导致思考片面,最终的预测结果与实际销售额有很大偏差。数据挖掘会将所有相关因素都考虑进去,通过历史数据的分析,为每一个因素分配合适的权重,从而对所有因素进行一个综合的考虑。 预测自动化 人为估算销售额,每一个新店铺都需要人工的去走一遍流程,效率非常低,而且门店数量与工作量成线性正比关系。数据挖掘预测店铺销售额预测能够实现自动化预测,只要输入新门店地址就能看见未来一段时间的销售额,从而决定是否选用此地址作为新店铺地址。 预测结果误差小 通过人为预测店铺销售额, 一个店铺一年的总误差最高可高达几百万,而帆软预测的销售额,一个店铺一年的总误差在20万左右,对于企业来讲,误差20万能够很好的去帮助企业完成经营战略与成本投入计划等策略制定。 四、帆软助力店铺选址 为了帮助企业能够更好的开展新店铺选址工作,帆软从给客户实施的店铺选址数据挖掘项目中总结出了一套成熟的店铺选址方案。 这套方案能够实现企业输入一个地址就输出这个地址未来一段时间销售额,从而根据销售额来判定该地址是否适合作为新店铺店址的需求场景。 帆软的店铺选址是基于FineBI产品实施的,分为开发环节和应用环节,其中开发环节主要是店铺销售额模型的建立,应用环节则是模型部署、模型自动更新优化、模型应用以及应用管理等内容。 如下图: 123451 帆软的新店铺销售额预测方案是在综合考虑新店铺基础数据、其他店铺历史销售额数据以及所在区域的人流量相关特征数据、消费水平相关特征数据、竞争对手销售额相关特征数据、消费习惯相关特征数据等基础上使用机器学习算法建立机器学习模型。最终实现当员工输入一个新店铺的地址等基础数据后,模型就会输出该店铺未来一段时间的销售额的功能应用场景,并且该模型可以集成到其他应用实例中来使用。 帆软的实施方案基本步骤如下图,包括确定预测目标、数据处理、模型构建、模型评价与优化、模型应用五步,前四步是在挖掘数据价值,最后一步是在应用数据价值从而为企业带来更可观的经济效益。 123452 五、衣架项目案例 下面来看一下衣架的店铺选址项目,探究如何来做新店铺的销售额预测以及如何利用该预测结果完成店铺选址工作。(案例数据皆为脱敏数据) 项目背景 衣架作为一个大型的服装品牌企业,每年在全国各地会开很多新的门店,开店之前会有一个店铺选址的过程,历史做法是有一个专门的选址团队,去实地考察获取一些数据,然后通过对这些数据的简单分析加上经验来判断一个地址未来一年销售额会有多少,之后来决定要不要在这个地址开新店铺。 但是历史方法存在几个问题,一是需要养一个团队,成本太大;二是无法形成自动化,效率太低;三是误差太大,对企业决策等没有太大的帮助;四是非常仰仗经验,一旦人离职会受非常大的影响。 项目需求 为了消除或者优化以上的问题,衣架希望能用数据挖掘实现一个模型,使业务人员能够输入一个地址,模型即输出这个地址未来一年或者12个月的销售额。这样就不需要养一个庞大的团队,也能够实现自动化,还能够不受员工离职影响,更重要的是希望误差会小能对企业决策起到很大的作用。 通过沟通确认,确认该项目需求是预测每个新门店未来12个月每月的销售额以及未来一年的总销售额。 数据处理 衣架原有的数据包括店铺基础数据以及旧店铺的历史销售数据,与店铺选址相关的其他因素数据没有记录,主要是依靠人为判断。因此,该项目的数据处理主要包括以下工作: (1)已有数据格式化:已有的数据格式不统一,需要进行格式转换与存储。 (2)收集数据:原始数据没有人流量、消费水平、消费时尚等数据,需要从外界获取。 (3)数据探索:数据探索与收集数据并没有先后过程,数据探索一是探索数据本身之间的关系,二是探索业务上的关系,是数据与业务两个方向上的共同深入。通过数据探索可以确定项目的算法选择范围以及获取尽可能全的数据为后续特征工程的构建奠定数据基础,对后续的工作至关重要。 (4)数据预处理:数据预处理是将获取的数据根据业务与后续算法实施来进行处理,比如异常值删除、缺失值填补、数据标准化等处理。 如下图,是使用lof算法进行异常值筛选的过程: 123453 特征工程与模型构建 所谓特征工程就是与预测结果相关的特征(标签、指标)组合,在该项目中就是指与新店铺相关的销售额特征组合。 该项目原始数据以及外界人流量、消费水平、消费时尚等相关数据总计50余特征,之后结合业务知识生成组合特征与leakage特征,构建的特征工程共计80余特征。 特征工程构建完毕后,通过CFS、MRMR、MBF、SFS、GA、GBDT等特征相关性与权重分析方法综合分析,去除相关性与权重不高的特征,最终特征工程总计40余特征。 通过需求分析与数据探索,考虑适合该项目的算法有决策树、随机森林、回归、XGBOST、神经网络、SVM等。项目实施过程中,通过模型准确率以及模型与业务的契合度对比,最终选择随机森林作为模型算法来构建模型。 模型评价与优化 模型评价与优化是一个迭代的过程,随着数据量的增加以及对业务理解的深入,模型都会有一个优化的过程。该项目中,除了使用交叉验证、混淆矩阵、AUC、ROC等常用方法之外,还将预测结果与实际生产环境中的新店铺销量做了误差分析,从技术与业务两个方向综合来做模型评价,评价结果真实可靠。 模型优化主要是在找到模型可改进的地方之后所做的事情,比如模型算法的参数调整、特征工程调整等。该项目中模型优化过程除了参数调整,主要就是依据业务,进行特征工程的调整以及数据清洗。比如业务研究过程中发现新的相关特征,需要将其加入特征工程;又比如所有店铺的第一个月销售额由于店铺刚开业往往不是一整个月,需要将其删除掉。 项目成果-特征权重 每个企业都有一个目标----提高自己企业的销售额。除了正常的业务拓展之外,如何来提高企业的销售额是每个企业都关注的问题,对于零售企业来讲,通过调控销售额相关因素从而间接实现销售额的提升是一个可行的方案。 在该项目中,将特征与销售额的相关性用权重来表示,权重越高表示该特征与销售额的相关性越强,对于销售额预测影响越大,衣架可以通过调控权重比较高的特征间接实现销售额提升,其特征权重结果如下: 123454 做特征权重分析时,总共分析了80余个特征,其中有很多重要特征是衣架之前没有关注的,这些特征的发现会给衣架未来的业务拓展带来很大的价值。 项目成果-销售额预测 该项目的销售额预测业务使用场景是给定一个店铺,然后使用模型预测出该店铺未来一年总销售额以及每个月的销售额,其预测结果如下: 123455 年份销售额预测的是新店铺从开店月份起未来一年的总销售额,如上图,预测了四个城市的四个新门店未来一年的总销售额。 123456 预测明细是指一个店铺未来12个月每月的销售额,如上图,就是一个新店铺未来12个月的月份销售额预测值。 销量预测误差分析 新店铺的销量预测准确性如何,需要拿到实际业务环境中去检验,因此,该项目新店铺销售额拿来与人为预测销售额、实际销售额做了个误差分析,以此来衡量店铺销量预测误差。 123457 如上图所示,人为预测月平均误差为8.08万,算法预测月平均误差为1.478万,人为预测误差大概为算法预测误差6倍。算法预测最小误差仅300元,预测精度最高为99.7%,平均误差受部分误差大的店铺影响而上升,误差大的店铺很大原因是由于数据质量差以及数据量少的原因,导致预测误差相对较大,但随着数据质量与数据量的提升,此部分店铺的误差会进一步减小。 123458 如上图所示,四个店铺未来一年的销售额,项目算法预测销量与人为预测销量相差390万,根据月销售额误差与年销售额误差之间的关系,算法预测年销量总误差约为17.736万,人为预测年销量总误差约为96.96万。 直观的从数值上来看,百万级别的销售额预测误差仅十余万,月平均误差仅为1.478万,平均预测精度为85%,最高精度为99.7%。总的讲数据挖掘做新店销量预测的误差是人为预测的六分之一,精度最高为99.7%,能够帮助企业更精准的做好企业决策。 从精度的角度来讲,销售额的量级降低精度会有所降低,量级增加精度会有所提升,在企业数据无冷启动问题的前提下,预测精度会在90%-99%之间稳定波动。 模型应用 模型优化完成代表着数据背后隐藏的规则、关系与价值已经挖掘出来了, 接着就是如何使用这些价值即怎么来用这个模型。 比如将这个模型嵌套在店铺选址系统中,当员工输入一个地址就能查到这个地址未来一年或者未来12个月的销售额,来判断符不符合选址标准,以此判定是否选择这个地址作为备选。 又比如将这个模型嵌套在销售额调控系统中,通过模型中的特征权重以及特征与销售额的相关性,通过调节某些因素达到调控销售额的目的。 如下图,分析出该特征与销售额是成正相关的,特征值越大,销售额越大。如果该特征值是可以调控的,比如投入成本、店铺面积、店员数量等,则该企业可以增加这些投入,以此来刺激销售额的增加。如果该特征值是不可调控的,比如新店铺所在区域的消费水平、人流量等的,则衣架可以在选址时选择这些特征水平比较高的区域来开新店,以此来从根本上提升店铺销售额。 123459 与销售额相关的特征有正负相关,除了上述所示的正相关特征还有负相关特征,对于负相关特征,企业在实际业务开展中应该尽量降低或者避免选择负相关特征比较强的区域来开新店铺。 上述的特征权重使用与销售额预测场景都是结合到实际业务中应用的,更多的T+1离线或实时工程应用也需要与实际的业务场景结合起来,才能为企业产生最直接和最大化的价值。 客户评价 衣架CIO:此次团队与帆软团队的数据挖掘项目合作的非常顺利,帆软团队给予了我们很大的帮助,在数据挖掘的设计思路、实现方法上都给出了很关键的建议,这直接影响了我们此次项目的结果。 从结果来看,销售预测额最精准的能达到月误差三位数,这种预测结果相当准,对于我这边在某些决策层面产生了很大的帮助。 六、应势而谋,因势而动,顺势而为 随着技术的发展,通过人工去做新店铺选址的方法必将逐步被数据挖掘方法替代,在准确性不高、人为因素占比大的前提下,人工做店铺选址相对于数据挖掘来讲除了经验没有任何优势,恰巧的是经验是和人绑定的,一旦有人离职,经验也就没有了,人工的唯一优势也将荡然无存。 通过数据挖掘方法来开展店铺选址工作,没有人为情感干扰,也不用担心人员流失导致经验缺失,又在准确率、自动化的加成之下,未来必将成为主流。 古语有言:“君子某时而动,顺势而为。” 所以,你还在等什么? 有数据挖掘需求可以戳下边的链接填写相应信息哦:https://jiandaoyun.com/f/5be4eead77ad5070549f8a2f {:1_920:}
FineBI:数据挖掘的车,开了
我是帆软数据挖掘的产品经理,在FineBI的新版本5.0中,你们将看到数据挖掘功能,这是我们第一次做数据挖掘功能,自然是要广而告之了。市场部的同事来找我,希望我来写一篇文章宣传一下,作为产品经理,责无旁贷嘛。传统宣传三段论:功能业务价值好大->我们功能做的真好->客户给我们的评价很棒。嗯,这很简单,但缺了点什么。是什么呢?是诚意。所以我要写一些我真实的感受和想法,相信用心写的文字可以被感受到,和产品一样的。 数据挖掘很有趣,也很有用 这是我开始数据挖掘产品到现在以来最深的感受。 你一定听过黄金分割比率1.618,植物叶片形状、DNA分子结构、银河系的运行轨道都有这个比率的存在。你也应该听过斐波那契数列,从第三项开始,每一项都等于前两项之和:1、1、2、3、5、8、13、21、34...... ,这个数列后一项与前一项的比值无穷接近黄金分割1.618,是不是很神奇。同样的,自然中到处都是斐波那契数列,花瓣以及果实的排列方式,兔子的繁殖。再进一步,我们看斐波那契数列还有一个神奇的规律,前面n项的平方和=n项*n+1项,为什么?用一个图形来解释一下: 118913 因崔斯汀,但有什么用呢?首先,设计师对黄金分割的研究是很深入的,这个不谈。不知道你是否听过,股市中有个神奇的规律,不可解释但却有用,这就是斐波那契数列周期,看大盘的走势,可以看出每一次市场的月线回调连续下跌有一定的规律,即中级别的月线下跌往往调整5个月左右,大级别的下跌往往调整8个月左右,超大级别的下跌往往会在13个月附近见底。斐波那契数列在股市的时间变盘过程中起到了一定的预测作用,虽然不能保证每次预测的百分之百的正确,但多少也给投资者指出了一个方向。而从这里我看到的是,数学真的是很有用。 该说数据挖掘了,数据挖掘的定义是有很多的,解读它的定义是没什么意思的。我觉得,数据挖掘是拉近了数学和业务场景的距离的。比如我们曾经学过的线性代数,你可能已经忘了,可以通过下面的公式来回忆一下。 118914 矩阵的乘法为什么这样规定?为什么这么奇怪的乘法规则可以在实践中有着巨大的作用?很多看上去完全不相关的问题,最后却都可以归结到矩阵的乘法上,是不是很神奇?在矩阵乘法规则之下,是不是隐藏着世界的某些本质规律? 在我们的物理空间中,是存在运动的,在线性空间内,也是有运动的,而矩阵的乘法就是用来表达线性空间中对象的运动的。为了让你还能读下去,这里不能更多的展开了。你可能会问,矩阵运算也好,线性空间运动也好,它有什么用?当然是有用的,这些很难和生活联系起来的数学知识,在数据挖掘中都会用起来的。 人工神经网络相信你一定有所耳闻,然而你知道吗,人工神经网络中的每一层,都是由矩阵运算连接着的。它是什么作用呢,最基本的了解,看这个例子就够了。下面两个图,红线是一组数据,蓝线是一组数据,如何用一条直线把两组数据分开呢?(单层神经网络只能画出n-1维的超平面,所以二维数据只能划出一条线) 118916 答案就是增加一层神经元,将这个二维的空间的数据,通过矩阵乘法,运动到三维线性空间,形成下图所示的数据。这样,就可以一刀切下去,把两组数据分开了,而再把这三维线性空间变回二维,中间切开的那条直线,就变成了上图中的分割线,是条曲线。是不是很神奇? 118917 所以,神经网络的层数越多,他解决复杂问题的能力就越强,它可以识别风险、可以听声音、还可以鉴黄,前些日子又因为下棋大火了一把。当然,不管是矩阵运算,或是神经网络,都不是我今天的目的,他们都足够单独开几个主题了。你看,数学\数据挖掘是这么的因崔斯汀,这些知识也有如此多的应用,只是用起来难度确实高了点。想象一下,如果把这些知识封装起来整合到产品中,让很多企业都能享受数学福利,岂不是很赞。不用说,有这种想法的人,我不是第一个,这类的产品,市场上已经很多了。 有的在实干,有的在张望,有的在忽悠 这是我眼中的市场现象。数据挖掘知识能够发展,还是因为它有着巨大的商业价值,将它揉碎嚼烂应用到产品中,并且给企业带来商业价值的案例比比皆是。谷歌的搜索、抖音的推荐、阿里的医疗,随便一个都是让我们羡慕又赞叹的应用。 当然了,总要有人走在前面。如果你的企业还没有玩转数据挖掘,相信你也这样想过。他们因为对技术的掌握和应用赚的盆满钵满,我们虽然不能嫉妒,但也想通过这些技术喝点汤啊,毕竟已经有人走在了前面,应该不难吧。若是把他们走过的路原样都走一遍,好像也不太容易。但是如果将他们走过的路修一修,再通上公交车,这样走过去就好多了。同样,意识到这个问题的人,我不是第一个。(公交车意指市面上各种通用的数据挖掘类工具) 市场上的公交车也不少,大车小车,使命必达者为好车。可有一些车还真的是不够好,它不看路只会走直线。如果只是想要时间序列,就集成时间序列;想要聚类就集成聚类,要不了多久,这产品就已经功能齐全算法无数了。这样堆积功能的产品,除了POC时风光一时,真正用起来却各种别扭。整块整块开源算法的粗暴集成,让它们不能适应各种业务场景,而需要场景来适应算法,比如它的时序预测只支持一条序列,莫非让人家有好几百个产品的公司排队预测吗?这样造就了功能好买不好用的局面,中小企业通过第三方挖掘工具创造的挖掘价值的数量,并不理想。 我们来晚了,可这车一开,就停不下来 数学与数据挖掘很早就存在了,他们有趣也有用。没有更早一点开发她们的价值,服务我们的客户,是有遗憾的。往者不可谏,来者犹可追,我们还是来了。而且,我们为此做了些准备。FineBI5.0,我们吃透了一些算法也带来了这些算法,涉及了时间序列、聚类、关联规则、回归、分类这五类算法。我们知道,这还不够,学的越多越是觉得深不可测,所以,我们集成了R语言,很快也会集成Python,它山之石可以攻玉嘛。但是,这还是不够。 吃透的知识不是懂了,而是会用了,我们这车,卖出了票不行,送到你想去的地方才是价值。所以,在产品发布之前,我们就与我们的客户合作,将数据挖掘的价值应用到客户的业务中。这段时间,我们实现了采购价格异常的检测,我们实现了销售量的预测,我们将误差率降低到了三期权重误差为0.13;我们正挑战门店地址的销售额评估,样本量很少条件很艰苦,但我们也有了突破;我们跑了几十种算法对比分析、做了几百次的特征选择、遍历过算法的所有参数。我们也知道,现在的我们,现在的产品,都还只是初级阶段,要走的路还很远,这只是开始,但我们已经开始,就不会停下来,未来会有更强大的功能更深入的应用。 数学是个好东西,她可以服务更多的人,让高斯、莱布尼兹、欧拉、黎曼重新走进你的生活如何?总之,我们即将发车了,现在的票价不贵,等你上车,数学的乐趣和价值给你,使命必达给我们。 大风起兮云飞扬 118920 118921 1、基于过去的航空公司乘客数据预测未来十个月的乘客数量 118922 2、基于已有会员数据预测未注册客户的会员等级 118923 3、根据花萼长度和宽度、花瓣长度和宽度来对花卉种类分类 118925 最后,FineBI 5.0 已在官网上线,赶紧上车,体验一把数据挖掘! 118926
无锡有哪些好玩的地方推荐?
无锡有哪些好玩的地方推荐?不要景点,最好户外{:11_362:}
国庆大家都去哪儿玩啊?
国庆大家都去哪儿玩啊?
个人成就
内容被浏览17,922
加入社区6年234天
返回顶部