店铺如何选址?这个模型预测销售额,误差最低仅300元!

我是社区第94061位番薯,欢迎点我头像关注我哦~
店铺选址在生活中是经常接触到的,而且店铺选址对于企业的策略制定、营业额等都有直接或间接的影响,所以, 店铺选址并不是一个陌生的词。实际来讲店铺选址的最终落地点是店铺的未来一段时间的销量,企业通过预测店铺未来销量与开店标准对比,决定是否开这个店铺。因此,新店选址的过程也是做新店销量预测的过程。

一、新店为什么要选址?

长期性投资?
对于一个企业来讲,当外部环境发生变化时,除了店铺之外的其他经营因素都可以随之进行相应调整。但是“店址”一经确定就难以变动,因为店铺具备长期性和固定性,所以店铺是属于长期性的投资,选择一个好的地址来开店铺对于企业来讲是必要的。

企业营收的决定性因素?
《孙膑兵法》有语曰:“天时、地利、人和,三者不得,虽胜有秧。”店铺对于企业而言,就是地利因素,只要占有地利优势,就可以吸引顾客。实践证明,尽管在商品质量、服务水平、价格等基本相同的条件下,店铺所处的地理位置不同,最终的经济效益也可能有非常大的差距,这就是“地利”的作用。

制定经营目标与经营战略的重要依据?
企业在制定经营战略、目标以及在做投入规划时会考虑很多因素,其中包括对店铺的研究,比如店铺投入产出比的评估、店铺顾客群体构成、客流量等,都是店铺的附属属性,而这些对于企业制定战略计划等有着重大作用。


二、如何给店铺选址?

在做店铺选址时,有四个普遍的问题:这个地方人流量/客流量怎么样?这个地方周围的人消费水平怎么样?店铺开在这个地方销售额怎么样?这个地方符合企业商品的定位吗?

人流量/客流量如何衡量?
如何来衡量人流量?分为直接和间接两种方法,直接方法就是通过数学或者人为判定手段来直接统计店铺所在区域的人流量;间接方法则是通过诸如区域规划,商场、学校分布等相关的数据来侧方面映射人流量。

消费水平如何衡量?
消费水平的衡量主要是根据城市或者区域的收入水平以及区域人群工作性质分布等方面来进行统计衡量。

符合商品定位吗?
店铺地址是否符合商品定位,需要考虑店铺所在区域的文化环境、消费时尚以及店铺的形象特征等,对于这些因素来讲, 很难找到量化的标准。

销售额如何推断?
一个店铺的选址最终落地点还是在于销售额,企业关注的也是一个店铺开了之后每年能够赚多少钱,能带来多大的收益。销售额的判断主要是根据历史销售数据、竞争对手的销售额情况以及上述几个因素的综合考虑,从而在做店铺选址的时候能够估算到一个店铺未来一段时间的销售额。


三、店铺选址新利器:数据挖掘

大多数企业现在做新店铺选址时都是依靠简单的数学统计分析与人为经验加成下的主观判断,这种方法得出的结果会带有很强的个人感情色彩以及容易受局部数据影响而作出错误决定,从而导致最后店铺选址的结果并不可靠, 一个新店铺的销售额预估值与实际销售额存在极大的偏差。

但是使用数据挖掘来预测新店铺销售额则不会存在上述问题,其相对人为预估有如下几个优势:

不受人为主观情感影响
店铺选址时,人为做销售额预估会有一定的主观成分在里面,可能会主观认为某些地方销售额应该比较高,其他一些地方销售额应该较低。但是使用数据挖掘方法来做新店铺的销售额预测不会掺杂人为因素,最终出来的预测结果都是可衡量的科学结果。

能综合考虑所有因素
人为估算销售额时,会对某些因素有所侧重而忽略其他因素,因此导致思考片面,最终的预测结果与实际销售额有很大偏差。数据挖掘会将所有相关因素都考虑进去,通过历史数据的分析,为每一个因素分配合适的权重,从而对所有因素进行一个综合的考虑。

预测自动化
人为估算销售额,每一个新店铺都需要人工的去走一遍流程,效率非常低,而且门店数量与工作量成线性正比关系。数据挖掘预测店铺销售额预测能够实现自动化预测,只要输入新门店地址就能看见未来一段时间的销售额,从而决定是否选用此地址作为新店铺地址。

预测结果误差小
通过人为预测店铺销售额, 一个店铺一年的总误差最高可高达几百万,而帆软预测的销售额,一个店铺一年的总误差在20万左右,对于企业来讲,误差20万能够很好的去帮助企业完成经营战略与成本投入计划等策略制定。


四、帆软助力店铺选址

为了帮助企业能够更好的开展新店铺选址工作,帆软从给客户实施的店铺选址数据挖掘项目中总结出了一套成熟的店铺选址方案。

这套方案能够实现企业输入一个地址就输出这个地址未来一段时间销售额,从而根据销售额来判定该地址是否适合作为新店铺店址的需求场景。

帆软的店铺选址是基于FineBI产品实施的,分为开发环节和应用环节,其中开发环节主要是店铺销售额模型的建立,应用环节则是模型部署模型自动更新优化模型应用以及应用管理等内容。

如下图:
截图201811161556482538.png

帆软的新店铺销售额预测方案是在综合考虑新店铺基础数据、其他店铺历史销售额数据以及所在区域的人流量相关特征数据消费水平相关特征数据竞争对手销售额相关特征数据消费习惯相关特征数据等基础上使用机器学习算法建立机器学习模型。最终实现当员工输入一个新店铺的地址等基础数据后,模型就会输出该店铺未来一段时间的销售额的功能应用场景,并且该模型可以集成到其他应用实例中来使用。

帆软的实施方案基本步骤如下图,包括确定预测目标数据处理模型构建模型评价与优化模型应用五步,前四步是在挖掘数据价值,最后一步是在应用数据价值从而为企业带来更可观的经济效益。

截图201811161557274127.png



五、衣架项目案例

下面来看一下衣架的店铺选址项目,探究如何来做新店铺的销售额预测以及如何利用该预测结果完成店铺选址工作。(案例数据皆为脱敏数据)

项目背景
衣架作为一个大型的服装品牌企业,每年在全国各地会开很多新的门店,开店之前会有一个店铺选址的过程,历史做法是有一个专门的选址团队,去实地考察获取一些数据,然后通过对这些数据的简单分析加上经验来判断一个地址未来一年销售额会有多少,之后来决定要不要在这个地址开新店铺。
但是历史方法存在几个问题,一是需要养一个团队,成本太大;二是无法形成自动化,效率太低;三是误差太大,对企业决策等没有太大的帮助;四是非常仰仗经验,一旦人离职会受非常大的影响。

项目需求
为了消除或者优化以上的问题,衣架希望能用数据挖掘实现一个模型,使业务人员能够输入一个地址,模型即输出这个地址未来一年或者12个月的销售额。这样就不需要养一个庞大的团队,也能够实现自动化,还能够不受员工离职影响,更重要的是希望误差会小能对企业决策起到很大的作用。

通过沟通确认,确认该项目需求是预测每个新门店未来12个月每月的销售额以及未来一年的总销售额。

数据处理
衣架原有的数据包括店铺基础数据以及旧店铺的历史销售数据,与店铺选址相关的其他因素数据没有记录,主要是依靠人为判断。因此,该项目的数据处理主要包括以下工作:
(1)已有数据格式化:已有的数据格式不统一,需要进行格式转换与存储。
(2)收集数据:原始数据没有人流量、消费水平、消费时尚等数据,需要从外界获取。
(3)数据探索:数据探索与收集数据并没有先后过程,数据探索一是探索数据本身之间的关系,二是探索业务上的关系,是数据与业务两个方向上的共同深入。通过数据探索可以确定项目的算法选择范围以及获取尽可能全的数据为后续特征工程的构建奠定数据基础,对后续的工作至关重要。
(4)数据预处理:数据预处理是将获取的数据根据业务与后续算法实施来进行处理,比如异常值删除、缺失值填补、数据标准化等处理。
如下图,是使用lof算法进行异常值筛选的过程:
截图201811161558256882.png


特征工程与模型构建
所谓特征工程就是与预测结果相关的特征(标签、指标)组合,在该项目中就是指与新店铺相关的销售额特征组合。
该项目原始数据以及外界人流量、消费水平、消费时尚等相关数据总计50余特征,之后结合业务知识生成组合特征与leakage特征,构建的特征工程共计80余特征
特征工程构建完毕后,通过CFS、MRMR、MBF、SFS、GA、GBDT等特征相关性与权重分析方法综合分析,去除相关性与权重不高的特征,最终特征工程总计40余特征
通过需求分析与数据探索,考虑适合该项目的算法有决策树、随机森林、回归、XGBOST、神经网络、SVM等。项目实施过程中,通过模型准确率以及模型与业务的契合度对比,最终选择随机森林作为模型算法来构建模型。

模型评价与优化
模型评价与优化是一个迭代的过程,随着数据量的增加以及对业务理解的深入,模型都会有一个优化的过程。该项目中,除了使用交叉验证、混淆矩阵、AUC、ROC等常用方法之外,还将预测结果与实际生产环境中的新店铺销量做了误差分析,从技术与业务两个方向综合来做模型评价,评价结果真实可靠。
模型优化主要是在找到模型可改进的地方之后所做的事情,比如模型算法的参数调整、特征工程调整等。该项目中模型优化过程除了参数调整,主要就是依据业务,进行特征工程的调整以及数据清洗。比如业务研究过程中发现新的相关特征,需要将其加入特征工程;又比如所有店铺的第一个月销售额由于店铺刚开业往往不是一整个月,需要将其删除掉。

项目成果-特征权重
每个企业都有一个目标----提高自己企业的销售额。除了正常的业务拓展之外,如何来提高企业的销售额是每个企业都关注的问题,对于零售企业来讲,通过调控销售额相关因素从而间接实现销售额的提升是一个可行的方案。

在该项目中,将特征与销售额的相关性用权重来表示,权重越高表示该特征与销售额的相关性越强,对于销售额预测影响越大,衣架可以通过调控权重比较高的特征间接实现销售额提升,其特征权重结果如下:

截图201811161600205256.png
做特征权重分析时,总共分析了80余个特征,其中有很多重要特征是衣架之前没有关注的,这些特征的发现会给衣架未来的业务拓展带来很大的价值。


项目成果-销售额预测
该项目的销售额预测业务使用场景是给定一个店铺,然后使用模型预测出该店铺未来一年总销售额以及每个月的销售额,其预测结果如下:

截图201811161600599718.png

年份销售额预测的是新店铺从开店月份起未来一年的总销售额,如上图,预测了四个城市的四个新门店未来一年的总销售额。

截图201811161601386446.png

预测明细是指一个店铺未来12个月每月的销售额,如上图,就是一个新店铺未来12个月的月份销售额预测值。


销量预测误差分析
新店铺的销量预测准确性如何,需要拿到实际业务环境中去检验,因此,该项目新店铺销售额拿来与人为预测销售额、实际销售额做了个误差分析,以此来衡量店铺销量预测误差。

截图201811161602102831.png

如上图所示,人为预测月平均误差为8.08万,算法预测月平均误差为1.478万,人为预测误差大概为算法预测误差6倍算法预测最小误差仅300元,预测精度最高为99.7%,平均误差受部分误差大的店铺影响而上升,误差大的店铺很大原因是由于数据质量差以及数据量少的原因,导致预测误差相对较大,但随着数据质量与数据量的提升,此部分店铺的误差会进一步减小。

截图201811161602338782.png

如上图所示,四个店铺未来一年的销售额,项目算法预测销量与人为预测销量相差390万,根据月销售额误差与年销售额误差之间的关系,算法预测年销量总误差约为17.736万,人为预测年销量总误差约为96.96万。

直观的从数值上来看,百万级别的销售额预测误差仅十余万,月平均误差仅为1.478万,平均预测精度为85%,最高精度为99.7%。总的讲数据挖掘做新店销量预测的误差是人为预测的六分之一,精度最高为99.7%,能够帮助企业更精准的做好企业决策。

从精度的角度来讲,销售额的量级降低精度会有所降低,量级增加精度会有所提升,在企业数据无冷启动问题的前提下,预测精度会在90%-99%之间稳定波动。

模型应用
模型优化完成代表着数据背后隐藏的规则、关系与价值已经挖掘出来了, 接着就是如何使用这些价值即怎么来用这个模型。

比如将这个模型嵌套在店铺选址系统中,当员工输入一个地址就能查到这个地址未来一年或者未来12个月的销售额,来判断符不符合选址标准,以此判定是否选择这个地址作为备选。
又比如将这个模型嵌套在销售额调控系统中,通过模型中的特征权重以及特征与销售额的相关性,通过调节某些因素达到调控销售额的目的。

如下图,分析出该特征与销售额是成正相关的,特征值越大,销售额越大。如果该特征值是可以调控的,比如投入成本、店铺面积、店员数量等,则该企业可以增加这些投入,以此来刺激销售额的增加。如果该特征值是不可调控的,比如新店铺所在区域的消费水平、人流量等的,则衣架可以在选址时选择这些特征水平比较高的区域来开新店,以此来从根本上提升店铺销售额。

截图201811161603019904.png

与销售额相关的特征有正负相关,除了上述所示的正相关特征还有负相关特征,对于负相关特征,企业在实际业务开展中应该尽量降低或者避免选择负相关特征比较强的区域来开新店铺。
上述的特征权重使用与销售额预测场景都是结合到实际业务中应用的,更多的T+1离线或实时工程应用也需要与实际的业务场景结合起来,才能为企业产生最直接和最大化的价值。

客户评价

衣架CIO:此次团队与帆软团队的数据挖掘项目合作的非常顺利,帆软团队给予了我们很大的帮助,在数据挖掘的设计思路、实现方法上都给出了很关键的建议,这直接影响了我们此次项目的结果。

从结果来看,销售预测额最精准的能达到月误差三位数,这种预测结果相当准,对于我这边在某些决策层面产生了很大的帮助。

六、应势而谋,因势而动,顺势而为

随着技术的发展,通过人工去做新店铺选址的方法必将逐步被数据挖掘方法替代,在准确性不高、人为因素占比大的前提下,人工做店铺选址相对于数据挖掘来讲除了经验没有任何优势,恰巧的是经验是和人绑定的,一旦有人离职,经验也就没有了,人工的唯一优势也将荡然无存。

通过数据挖掘方法来开展店铺选址工作,没有人为情感干扰,也不用担心人员流失导致经验缺失,又在准确率、自动化的加成之下,未来必将成为主流。

古语有言:君子某时而动,顺势而为。

所以,你还在等什么?


有数据挖掘需求可以戳下边的链接填写相应信息哦:https://jiandaoyun.com/f/5be4eead77ad5070549f8a2f

发表于 2018-11-16 17:20:26
挖掘机技术哪家强?中国山东找蓝翔。
数据挖掘技术哪家强?中国江苏找帆软。

发表于 2018-11-17 10:37:00
好好学习学习
发表于 2019-12-22 01:38:32
来自手机
要是能集成python就好了,这些算法我只会用python做
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

3回帖数 1关注人数 6448浏览人数
最后回复于:2019-12-22 01:38

返回顶部 返回列表