请上传宽度大于 1200px,高度大于 164px 的封面图片
    调整图片尺寸与位置
    滚轮可以放大缩小图片尺寸,按住图片拖动可调整位置,多余的会自动被裁剪掉
取消
OneOkReport(uid:285975)
别再奢侈浪费 职业资格认证:尚未取得认证
怎么才有数据分析思路?
直接拿例子来说,大家去餐厅吃饭时,如果你仔细观察的话,餐厅大致可以分为以下两类付费模式: 1)使用大众点评优惠吸引用户结账 2)直接使用微信或支付宝结账 这两类结账方式,表面看是商家的促销行为不同。但是,从长远来看,第一类餐厅更容易胜出。 这是为什么呢? 因为第一类餐厅的结账模式是建立在互联网产品基础设施(大众点评或者百度糯米)之上,通过与互联网产品结合,可以积累用户的消费信息,例如消费评论。这就好比线下商店老板比不过淘宝卖家一样,因为淘宝卖家有自己客户的详细购物信息,更了解自己的客户。 更有远见的餐厅老板,会雇佣聪明的数据分析师,来整合挖掘餐厅线下软件(订餐管理软件)和 线上用户信息(如大众点评的评论),从而为制定餐厅未来的运营决策提供依据。 然而,很多传统的公司并没有意识去积累用户的消费数据,更别说对数据进行分析来指导公司运营了。说到底,其根本原因是公司的负责人没有数据分析思维。 那么,什么是数据分析思维呢? 数据分析思维是通过各种方法收集用户的数据,了解用户需求,然后改进你的个人决策,不断迭代。 如何建立数据分析思维呢? 对于数据分析师来说,刚开始肯定是能做一些有趣的分析,但是长期做数据分析工作,想法总会枯竭,寻找分析思路就变得异常痛苦。可以这么说,分析思路直接奠定了数据分析结论的准确性和实用性。因此,懂得如何寻找数据分析思路是每个数据分析师必须具备的能力。 面对一个业务场景,我们如何能够寻找到正确的数据分析思路呢?在我看来,所谓正确的分析思路,本质上就是站在一定高度的业务思维逻辑,因此数据分析思路更多考量的还是一名数据分析师对业务的理解和眼界。今天给大家分享一些可以提升自己分析思路的5个方法,希望能给你们带来帮助。 由浅至深分成4项:角色扮演、业务指标、现成模型、维度分析 01 角色扮演 这个方法就是尝试把自己“扮演”成公司不同的角色,站在他人的视角上来寻找有哪些需要进行数据分析的点。用这种方式能够找到的数据分析思路往往是对方最需要的,自然也就具有更高的价值。 比如,你可以把自己扮演成公司的销售、投资人、运营、财务、客户、供应商等,站在这些视角寻找有哪些有帮助的分析思路。 之前在一家公司,把自己放在销售的角色上,发现公司对于潜在客户的收集和分析非常缺失,这样就影响了整个公司的销售效果。于是从这个角度出发,专门去相关网站爬取数据,通过地域、规模、员工人数等方面去分析,找出最有可能购买我们服务的潜在客户。最后这个分析结果得到销售团队的极度认可,提升了公司销售业绩。 用这种方法做角色扮演的时候大家一定要尽量贴近角色的日常生活,只有这样才能发现最有价值的分析思路。 02 业务指标 这个是非常常见的分析方法。比如公司这个月的销售指标下降了,那么你就着手去分析指标下降的原因;同样,如果指标上升了,也去分析原因。一个公司的指标往往比较标准,比如利润率,销售额,客户增长等等。所以这样的方法比较通用,也比较简单。 在分析指标时有一点一定要注意,就是除了分析出原因外,还有就是要给出解决方案。比如分析发现客户数近期有下降,那么除了给出原因外,还要给出增加客户数的方法以及这些方法背后的数据模型推理,形成一个完整的故事。 03 运用一些现成的模型 大家想好方向之后会遇到一个问题,那就是到底应该从几个维度用什么样子的模型来做分析呢?这个时候就体现一名数据分析师的基本功了。其实数据模型中包含了很多对于基础数据分析的思路,这些思路虽然比较单一,但哪个出彩的思路不是由单一的组合而成呢? 除了熟悉模型外,熟练的掌握数据分析的工具也能很大的帮助数据分析的验证。数据分析思路是需要打磨的,特别是刚刚产出的分析思路更需要通过数据去验证和调整。这个时候一个方便快速的数据分析工具会起到很重要的作用。下面就给大家分享一个具体的数据分析思维方法。 04 维度分析法 我们先了解一下维度分析法:维度是描述对象的参数,在具体分析中,我们可以把它认为是分析事物的角度。销量是一种角度、活跃率是一种角度,时间也是一种角度,所以它们都能算维度。 当我们有了维度后,就能够通过不同的维度组合,形成数据模型。数据模型不是一个高深的概念,它就是一个数据立方体。 130500 上图就是三个维度组成的数据模型/数据立方体。分别是产品类型、时间、地区。我们既能获得电子产品在上海地区的2010二季度的销量,也能知道书籍在江苏地区的2010一季度销量。 数据模型将复杂的数据以结构化的形式有序的组织起来。我们之前谈到的指标,都可以作为维度使用。下面是范例: 将用户类型、活跃度、时间三个维度组合,观察不同用户群体在产品上的使用情况,是否A群体使用的时长更明显? 将商品类型、订单金额、地区三个维度组合,观察不同地区的不同商品是否存在销量差异? 数据模型可以从不同的角度和层面来观察数据,这样提高了分析的灵活性,满足不同的分析需求、这个过程叫做OLAP(联机分析处理)。当然它涉及到更复杂的数据建模和数据仓库等,我们不用详细知道。‍ 数据模型还有几种常见的技巧、叫做钻取、上卷、切片。 选取就是将维度继续细分。比如浙江省细分成杭州市、温州市、宁波市等,2010年一季度变成1月、2月、3月。 上卷则是钻取的相反概念,将维度聚合,比如浙江、上海、江苏聚合成浙江沪维度。 切片是选中特定的维度,比如只选上海维度、或者只选2010年一季度维度。 130501 上图的树状结构代表钻取(source和time的细分),然后通过对Route的air切片获得具体数据。 聪明的你可能已经想到,我们常用的数据透视表就是一种维度分析,将需要分析的维度放到行列组合进行求和、计数、平均值等计算。放一张曾经用到的案例图片:用城市维度和工作年限维度,计算平均工资。 130502 除了Excel、BI、R、Python都能用维度分析法。BI是相对最简便的。谈到维度法,想要强调的是分析的核心思维之一:对比,不同维度的对比,这大概是对新人快速提高的最佳捷径之一。 总结一下:我们通过业务建立和筛选出指标,将指标作为维度,利用维度进行分析。 这里我想强调,数据分析并不是一个结果,只是过程。还记得“如果你不能衡量它,那么你就不能有效增长它”这句话吗?数据分析的最终目的就是增长业务。如果数据分析需要绩效指标,一定不会是分析的对错,而是最终数据提升的结果。 数据分析是需要反馈的,当我分析出某项要素左右业务结果,那么就去验证它。告诉运营和产品人员,看看改进后的数据怎么样,一切以结果为准。如果结果并没有改善,那么就应该反思分析过程了。 作者:miao君 链接:https://www.zhihu.com/question/284174976/answer/835282007 来源:知乎
一文告诉你全世界最顶级的开发者都在使用什么数据库
130118 作为一名IT行业从业者,其实从去年已经隐隐约约感觉到数据库的有变化,只是没有想到变得这么快。今年的一些事情实实在在地给了某些数据库重击,如果以前去某数据库还是喊喊,然后该用还用,今年从传统领域刮起的去某数据库的风,已经开始了,并且后面的乌云密布也看得见。 最近看一篇国外的开源产品提供厂商的一篇文字,主要是在询问了他的几百位客户后得出了下图中的2019年数据库的使用趋势。 130119 从图中可以看出,MySQL以38.9%的使用率高居榜首,其次是MongoDB(24.6%)、PostgreSQL(17.4%)、Redis(8.4%)和Cassandra(3.0%)。在这些数据库中,Oracle仅占1.8%,而CouchDB、Berkeley DB、Microsoft SQL Server、Redshift、Firebase、Elasticsearch 整合后的影响力和用户的总和仅为2.4%。 但该调查报告却与DB-engine排名趋势流行度报告大相径庭,Oracle数据库在此报告中排名第一,不过笔者认为,任何文字都是可能是偏颇或有倾向性的,每个人看完后都可能有自己的想法,或认同或反对,就如同最近最热的一句话“人心中的成见是一座大山,任你怎么努力休想搬动”。 130121 130120 MySQL 仍然是排名第一的免费开源数据库,占开源数据库使用量的 30% 以上。这并不奇怪,根据 DB-Engines,MySQL 多年来一直保持在这个位置。根据笔者多年来的从业经验,我认为MySQL数据库确实配得上这个排名,原因如下。 1.完全开源 MySQL最强大的优势之一在于他的数据库管理系统(DBMS,Database Management System)是一个开源系统。当然,开源并不意味着免费,它还是有许多付费功能。但是开源的特点给予用户可以根据自己需要修改DBMS的自由。 MySQL采用了GPL(General Public License),这意味着授权给用户可以阅读,修改和优化源代码,这样即使是免费版的MySQL的功能也足够强大。这也是MySQL如此受欢迎的原因之 一。 2.快速更新和用户友好 在其他数据库(例如Orcale、MSSQL Sever)更新缓慢的时候,MySQL很少让他的用户等待。每当新的版本出来之后,MySQL都会成为大多数服务器的主要数据库。Linux web服务器已经成为现在web服务器的主流,MySQL在linux服务器上面也得到了广泛的应用。 3.WebsitePanel,phpMyAdmin 和MySQl的黄金组合 对于初学者来说,通过虚拟主机商提供的websitepanel控制面板学习MySQL是一个很不错的方法。用户不仅可以观看很多视频教程来学习使用 MySQL,还可以使用PhpMyAdmin通过web方式管理数据库。PostgreSQL 以 13.4% 的开源数据库用户比例位居第二,紧随其后的是 MongoDB,占 12.2%,位列第三。如果你经常光顾某些网站,或者大型公众号,你应该知道今年最热的事情有两个,postgresql和大数据,今年算是postgresql在中国的开始发展的元年,知道的人和使用的人也越来越多。 130122 根据DB-engine数据库流行榜发布的数据显示,Oracle与MySQL与去年相比都产生了一定的退步,唯独postgresql呈现上升趋势,比去年同月份提高了85.18%,这进一步说明数据库领域正在涌现出更多的新生力量,与之前将所有鸡蛋都放在一个篮子里的传统策略相比,IT行业的工作者正在使用多种数据库来支持他们的产品,多数据库类型的使用在过去10年出现了爆炸式增长。在我们的调查中,几乎有一半实际上使用不止一种类型的数据库来支持他们的应用程序,而不是单个数据库,使用多个数据库的比例为44.3%,使用一个数据库的比例为55.7%,他们喜欢的数据库组合如下。 130123 现在,让我们仔细研究一下在单个应用程序中最常用的数据库类型。在下面的图表中,左边列中的数据库表示该数据库类型的样本量,上面列出的数据库表示与该数据库类型组合的百分比。蓝色显示的单元格表示 100% 的部署组合,而黄色表示 0% 的组合。因此,如下面的数据库组合热图所示,MySQL 是我们与其他数据库类型结合最频繁的数据库。但是,虽然其他数据库类型经常与 MySQL 一起使用,但这并不意味着 MySQL 部署总是使用另一种数据库类型。这可以在 MySQL 的第一行看到,其颜色为浅蓝到黄色,相比之下,MySQL 第一列的颜色要和表示 100% 组合的蓝色的匹配度高许多。用黑色边框突出显示的单元格表示仅利用这一种数据库类型的部署,其中仅使用 MySQL 的单元格占部署总数的 23%。 130124 其实,这些数据也比较精准的反映了国内的情况,从2005年开始,IT企业在数据库的发展方向上就已经有了一些变化。 2007年开始阿里巴巴的IT开销史无前例,一度成为IBM、Oracle中国的标杆客户,淘宝、阿里巴巴B2B和支付宝等公司,98%以上的软件系统和业务都是采用Oracle数据库提供数据服务。2009年淘宝更是上了全球排名前几位的大RAC集群,据说当年有16个节点。每天早上CPU还是跑到98%。换句话来说,三年几千万买Oracle产品+服务也没办法支撑阿里成长的速度,只能开启自研模式,于是就有了Oracle全面转向MySQL的进程。 拆分Oracle数据库+Hadoop其实也可以撑一撑,但是这样的话,还要向Oracle购买更多的License(再花几千万,不是没钱,是即便花钱也不能彻底解决问题)。因此,阿里巴巴B2B将中文站压力和数据容量最大的Offer数据库,成功从Oracle数据库+IBM小型机+EMC2存储设备,迁移到MySQL数据库+PC Server的模式,所以淘宝2013年下线了最后一个Oracle,2014年支付宝交易替换了Oracle,2016年支付宝总账全面用OceanBase替换Oracle。 发展趋势: 1.“去Oracle化”。 一方面是Oracle采用scale up而不是scale out的方案;另外一个重要原因是价格。网易和阿里巴巴都曾经以Oracle作为主要的数据库解决方案,投资几千万来采购License。阿里巴巴曾经还自称是互联网企业中Oracle的最大用户。Oracle最大的优势是运维简单,应用开发方便,但是和昂贵的价格相比,这一点不再具备吸引力。 2.优化MySQL数据库。 这些互联网企业采用了大量的MySQL服务器集群,最大集群在150台服务器左右。承载了包括博客、电子商务等应用。采用的优化包括: 传统的SQL优化,如减少某个查询涉及到的列,控制索引数量等 闪存介质(SSD或者Flash卡)。这是几乎所有互联网企业都采用的方法,由于测试场景各不相同,因此没法比较谁家的方案更好。大体上分成直接使用闪存介质作为存储系统;优化闪存介质访问方式进一步优化 设计MySQL存储引擎 3.NoSQL数据库。 NoSQL对应用养发提出了较高的要求,在项目中不是那么容易推广,一致性要求被放松,但是“原子性”支持需要被保证。一般是为了满足高并发需要才引入。如盛大采用MongoDB,淘宝自研了Tair数据库(已经开源) 4.分布式数据库。 众所周知,使用不同的SQL优化与执行方式,数据库的访问性能可能会存在上千上万倍的差距。计算存储分离的核心思想便是在数据存储层面进行一体化存储,而计算层面则有效利用每种执行引擎的特点,针对不同的业务场景进行选择和优化。 130125 所以,如果具有超强的研发团队和运维团队,在云时代还是有机会替代Oracle的,我们也看到伴随着人口红利,在软件开发领域的我国实力已今非昔比,大部分企业的 “去IOE”的进程更多的是自发的因系统架构优化而进行,同时各种数据库技术与产品也蓬勃发展,所以,在技术上看Oracle并非不能取代,更多的是出于综合成本(改造与建设成本、分享)的考量,需要的是时间和意志。 一千个人眼里就有一千个哈姆雷特,在每个开发者和企业的眼中,只有适合自己的数据库才是最好的。 作者:miao君 链接:https://zhuanlan.zhihu.com/p/93958981 编辑于 2019-11-28 20:47
个人成就
内容被浏览20,886
加入社区5年56天
返回顶部