艾瑞网
白培铭 
声明:艾瑞网专家专栏文章属专家原创内容,代表个人观点,授权于艾瑞网使用;如需转载请保留原意并注明来源:艾瑞网,作者:艾瑞网专家-白培铭 ,请尊重原创!

    数据分析总论

    发表于:2011-10-17 12:51:00 阅读:91 评论:0
    2

    总论

    近十年以来,所有的各政府单位和各国的企业,纷纷同入大笔的资金和人力来建设内部IT系统及数据库。虽然改善的过程中有很多挫折和失败,但这些努力使得今天大部份的公司和单位都开始有一个完整统一的内部数据平台,来说明公司的营运。例如在大型的企业中处理企业资源计划的ERP(Enterprise Resource Planning)系统和管理客户关系的CRM(Customer Relation Management)系统等。它们有效的被运用来减少所有资源的重复和错误以支持公司在这个信息时代的管理营运变革。

    但是,这只是开始的第一步。 企业虽拥有技术平台和数据系统,其中真正有价值的分析能力,在很多的单位中,却是付诸阕如。一直到了近几年,各大企业才开始重视如何有效的利用数据分析自身平台所累积的数据,来掌握对于业务的趋势发展和商业决定。 而相同的,关于如何在分析领域有所突破等相关讨论和著作也才开始出现在坊间,例如在畅销书排行榜中,蝉联数周的第一名,并且引发了极大的市场兴趣的著作Davenport Harris "Competing On Analytics",本书描述多家公司在许多的关键商业决定中,开始利用数据分析做为策略决定或是行动的战略方针并获得成功。。 因为了这本书的推广, 对于很多的商业人士开始认识数据分析的威力。另外,在2007 James Taylor 发表了另外一本畅销书 "Smart (Enough) Systems",详细的描述数据分析的原因和方法。其他相关的书籍包括了: "The Black Swans" "Outliers"还有 "Super Cruncher"

    什么是"数据分析"? 数据分析有很多不同的概念和说法,对于将现有数据做事后的分析和报告,称之为"商务智慧" (Business Intelligence,简称BI);如果这些分析报告中还包括一些统计和数学模型,我们就称之 "运营研究" (Operation Research);还有目前最热门的名称是"数据挖掘" (Data Mining),但是其中的区别并不够准确的。 尤其,和所谓的预测分析之间的差别,就更令人迷惑了。只能将其差异区分为,在很多状况下,所谓的分析是针对现有的资料做细化分类,离析其本质及内在联系之间的关系;但是预测分析,却是要求在掌握现有信息的基础上,依照一定的方法与规律对未来的事情进行测算,以预先判断事情发展的结果。

    通常造成浑淆的原因,是在于数据挖掘通常是预测分析中的一个处理环节,而商务智慧的报告报告是预测分析的表现方式。 事实上整个分析,都必须在原来的数据管理和商务智能的基础上,不然数据的可靠度及展现的成果会容易令人质疑。

    在传统联机分析处理(OLAP) 的过程中,一个人可以通过对多种数据的整理、检验效果的确定和资料特性的掌握,订出最终的报告。但在这个过程中,数据分析的方法有无限多种类型,可以针对数据做整合、细分、横向或集合,来给出各种的报告。 BI绝对是一种的分析,但BI无法做任何的预测。就算如此,对于分析中所使用的各种量化分析,如:统计、 数学计算、或是随机分析。我们将这些方法称为"高级分析",但其仍旧不算是"预测分析"

    另外,各种数据的统计分析的报告和图表,其广大的用户通常无法了解到底统计中所谓的中间值、平均值、中值趋势、或标准偏差的区别,更不用说更高深的左/右扭曲的数据分布影响还有时间序列之类的计算。其实,在商务运作中, 只要对于数据有所统计分析的运算,都应该是比较困难了解的。但是其中所能发挥出来的潜在能力。都是非常关键。但是对于企业来说,需要不需要,或是如何将这个分析的能力内建在公司之内,是每一个企业所必需面对的。

     

    高级分析

    数据的高级分析,虽然是很关键,但是在组织内,并没有一定的部门来负责这个事情,通常所谓的高级分析是有几种方式存在; 个人努力,基础范本, 软件包

    就个人的努力,通常是在组织内, 因为个人对于公司业务的了解,结合上本身具备的分析知识。 从而用数学的方式来模拟实际的业务流程,寻找隐含的原因和建立报告的方式,从而预测将来的商业情形。 固然这是一个很快速而有效的方式,但是这种的情形,只能说是可遇而不可求。

    第二种在组织内有分析能力的方式就是使用很多所谓 "标准" 的分析模型。通常这些都是来自已经过时的数据分析方式, 但是因为其中所用的模型太过于复杂和晦涩。 所以大部分公司只是因循他人的引用这些模型,但是对于模型的本质实施上不是经过很清楚的了解, 更不用说能依据本身的特性而有所修正。 例如在金融业中,使用FICO评分来判断个人的信用评等, 甚至作为雇佣的标准之一, 或是作为银行对于贷款申请的决定因子,就是很好的例子。

     第三种的分析能力,通常是将分析模型以现有的形式加上部分的修改,而放在在整个系统之中, 可能使用之前所说的两种方式和其他的系统模块组合。加上个人的努力,而形成一个分析预测的操作。 但是对于公司来说,这个是完全透明的。 例子如;货运的流程规划, 供应链的优化,或是客户喜好推荐的判断,都是这种 知其所以不知所然 的例子。

    所以如果公司要把分析和预测能力,内建到公司的整体运作,甚至是战略规划中,必须要对于这个部分,有所了解之后,才能有效的运作。这个就是本篇所要谈及的要点。

     

    分析种类

    从功能面来说; 有三种不同的高级分析方式: 描述,预测和优化。

    描述分析/数据挖掘

    描述功能的分析,是以数据挖掘作为底层的依据。 而数据挖掘;就是使用数学和统计的技术来了解大量的数据其中所包含的意义和关系。  而其中的数据源,可能是来自大型的数据仓库或是其他的各种来源的数据。 当然另外一种是在线上直接使用不同的OLAP工具,在大量的数据中进行分析。这个也是一种的连接形式的数据挖掘。

    在数据挖掘中,有很多的工具来说明几个变量之间的显着或是隐含的关系。 也逐渐发展出来很多的理论基础, 比如说关联法则, 相似等级,或是趋势分析。 但是我们要了解, 数据分析并不是万能的。 使用者必须要了解这些技巧的限制和不足之处,同时也要对于原始数据中的判断能力。 但是真正的重点在于要能结合商务的需求和数据分析的结果。 因为一个有效的分析模型,只是一个技术问题,没有现实的需求,是没有意义地。

    当我们有了一个有效的分析工具,下一步很自然我们会问的问题是 ”我们能拿这个做什么?“

    预测分析

    如果我们预测,通常我们是指对于未来的事情有所假设。但是未来的定义,可以从下一刻到几年之后。其中的差别就很大。一个很好的例子就是关于天气预测。我们通常可以相对准确的预测将来几天的天气状况,但是对于对于未来几周的天气? 这个可就不太有把握了。

    在商务上的情形很类似。我们通常的问题都是 ”将会要发生什么“, 或是”将会造成什么结果“,比如说预测分析可以提醒/警告公司关于供货商可能会有出货的问题或是某一个客户可能信用等级会被调降。从而可以做出防范的措施。类似的情形在社会上,也很普遍的使用。选举之前的调查可以通过一小群经过统计抽样的人群,使用很复杂的统计模型,而能够相对准确的结果预测。

    预测模型基本上是相对静态,也就是说,当模型一旦建立就不太改变。其中有两种不同的方式:一种模型可以从对于历史的数据做运作,从而提出可能的说明和建议。另外一种模型是实时的,预测模型成为整个运作系统的一部分,直接对于运营数据做出实时判断。毋庸赘言,对于模型的反应时间要求,实时的预测系统是高于非实时的系统。

    同时对于数据分析结果的运用方式,基本上也是两种;一个是对于模型建立的时候,可能是对于数据的质量非常重视。因为数据的完整或是正确,直接影响到模型本身的质量。这个是通常数据挖掘或是商务智慧的核心。但是对于预测分析类型,可能更多是关心数据的表现,尤其是对于部分非常态的数据掌握的功能,是超过对于整体数据的完整性。因为预测分析的目的是能很有效的因果关联从而做出判读,而不是很准确的提出报告。

    所以在模型的建立,要把方式和目的能清楚确定。高质量的数据分析会对于数据要求较高,所以运算较为缓慢。判断性的预测分析对于运算的要求较高,所以在数据质量上可以降低要求。 但是如果能把两种的优点结合又可以避免各个的缺点,需要更新的技术和方式。这个也是在数据分析另一种,很重要的课题。

    而在数据分析中,通常其数据源是不是从单一的数据仓库或是营运系统, 而是来自各个不同的内部和外部数据源,单单移动并且整理这些资料,这个步骤在数据挖掘的过程有一个标准的名称;数据取出/移动/整合(ETL: ExtractTransportLoad)  ETL常常占到所有操作中超过80% 中的时间, 而剩下的才是真正分析的步骤。

    但是一个比较好的方式,就是把分析/预测的能力,直接内建入到数据源之中,如此可以避免大量的原始数据移动,并且能更快速的处理数据和进行分析。

    新的运算方式也有高速的发展,早期的Hadoo,因为Google的原因而开始出名,也开始了直接在数据源运算的一个新的技术方向。 XML发展出来的RDF/OWL同时也开始说明网络能更聪明的说明用户做出判断和预测。

    一旦建立如此的系统之后,就可以开始做分析的方式。现在预测分析的模式,虽然有很多名称听起来相当的高深:神经网络分析,判定树,支持向量机,回归分析,常性回归分析,归类分析,连接分析还有 简单贝尔分类之类。。但是其中大部分都是可以直接在数据源中运作而得到很好的效果。

    优化

    优化是预测的下一步。如果能理解系统之间的关系,通常不会只是做出预测,而且应该是试图如何优化以取得最好的结果。 优化的模型可能只是很简单,也可能是极为复杂。 一个最好的例子就是航空公司的定价系统。理论上,这个模型把所有的因素都考虑进来了,客户的需求,工作人员的能力,飞机的使用度,和其他很多的考虑,从而希望能得到最大的报酬。

    当然,另外很大部分的时候,这些所谓的优化系统的结果,也不过是比 ”经验之谈“要稍微强一些。但是不论如何,优化分析的建立,还是有通过严格的过程,和对于长时间数据的考虑所建立量化分析。

    对于企业,一个优化模型,可能包含了描述性和预测性分析,再加上很多的公司内部特有的分析方式,例如使用统计/概率,或是随机分析的方式,通过有效的组合,建立一个非常复杂的优化模型。

    而通常当如此复杂的优化模型建立之后,这个会纳入到整个营运体系之中。可能是单独的操作,作为附加的服务。或是整合到操作之中,而能更有效的提供商业运作。不论何种,最大的好处就是通过了优化过程,可以对于结果作出检验。也就是把整个系统可以形成闭回路,不断的增强优化的效果。

     

    用户案例

    市场营销案例

    一般如果公司做市场营销;通常一个最常见的资料分析用途是将客户分类。通常的做法是利用描述性分析,比如使用 分类法或是回归分析(CART - Classifcation and Regression Tree) 可以从原来的数据中,重新将客户分类。而在每一层的分类中,都有不同的目的和原因。 可能第一层是注重于顾客维护,第二层是注重利润提高,再下来一层可能是新客户增加之类。。。大量数据定期快速的产生准确的参数,并且通过和实际的结果比较,修正模型的假设和规则,从而达到更优化的模型。

    零售行业案例

    一个常见的问题是如何将客户变成常客?通常公司会使用大量的折扣来吸引客户再次到店中消费。但是如何的折扣才能有最大的收入而最小的成本? 通常公司会使用的方式是首先将相关的数据集中,包括;客户本身的数据,消费行为的数据,购买模式的数据还有产品销售的数据。通过数据整合之后,首先建立一个描述性分析,来说明不同的客户对于不同产品的效果,并且利用时间序列分析,来预测在什么时候可以推出促销活动来吸引购买,而在何时应该停止。 其中的促销的方式,也会因为客户的不同而做出合适的调整。 通过如此的模型建立,重复在实际结果上进行检验和修正,可以达到最优化的结果。

     

    结论

    高级的分析能力对于今天的企业来说,基本上是必须而不是选项。就算是大部分的公司不能理解什么是分析或是如何做分析,但是其结果却是每一个人都可以清楚的感受到。所以对于企业来说,如何建立本身的分析能力,不论通过自身的手段还是利用外脑,都变成一个不可避免的课题。

    建议的做法是开始考虑,如何建立有序的步骤,来达到这个目的,第一步通常是从商业开始考虑,那些商业的问题需要被解决。之后开始寻求合适的人员,具备有足够的知识和技巧,可能同时配合外部的顾问,了解市场上常用的系统和做法,如此来建立一个理论的模型。之后开始建立合适的技术环境,包括对于数据库和计算能力,可以把理论转换成实际的系统。只有在这些都完成之后,通过验证确定效果,才能有效将这个系统纳入到整体的营运系统。如此才能实际建立一个在公司可长可久的分析能力。


    点击查看该专家更多的文章
    主题: 营销数据 |
    发表评论
    抱歉,没有相关的记录!
    数据读取中......
    验证码: 看不清?
  • 艾瑞网-白培铭 的博客专栏白培铭 
    新比士康总裁,北京大雅科技总经理。毕业于台湾清华大学。1983年留美,获得加州大学伯克利分校硕士学位,后再获得密西根大学硕士学位,并在密西根州立大学进读MBA学位。工作经历曾先后担任美国福特公司,美国甲骨文总部营销经理,后于1994到北京担任甲骨文中国区公司执行副总裁、SGI公司大中华区营销总监,全权负责中国市场营销和渠道管理事宜。98年创办新比士康顾问有限公司。二十多年的市场经验,对营销多年的研究,提出了营销领域中完整的沟通框架——ARC钻石营销理论...
    文章(5) | 评论(2) | 访问(2132)
    • 专栏搜索
    关 健 字:
    搜索类型:专家  作者 文章
    离线阅读器订阅地址
    订阅到抓虾 鲜果阅读器订阅图标