“决策树”——数据挖掘、数据分析
“决策树”——数据挖掘、数据分析
决策树是⼀个预测模型;他代表的是对象属性与对象值之间的⼀种映射关系。树中每个节点表⽰某个对象,⽽每个分叉路径则代表的某个可能的属性值,⽽每个叶结点则对应从根节点到该叶节点所经历的路径所表⽰的对象的值。决策树仅有单⼀输出,若欲有复数输出,可以建⽴独⽴的决策树以处理不同输出。决策树的实现⾸先要有⼀些先验(已经知道结果的历史)数据做训练,通过分析训练数据得到每个属性对结果的影响的⼤⼩,这⾥我们通过⼀种叫做信息增益的理论去描述它,期间也涉及到熵的概念。中决策树是⼀种经常要⽤到的技术,可以⽤于分析数据,同样也可以⽤来作预测(就像上⾯的银⾏官员⽤他来预测贷款风险)。
从数据产⽣决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。
⼀个决策树包含三种类型的节点: 1.决策节点——通常⽤矩形框来表式 2.机会节点——通常⽤圆圈来表式 3.终结点——通常⽤三⾓形来表⽰
决策树学习也是资料探勘中⼀个普通的⽅法。在这⾥,每个决策树都表述了⼀种树型结构,它由它的分⽀来对该类型的对象依靠属性进⾏分类。每个决策树可以依靠对源的分割进⾏数据测试。这个过程可以递归式的对树进⾏修剪。当不能再进⾏分割或⼀个单独的类可以被应⽤于某⼀分⽀时,递归过程就完成了。另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。
决策树对于常规统计⽅法的优缺点
优点:
  1) 可以⽣成可以理解的规则;
  2) 计算量相对来说不是很⼤;
  3) 可以处理连续和种类字段;
  4) 决策树可以清晰的显⽰哪些字段⽐较重要。
  缺点:
  1) 对连续性的字段⽐较难预测;
  2) 对有时间顺序的数据,需要很多预处理的⼯作;
  3) 当类别太多时,错误可能就会增加的⽐较快;
  4) ⼀般的算法分类的时候,只是根据⼀个字段来分类。
决策树的适⽤范围
  科学的决策是现代管理者的⼀项重要职责。我们在企业管理实践中,常遇到的情景是:若⼲个可⾏性⽅案制订出来了,分析⼀下企业内、外部环境,⼤部分条件是⼰知的,但还存在⼀定的不确定因素。每个⽅案的执⾏都可能出现⼏种结果,各种结果的出现有⼀定的概率,企业决策存在着⼀定的胜算,也存在着⼀定的风险。这时,决策的标准只能是期望值。即,各种状态下的加权平均值。
  针对上述问题,⽤决策树法来解决不失为⼀种好的选择。
  决策树法作为⼀种决策技术,已被⼴泛地应⽤于企业的投资决策之中,它是随机决策模型中最常见、最普及的⼀种规策模式和⽅法此⽅法,有效地控制了决策带来的风险。所谓决策树法,就是运⽤树状图表⽰各决策的期望值,通过计算,最终优选出效益最⼤、成本最⼩的决策⽅法。决策树法属于风险型决策⽅法,不同于确定型决策⽅法,⼆者适⽤的条件也不同。应⽤决策树决策⽅法必须具备以下条件:
  ①具有决策者期望达到的明确⽬标;
  ②存在决策者可以选择的两个以上的可⾏备选⽅案;
  ⑧存在着决策者⽆法控制的两种以上的⾃然状态(如⽓候变化、市场⾏情、经济发展动向等);
  ④不同⾏动⽅案在不同⾃然状态下的收益值或损失值(简称损益值)可以计算出来;
  ⑤决策者能估计出不同的⾃然状态发⽣概率。
决策树的决策程序
  决策树法的决策程序如下:
  (1)绘制树状图,根据已知条件排列出各个⽅案和每⼀⽅案的各种⾃然状态。
  (2)将各状态概率及损益值标于概率枝上。
  (3)计算各个⽅案期望值并将其标于该⽅案对应的状态结点上。
  (4)进⾏剪枝,⽐较各个⽅案的期望值,并标于⽅案枝上,将期望值⼩的(即劣等⽅案剪掉)所剩的最后⽅案为最佳⽅案。
  决策树法在企业决策中有着⼴泛的应⽤。下⾯举⼀实例说明其应⽤。某企业在下年度有甲、⼄两种产品⽅案可供选择。每种⽅案都⾯I临滞销、⼀般、和畅销三种市场状态。各状态的概率和损益值如下:
  根据给出的条件运⽤决策树法选择⼀个最佳决策⽅案。
  解题⽅法如下:
  由此可以看出,决策树法的决策过程就是利⽤了概率论的原理,并且利⽤⼀种树形图作为分析⼯具。其基本原理是⽤决策点代表决策问题,⽤⽅案分枝代表可供选择的⽅案,⽤概率分枝代表⽅案可能出现的各种结果,经过对各种⽅案在各种结果条件下损益值的计算⽐较,为决策者提供决策依据。
决策树的应⽤前景如何做数据分析
  从以上介绍可以看出决策树法具有许多优点:条理清晰,程序严严谨,定量、定性分析相结合,⽅法简单,易于掌握,应⽤性强,适⽤范围⼴等。⼈们逐渐认识到,在投资⽅案⽐较选择时考虑时间因素,建⽴时间可⽐原则和条件的重要性。当今的社会经济活动中,竞争⽇趋激烈,现代企业的经营⽅向⾯临着许多可供选择的⽅案,如何⽤最少的资源,赢得最⼤的利润以及最⼤限度地降低企业的经营风险,是企业决策者经常⾯对的决策问题,决策树法能简单明了地帮助企业决策层分析企业的经营风险和经营⽅向。必然地,随着经济的不断发展,企业需要做出决策的数量会不断地增加,⽽决策质量的提⾼取决于决策⽅法的科学化。企业的决策⽔平提⾼了,企业的管理⽔平就⼀定会提⾼。
  西蒙说:管理就是决策。
决策树的应⽤举例
案例⼀:利⽤决策树评价⽣产⽅案
  决策树是确定⽣产能⼒⽅案的⼀条简捷的途径。决策树不仅可以帮助⼈们理解问题,还可以帮助⼈们解决问题。决策树是⼀种通过图⽰罗列解题的有关步骤以及各步骤发⽣的条件与结果的⼀种⽅法。近年来出现的许多专门软件包可以⽤来建⽴和分析决策树,利⽤这些专门软件包,解决问题就变得更为简便了。
  决策树由决策结点、机会结点与结点间的分枝连线组成。通常,⼈们⽤⽅框表⽰决策结点,⽤圆圈表⽰机会结点,从决策结点引出的分枝连线表⽰决策者可作出的选择,从机会结点引出的分枝连线表⽰机会结点所⽰事件发⽣的概率。
  在利⽤决策树解题时,应从决策树末端起,从后向前,步步推进到决策树的始端。在向前推进的过程中,应在每⼀阶段计算事件发⽣的期望值。需特别注意:如果决策树所处理问题的计划期较长,计算时应考虑资⾦的时间价值。
  计算完毕后,开始对决策树进⾏剪枝,在每个决策结点删去除了最⾼期望值以外的其他所有分枝,最后步步推进到第⼀个决策结点,这时就到了问题的最佳⽅案。
  下⾯以南⽅医院供应公司为例,看⼀看如何利⽤决策树作出合适的⽣产能⼒计划。
  南⽅医院供应公司是⼀家制造医护⼈员的⼯装⼤褂的公司。该公司正在考虑扩⼤⽣产能⼒。它可以有
以下⼏个选择:1、什么也不做;2、建⼀个⼩⼚;3、建⼀个中型⼚;4、建⼀个⼤⼚。新增加的设备将⽣产⼀种新型的⼤褂,⽬前该产品的潜⼒或市场还是未知数。如果建⼀个⼤⼚且市场较好就可实现$100,000的利润。如果市场不好则会导致$90,000的损失。但是,如果市场较好,建中型⼚将会获得$ 60,000,⼩型⼚将会获得$40,000,市场不好则建中型⼚将会损失$10,000,⼩型⼚将会损失$5,000。当然,还有⼀个选择就是什么也不⼲。最近的市场研究表明市场好的概率是0.4,也就是说市场不好的概率是0.6。参下图:
  在这些数据的基础上,能产⽣最⼤的预期货币价值(EMV)的选择就可到。
EMV(建⼤⼚)=(0.4)*($100,000)+(0.6)*(-$90,000)=-$14,000
EMV(中型⼚)=(0.4) *($ 600,000))+(0.6)* (-$10,000)=+$18,000
EMV(建⼩⼚)=(0.4)* ($40,000)+(0.6)*(-$5,000)=+$13,000
EMV(不建⼚)=$0
  根据EMV标准,南⽅公司应该建⼀个中型⼚。
案例⼆:决策树法在投标决策中的应⽤
  施⼯企业在同⼀时期内有多个⼯程项⽬可以参加投标,由于本企业资源条件有限,不可能将这些项⽬都承包下来,这类问题可⽤分析风险决策的决策树法来进⾏定量分析。
  绘制⽅法
  1.先画⼀个⽅框作为出发点,这个⽅框⼜称为决策点
  2.从决策点向右引出若⼲根直线或折线每根直线或折线代表⼀个⽅案,这些直线或折线称为⽅案枝
  3.每个⽅案枝的彩A画,个圆圈,这个圆圈称为概率分叉点,也称为⾃然状态点
  4.从⾃然状态点引出若⼲根直线或折代表各⾃然状态的分枝这些直线或折线称为概率分枝
  5.在概率分枝的AFaM标明各⾃然状态的损益值
  决策树的分析最佳⽅案过程是⽐较各⽅案的损益值哪个⽅案的期望值最⼤则该⽅案为最佳⽅案
  【例】某市属建筑公司⾯临A, B两项⼯程。因受本单位资源条件限制,只能选择其中⼀项⼯程投标或者这两项过程均不参加投标。根据过去类似⼯程投标的经验数据,A⼯程投⾼标的中标概率为0.3,投低标的中标概率为0.8,编制该⼯程投标⽂件的费⽤为4万元;B⼯程投⾼标的中标概率为0.5,投低标的中标
概率为0.6,编制该⼯程投标⽂件的费⽤为2.5 万元各⽅案承包的效果、概率、损益值如表1所⽰  计算决策树上各机会点的期望值,并将计算出来的期望值标注在各机会点上⽅
  机会点⑦: 180×0.3 + 120×0.5+ 60×0.2= 126
  机会点②: 126×0.3 - 4×0.7=35
  机会点⑧: 125×0.2+ 75×0.7 + 0×0.1=77.5
  机会点③: 77.5×0.8- 4×0.2 = 61.2
  机会点⑨: 115×0.4 + 75×0.5 + 40×0.1 = 87.5
  机会点④: 87.5×0.5- 2.5×0.5 = 42.5
  机会点⑩: 90×0.2 + 40×0.5 - 20×0.3 =32
  机会点⑤: 32×0.6- 2.5×0.4=18
  机会点⑥: 0
  选择最佳⽅案
  ⽅案枝上机会点③的期望值(61.2)最⼤⽅案(A低标) 为最佳⽅案,该施⼯企业应对A⼯程投低标。
利⽤excel研究决策树
今天随便浏览微博,突然发现Excel也能做决策树。⽴刻凌乱了。本⼈真是见识浅薄了。随即百度了⼀下,下了⼀个决策树的加载项,也就是宏,然后试着运⾏了⼀下。发现感觉还可以,虽然⽐起R,spss的决策树过程稍微复杂点,但是还是很靠谱的。你完全懂得树是如何⽣成的,挺靠谱的。有⼈说决策树是⽩箱,有⼈说是灰箱,不同的软件实现过程有点差别。
R做决策树的包是基于Breiman(名字没拼错吧)的那本《regression tree and decision tree》,具体的可以参考⼿册,R的特点就是事先数据准备好,然后按照规定的数据结构输⼊,调⽤函数,设置参数即可。
spss也是类似,只不过spss的算法选择没有R的包那么多。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。