概述协调博弈,是指在博弈所定义的收益空间中,任何均衡点都符合以下条件:即 (1)在给定其他参与人行为策略的条件下,没有人有激励改变其行为策略; (2)没有参与者希望其他参与者会愿意改变其行为。 类型Jasmina Arifovic(2000); Hans Carlsson, Mattias Ganslandt(1998); Paul G.Straub(1995)等认为协调博弈就是存在多个能够进行帕累托排序纳什均衡的博弈; Vincent P.Crawford and Hans Haller(1990);Vincent P.Crawford(1995)等认为协调博弈是参与人对不同策略组合有相同偏好的博弈,如果其他人能够正确地预期,那么在多个纳什均衡中会存在唯一解,即均衡选择依赖参与人之间对博弈进行有充分相似的信念。 他们描述的侧重点不同,前者强调均衡多重性,后者强调参与人行为选择信念的一致性。当然,没有多重均衡就不存在行为选择信念,有了多重均衡就需要探讨行为选择信念的形成过程,参与人之间行为预期是协调博弈均衡选择问题的核心之所在。 根据均衡选择时参与人之间是相同行动的行为预期还是不同行动的行为预期而把协调博弈分为对称协调博弈与非对称协调博弈。 案例夏娃靠左夏娃靠右 亚当靠左3,30,0 亚当靠右0,03,3 表:交通博弈 协调博弈的最为经典的弈局出现在“交通博弈”中。下表中的收益矩阵给出了一个交通博弈的收益分布。观察该矩阵可以发现:该矩阵有三个纳什均衡,即(靠左,靠左)、(靠右,靠右)以及一个靠左和靠右各占50%概率的混合动机策略均衡。因此,只要给定对方的选择,参与者就没有激励偏离均衡策略;或者即使不给定对方的策略,参与者也只能通过协调来实现均衡。 显然,在这种博弈中,每个参与者的策略问题是:他希望和他的对手就策略选择进行“协调”,因为不管是否给定对手的策略,协调的结果总是最好的。森在1967年的论文3中,将一个协调博弈称为“信心博弈”。他指出,协调博弈与囚徒困境博弈刚好相反,每个参与者选择策略A或B,仅仅需要确信对方也会相应地选择A或B。他们不像合作博弈那样需要一个有约束力的契约之类的东西,而是更需要在彼此之间确立一种相互信任的信心。 如果我们考虑将上述关于交通的协调博弈扩展为,(1)在固定参与者之间进行的重复博弈,或(2)在特定的群体系统内部非固定参与者之间进行的超博弈,那么就不难想象,与其每次出现时都去尝试解决这个博弈,远不如在行为人之间建立起某种行为或惯例的稳定的均衡模式,进而使得参与人在此后遇到类似问题时都可以加以遵循,而不需要反复支付信息成本和交易成本。但协调博弈的一个问题在于,均衡解具有不确定性和多样性,因此哪种均衡的规则将被选择具有随机特征。因此,在习俗层面上讲,协调博弈的均衡规则是多样的。但不管怎样,只要相应的一种行为模式被广泛接受,并被自觉遵从,就会形成习俗或自发秩序,并且有助于包括参与者在内的所有群体成员,避免类似弈局中无效率的非均衡收益。 选举在尧舜时代,自然资源相对丰富,人性淳朴,人们为争夺资源而进行争斗的情形相对较少。但是随着时间的推移,人口的增加,以及人性的复杂化,为争夺资源所进行的争斗就愈加激烈,且手段也花样百出了。特别是在目前的市场经济情况下,人们以无限追逐物资利益为目标,一个人能否在激烈的竞争中取得资源控制权就成为一个人或者一个单位生存及发展的关键要素。对于市场经济还欠成熟,法制传统还比较欠缺的国度来说,不择手段地进行资源控制权争夺就特别重要。因此,一些单位在与其它单位的资源或者市场控制权争夺中,实际上就是在玩“协调博弈 ”——给定其它单位不择手段地争夺资源,己方的最优策略就是不择手段地争夺资源。但是,能否有能力不择手段地去争夺资源是依赖于单位“领导”的人格素质的。 一般而论,能不择手段进行资源争夺的人通常是“胆大”的人,俗话说:“饿死胆小的,撑死胆大的”就是这个意思。而胆大的人一般又不太在乎社会公众舆论或者不太在乎社会规范的约束,通常就在“德行”上得分不高——即所谓大奸大恶之人,如三国时的曹操。所以,给定其它竞争性单位推选“大奸大恶之人”作领导,该单位也有动机推选自己的“大奸大恶之人”作领导,让他去迎战竞争方的“大奸大恶之人”是恰当的。当然,“大奸大恶之人”也可能并不受本单位广大人民群众的欢迎,但是作为集体的生存与发展,广大人民群众在一定程度上也可能容忍,让他们实际上并不喜欢的人去当他们的领导,这叫做“以毒攻毒 ”!如果竞争对手推选他们的领导是德高望重之人而非“大奸大恶之人”,本单位推选“大奸大恶之人”也是要占便宜的,因为在争夺资源上德高望重之人是斗不过 “大奸大恶之人”的;这样一来,每个单位都选择“大奸大恶之人”就是“占优战略”的了。也就是说,无论竞争对手推选什么样的人作领导,本单位都推选“大奸大恶之人”作领导是最优的。这样的博弈实际上是“囚徒困境 ”。但是,用“囚徒困境”来描述实际现象没有用“协调博弈”恰当。理由是,通常“大奸大恶之人”也会损害本单位广大人民群众的利益。如果竞争对手单位推选德高望重之人当他们的领导,本单位广大人民群众通常也会推选本单位的德高望重之人作本单位领导的。因为尽管本单位的领导是德高望重之人时不会比“大奸大恶之人”争夺带来更多的资源,但他也通常会比“大奸大恶之人”更少地损害本单位广大人民群众的利益,甚至通常还会增进本单位广大人民群众的利益。 一个更为强有力的原因是来自柏克利加州大学的Rabin教授的公平博弈观点。他根据近年来心理学实验的发现概括出人们普遍表现出的”互惠互损“行为准则。Rabin(1993)的一个有价值的贡献是把“公平性”(fairness)定义为“当别人对你友善良时你也对别人友善,当别人对你不善时你也对别人不善(即“投桃报李”和“以牙还牙”),而且他的独特贡献是将这种概念给予了明确的规定,即“如果你在损失自己效用(收入,利益等)情况下去损害别人的效用(收入,利益等),就被定义为你对别人不善;如果你在损失自己效用(收入,利益等)情况下去增进别人的效用(收入,利益等),就被定义为你对别人友善。” 心理学的诸多实验证据表明人的行为在许多情形下是遵循这样定义的“公平性”规则的,特别是在按照这种规则作出反应时所可能造成的潜在物质利益损失不太大的情况下更是如此。这样,当竞争对手单位推选“大奸大恶之人”作他们的领导时,事实上他们是以放弃让“大奸大恶之人”为他们带来更多资源的同时来增进本单位广大人民群众的利益。此时,按照Rabin的理论,本单位广大人民群众也会放弃让“大奸大恶之人”可能带来更多资源的好处而推选让德高望重之人来作本单位的领导。 [1] 目录 1参考文献 参考文献 ↑ 张良桥.协调博弈理论前沿研究新进展 ↑ 顾自安自发秩序演化的四类博弈问题 ↑ See Sen Amartya. (1967) “Isolation Assurance and the Social Rate of Discount”, Quarterly Journal of Economics, vol. 81.112-124. ↑ 蒲勇健.“杂皮”为何当“领导” ——基于协调博弈的思考
简介 什么是辛普森悖论 辛普森悖论 辛普森悖论(Simpson'sParadox)亦有人译为辛普森诡论,为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。[1] 当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方,会在总评中反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年E.H.辛普森在他发表的论文中,该现象才算正式被描述解释。后来就以他的名字命名该悖论。 为了避免辛普森悖论的出现,就需要斟酌个分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。 实例 例一:一所美国高校的两个学院,分别是法学院和商学院,新学期招生。人们怀疑这两个学院有性别歧视。现作如下统计: 法学院 性别 录取 拒收 总数 录取比例 男生 8 45 53 15.1% 女生 51 101 152 33.6% 合计 59 146 205 商学院 性别 录取 拒收 总数 录取比例 男生 201 50 251 80.1% 女生 92 9 101 91.1% 合计 293 59 352 根据上面两个表格来看,女生在两个学院都被优先录取。即女生的录取比率较高。现在将两学院的数据汇总: 性别 录取 拒收 总数 录取比例 男生 209 95 304 68.8% 女生 143 110 253 56.5% 合计 352 205 557 在总评中,女生的录取比率反而比男生低。 女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却大于女生,这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。 此例这就是统计上著名的辛普森悖论(Simpson'sParadox)[1] 前提 就上述例子说,导致辛普森悖论有两个前提。 1、两个分组的录取率相差很大,就是说法学院录取率很低,而商学院却很高。而同时两种性别的申请者分布比重相反。女性申请者的大部分分布在法学院,相反,男性申请者大部分分布于商学院。结果在数量上来说,拒收率高的法学院拒收了很多的女生,男生虽然有更高的拒收率,但被拒收的数量却相对不算多。而录取率很高的商学 2、有潜在因素影响着录取情况。就是说,性别并非是录取率高低的唯一因素,甚至可能是毫无影响的。至于在学院中出现的比率差,可能是随机事件。又或者是其他因素作用,比如入学成绩,却刚好出现这种录取比例,使人牵强误认为这是由性别差异而造成的。[1] 回避 辛普森悖论的回避 为了避免辛普森悖论出现,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。 [1] 管理 辛普森悖论的管理 辛普森悖论就像是欲比赛100篮球以总胜率评价好坏,于是有人专找高手挑战20场而胜1场,另外80场找平手挑战而胜40场,结果胜率41%,另一人则专挑高手挑战80场而胜8场,而剩下20场平手打个全胜,结果胜率为28%,比41%小很多,但仔细观察挑战对象,后者明显较有实力。 量与质是不等价的,无奈的是量比质来得容易量测,所以人们总是习惯用量来评定好坏,而此数据却不是重要的。除了质与量的迷思之外,辛普森悖论的另外一个启示是:如果我们在人生的抉择上选择了一条比较难走的路,就得要有可能不被赏识的领悟,所以这算是怀才不遇这个成语在统计上的诠释![1]
循环稳定集(Cyclically Stable Set) 目录 1 什么是循环稳定集 2 相关条目 什么是循环稳定集 吉尔博和马特休(Gilboa and Matsui,1991)在考察群体行动态调整过程的基础上,提出的又一均衡概念。“循环稳定集”直接来源于群体行为的调整过程,其基本思想是“可接近性”。一个策略分布f称为可以从另一个策略分布g接近是指,如果存在一条从f到g的道路,且在该道路方向上任何一点都是相对于该点的最优反应。 “循环稳定集”是指在满足“可接近性”条件下是封闭的策略分布集合(在该集合中任何两个分布之间都是接近的)。与一般均衡理论不同,仅当参与人按照均衡策略而作出选择时才有效,循环稳定集并不要求群体保持这种决策状态。 循环稳定集的直观意义是,在一个很短的时间间隔内,只有少部分人离开或者死亡并且由一些新来的人(新生的孩子)代替,这些新来者从他们的母体那里继承一些行为模式,并且在现行预期(也就是说他们并不关心行为模式未来的变化)条件下作出最优的反应,一旦新来者选择了某一行动,他就会一直坚持下去(转换成本的存在是他坚持这个行动的一个重要原因)。马特休(1992)给出了一个“稳定”策略的静态表述,在存在对原群体中各策略的初始分布冲击的情况下该策略能够保持这种分布 相关条目 进化稳定策略 群体稳定策略
概念基本介绍 协和谬误即某件事情在投入了一定成本、进行到一定程度而后发现不宜继续下去,却苦于各种原因而将错就错,欲罢不能。 示意图 20世纪60年代,英法政府联合投资开发大型超音速客机,即协和飞机。开发新型商用飞机简直可以说是一场豪赌,单是设计一个新引擎的成本就能高达数亿美元。想开发更新更好的飞机,实际上是把公司作为赌注押上去。因此英法政府被牵连进去,竭力为本国企业谋求发展空间。但是在研制过程中,他们发现研制经费急遽增加,研制风险大且收益前景不明朗。但是如果中途停止研制,那么之前的财力物力投资将血本无归。研究工作越往后,就越无法作出停止研制的决定。最后飞机终于研制成功,但因飞机缺陷大,成本太高,不适合市场竞争,最终被淘汰,英法政府为此蒙受了巨大损失。如果在研制过程中能够及早放弃计划,会使损失减少,但是他们没能做到。博弈论学者把这种“骑虎难下”的博弈称之为“协和谬误”。 人们把那些已经发生、不可收回的支出,如时间、金钱、精力称为“沉没成本”。沉没的意思是说,你在正式完成交易之前投入的成本,如果一旦交易不成,就会白白损失掉。但如果对沉没成本过分眷恋,就会继续原来的错误,造成更大的亏损。从理性的角度来说,沉没成本不应该影响我们的决策,然而,人们常常由于想挽回或避免沉没成本而做出很多不理性的行为,从而陷入欲罢不能的泥潭,而且越陷越深。 如何才能让自己避免沉没成本的羁绊,走出协和谬误困境?一是在进行一项事业之前的决策要慎重,要在掌握了足够信息的情况下,对可能的收益与损失进行全面的评估;二是一旦形成了沉没成本,就必须要承认现实,认赔服输,避免造成更大的损失。 难承受的代价 妈妈花2000元给亚莉买了一架电子琴,可亚莉生性好动,对音乐没有什么兴趣,电子琴渐渐落了灰。不久,亚莉妈妈的同事介绍说有一位音乐学院钢琴专业的老师可以给亚莉做家教。这个时候你觉得亚莉妈妈会做何决定呢?亚莉妈妈决定请家教,理由是:“电子琴都买了,当然要好好学,请一个老师教教,要不这个琴就浪费了!”于是,每月500元的付出又坚持了半年,最终不得不放弃了。为了不浪费2000元的电子琴,亚莉妈妈继续浪费了3000元的家教费。 当你进行了一项不理性的行动后,应该忘记已经发生的行为和你支付的成本,只要考虑这项活动之后需要耗费的精力和能够带来的好处,再综合评定它能否给自己带来正效用。比如进行投资时,把目光投向前方,审时度势,如果发现这项投资并不能赢利,应该及早停掉,不要惋惜已投下去的各项成本:精力、时间、金钱…… 这就是亚莉妈妈的教训,她所陷入的困境,在博弈论上称为“协和谬误”。 示意图 20世纪60年代,英法两国政府联合投资开发大型超音速客机,即协和飞机。该种飞机机身大、装饰豪华并且速度快,其开发可以说是一场豪赌,单是设计一个新引擎的成本就可能高达数亿元。难怪政府也会被牵涉进去,竭力要为本国企业提供更大的支持。 项目开展不久,英法两国政府发现:继续投资开发这样的机型,花费会急剧增加,但这样的设计定位能否适应市场还不知道;但是停止研制也是可怕的,因为以前的投资将付诸东流。随着研制工作的深入,他们更是无法做出停止研制工作的决定。协和飞机最终研制成功,但因飞机的缺陷(如耗油大、噪音大、污染严重等)以及运营成本太高,不适合市场竞争,英法政府为此蒙受很大的损失。 在研制过程中,如果英法政府能及早放弃,本来可以使损失减少,但他们没能做到。最后,英国和法国航空公司宣布协和飞机退出民航市场,才算是从这个无底洞中脱身。这也是“壮士断腕”的无奈之举。 人们往往会陷入类似的误区:一项工作的成本越大,对它的后续投入就越多。其实不仅是在制造协和飞机这样的重大项目上,就是在日常的生活中,人们在决定是否继续做一件事情的时候,不仅是看它对自己有没有好处,而且也过于注意自己是不是已经在这件事情上面有过投入。 人们把那些已经发生、不可收回的支出,如时间、金钱、精力称为“沉没成本”。沉没的意思是说,你在正式完成交易之前投入的成本,如果一旦交易不成,就会白白损失掉。但如果对沉没成本过分眷恋,就会继续原来的错误,造成更大的亏损。 对于沉没成本,炒股的朋友更容易理解。因为他们或多或少都有由浅入深被套的经历,其原因就在于最初的“不甘心”。如果在股票发生亏损后能够及时止损,就可以把损失降到较低的限度。而越是犹豫不决,旷日持久,沉没成本就越来越大,就更不愿意做壮士断腕之举,导致难以自拔。 有这样一个人,他在向一家健身俱乐部付了一笔会费后,突然被医生告知他在一段时间内不适宜剧烈运动。这个人非常可能不顾剧烈运动带来的痛苦和后果,继续健身。显然,如果尚未支付这笔会员费,他会很乐意接受退出俱乐部的选择。问题在于,冒着身体的痛苦继续运动,可以使自己不用面对会员费变成一笔巨大的损失,但是由此带来的痛苦和损害健康的后果,很可能会远远大于会费的损失。这里的会员费就是一笔沉没成本,不应再去考虑。 也许,在健身的问题上很多人还可以清醒过来,但在其他很多类似的事情上,却往往在沉没成本的误区里泥足深陷。 做错了一件事,明知是自己有问题,却怎么也不肯认错,反而花加倍的时间来找借口,这又造成自己的形象大打折扣。被人骂了一句,花了无数时间生气难过,道理相同。为一件事情发火,不惜损人不利己,不惜血本,不惜时间地进行报复。所有这些不是一样无法从沉没成本中自拔? 从理性的角度来说,沉没成本不应该影响我们的决策,然而,我们常常由于想挽回或避免沉没成本而做出很多不理性的行为,从而陷入欲罢不能的泥潭,而且越陷越深。 认赔服输智慧 一位老太太的独生子死了,虽然已埋葬多日,但是她仍然整日以泪洗面,悲伤不已:“儿子是我唯一的寄托,唯一的依靠。他离我而去,我再活下去还有什么意思,不如跟他一块去吧!”她心里这样想着,连续四五天呆在墓地里,不思饮食。 释尊听说了这件事,带着弟子赶到墓地来。老太太看见释尊,忙向前施礼。释尊问道:“老人家,你在这里做什么呢?”老太太伤心地说:“独生儿子弃我而去,但是,我对他的爱心却愈来愈炽烈,我总想跟他一块离开人世算了。”释尊说:“宁愿自己死去,也要让儿子活着,你是这样想的吗?”老太太闻言满怀希望地问道:“佛陀啊,您认为能做得到吗?”释尊静静地回答:“你给我拿火来,我就运用法力,让你的儿子复活。不过,这个火必须来自未曾死过人的家庭,否则,我作了法也没有效果。”老太太赶紧去找火,她站在街头,逢人就问:“府上曾经死过人吗?”大家回答她:“自古以来,哪有不曾死过人的家庭呢?”老太太需要的火始终无法找到,只好失望地回到释尊的面前说:“我出去找火了,就是找不到没有死过人的家庭。” 释尊这才说道:“自从开天辟地以来,没有不死的人。死去的人已经死了,可是活着的人仍然要好好地活下去。而你却不想面对这个现实,难道不是执迷不悟吗?”老太太如梦初醒,不再想寻死。 沉没成本对决策产生如此重大的影响,以至于很多英明的决策者都无法自拔。很多时候,他们开始做一件事,做到一半的时候发现并不值得,或者会付出比预想多得多的代价,或者有更好的选择。但此时付出的成本已经很大,思前想后,只能将错就错地做下去。但实际上,做下去往往会带来更大的损失。 具体说来,我们怎么才能让自己摆脱沉没成本的羁绊呢?一是在进行一项事业之前的决策要慎重,要在掌握了足够信息的情况下,对可能的收益与损失进行全面的评估;二是一旦形成了沉没成本,就必须要承认现实,认赔服输,避免造成更大的损失。[1]
举例分析 严格劣势策略一、经典的囚徒困境 1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: 若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。 若二人都互相检举(互相“背叛”),则二人同样判监2年。 用表格概述如下: 甲沉默(合作) 甲认罪(背叛) 乙沉默(合作) 二人同服刑半年 甲即时获释;乙服刑10年 乙认罪(背叛) 甲服刑10年;乙即时获释 二人同服刑2年 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: 若对方沉默、背叛会让我获释,所以会选择背叛。 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。 在这几种结果对比中,甲选择坦白是他的严格最优策略,因为入狱2年比入狱10年要好,释放比入狱2年也要好。所以不论乙采取什么样的策略,甲都会选择坦白,用中国的古话说叫首先处于“不败之地”。同样,乙也会作如此推断。最终的结果,双方都会选择坦白,选择坦白是双方的严格优势策略,沉默则是双方的严格劣势策略,每个囚徒都不会采取对自己明显不利的严格劣势策略。 二、智猪博弈理论 严格劣势策略智猪博弈理论为非合作博弈论创始人、诺贝尔经济学奖得主纳什提出的经典博弈案例,适用于在经济领域中大企业和小企业之间的关系处理。 该理论的前提是一个假设。假设猪圈里有两头猪,一头大猪,一头小猪。 猪圈很长,一头有一踏板,另一头是饲料的出口和食槽。猪每踩一下踏板,另一边就会有相当于10份的猪食进槽,但是踩踏板以后跑到食槽所需要付出的“劳动”,加起来要消耗相当于2份的猪食。 问题是踏板和食槽分置笼子的两端,如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。踩踏板的猪付出劳动跑到食槽的时候,坐享其成的另一头猪早已吃了不少。 “笼中猪”博弈的具体情况如下:如果两只猪同时踩踏板,同时跑向食槽,大猪吃进7份,得益5份,小猪吃进3份,实得1份;如果大猪踩踏板后跑向食槽,这时小猪抢先,吃进4份,实得4份,大猪吃进6份,付出2份,得益4份;如果大猪等待,小猪踩踏板,大猪先吃,吃进9份,得益9份,小猪吃进1份,但是付出了2份,实得-1份;如果双方都懒得动,所得都是0。 利益分配格局决定两头猪的理性选择:小猪踩踏板只能吃到一份,不踩踏板反而能吃上4份。对小猪而言,无论大猪是否踩动踏板,小猪将选择“搭便车”策略,也就是舒舒服服地等在食槽边,这是最好的选择。 现在来看大猪。由于小猪有“等待”这个优势策略,大猪只剩下了两个选择:等待一份不得;踩踏板得到4份。所以“等待”就变成了大猪的劣势策略,当大猪知道小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,只好为一点残羹不知疲倦地奔忙于踏板和食槽之间。 三、关于企业价格策略 人们来看两个企业关于价格策略的例子。假定两个企业都采取低价,可以各得30亿元利润;如果都采取高价,各得50亿元的利润;如果一家采取低价而另一家采取高价,那么价格高者利润为10亿元(市场份额损失较大),而另一家因为多销将利润上升到60亿元。究竟两家企业会采取什么价格策略呢? 这个博弈的格局与“囚徒困境”博弈的格局是一样的,按照上述分析,双方的优势策略是双方都实行高价,结果双方都能获得各50亿元的利润,这是得到总和最大的策略。双方的严格优势策略是都实行低价,而双方的严格劣势策略则是都实行高价。对于两个企业来说,高价都是严格劣势策略,而采取低价策略都是严格优势策略,每个企业都以对方为敌手,只关心自己的利益,在两家企业中,一方降价的结果,必然导致另一方也降价跟随,最终形成价格大战。如果双方通过合作起来,争取双方的优势策略,避开都采取各自的严格优势策略形成价格大战,这对两个企业都有意义,这人们称之为“双赢对局”。 适用条件 将“缺点”作为“特点”,将“特点”作为“优点”来宣传很多产品的特点是无所谓优点还是缺点,关键是找到其适用的对象以及转化消费者的利益;很多企业的特点也无所谓优势或劣势,关键是找准市场制定策略。产品存在一些问题和较为明显的缺点,或企业在某一方面存在一定的不劣势时。可以有下列两种方式:1、将缺点自我暴露,在指出缺点的同时大力宣传产品的优点,争取消费者。美国有一个农场主,他的苹果被冰雹打了很多伤疤,不好看,他宣称凡是在高原上生产的好苹果都被打伤了,被打伤的才是正宗的高原苹果,没有被打伤的就不是。这样就在指出缺点的同时大力宣传它的优点,在高原上生长的苹果,生长周期长,日照时间长,更有营养,冰雹打伤的疤痕反而成了它的一个支持。有一家企业开发出一款汽车,外观像乌龟,不好看,他们给这种车起名叫金龟博士,同时宣传它的优点,比如说非常省油、功能齐全等等,到后来这款外观非常有特点的车就专门卖它的外观,一直卖到美国,这就是有名的大众甲壳虫。 2、将“缺点”作为“特点”,将“特点”作为“优点”来宣传。因为产品的很多特点无所谓是“缺点”还是“优点”。关键是你能把这个特点找到,能给消费者带来利益。 应用分析 有一个生产冰柜的企业,它的冰柜和别人的是不一样的,主要竞争对手的产品是四面制冷,而它的是“五面制冷”。这到底是优点还是缺点呢?技术人员分析,冷气是往下走的,所以冰柜底部是最冷的,就算把冰柜底部的制冷去掉,它的底下也是最冷的。四面制冷的产品,当时是主要流行的。 而“五面制冷”是老技术,而且不容易改,那么到底四面制冷好还是五面制冷好呢?有很多专家分析的结果是四面制冷技术更先进,因为底部是不必要的,但是通过调查显示,很多消费者根本不知道哪一种更好。当时,美菱冰箱倡导一个概念:“新鲜的,美菱的”。既然冰箱能保鲜,那么冰柜也能保鲜,于是给它设计的广告语是“五面制冷新科技”。宣传由于五面制冷、制冷快保鲜效果好,这就把缺点转化成了优点。这家企业宣传五面制冷比四面制冷好,多一个面帛冷更快,对手拿他没办法,因为消费者也是这样思考的,多一面制冷当然更好,结果市场很成功。[1]
严格优势策略“全面的严格的优势策略简称严格优势策略(strictly dominant strategy) 概念解释 所谓严格优势策略是指不论对方采取什么策略,我采取的这个策略总比采取其他任何策略都好的策略。 所谓的严格劣势策略是指被全面的严格优势策略压住的那个策略,也就是说不是严格优势策略以外的策略。 所谓的双方优势策略则是指双方利益总和最大的策略。 举例分析 严格优势策略一、经典的囚徒困境 1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: 若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。 若二人都互相检举(互相“背叛”),则二人同样判监2年。 用表格概述如下: 甲沉默(合作) 甲认罪(背叛) 乙沉默(合作) 二人同服刑半年 甲即时获释;乙服刑10年 乙认罪(背叛) 甲服刑10年;乙即时获释 二人同服刑2年 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: 若对方沉默、背叛会让我获释,所以会选择背叛。 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。 在这几种结果对比中,甲选择坦白是他的严格最优策略,因为入狱2年比入狱10年要好,释放比入狱2年也要好。所以不论乙采取什么样的策略,甲都会选择坦白,用中国的古话说叫首先处于“不败之地”。同样,乙也会作如此推断。最终的结果,双方都会选择坦白,选择坦白是双方的严格优势策略,沉默则是双方的严格劣势策略,每个囚徒都不会采取对自己明显不利的严格劣势策略。 二、智猪博弈理论 智猪博弈理论为非合作博弈论创始人、诺贝尔经济学奖得主纳什提出的经典博弈案例,适用于在经济领域中大企业和小企业之间的关系处理。 该理论的前提是一个假设。假设猪圈里有两头猪,一头大猪,一头小猪。 猪圈很长,一头有一踏板,另一头是饲料的出口和食槽。猪每踩一下踏板,另一边就会有相当于10份的猪食进槽,但是踩踏板以后跑到食槽所需要付出的“劳动”,加起来要消耗相当于2份的猪食。 问题是踏板和食槽分置笼子的两端,如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。踩踏板的猪付出劳动跑到食槽的时候,坐享其成的另一头猪早已吃了不少。 “笼中猪”博弈的具体情况如下:如果两只猪同时踩踏板,同时跑向食槽,大猪吃进7份,得益5份,小猪吃进3份,实得1份;如果大猪踩踏板后跑向食槽,这时小猪抢先,吃进4份,实得4份,大猪吃进6份,付出2份,得益4份;如果大猪等待,小猪踩踏板,大猪先吃,吃进9份,得益9份,小猪吃进1份,但是付出了2份,实得-1份;如果双方都懒得动,所得都是0。 利益分配格局决定两头猪的理性选择:小猪踩踏板只能吃到一份,不踩踏板反而能吃上4份。对小猪而言,无论大猪是否踩动踏板,小猪将选择“搭便车”策略,也就是舒舒服服地等在食槽边,这是最好的选择。 现在来看大猪。由于小猪有“等待”这个优势策略,大猪只剩下了两个选择:等待一份不得;踩踏板得到4份。所以“等待”就变成了大猪的劣势策略,当大猪知道小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,只好为一点残羹不知疲倦地奔忙于踏板和食槽之间。 三、关于企业价格策略 我们来看两个企业关于价格策略的例子。假定两个企业都采取低价,可以各得30亿元利润;如果都采取高价,各得50亿元的利润;如果一家采取低价而另一家采取高价,那么价格高者利润为10亿元(市场份额损失较大),而另一家因为多销将利润上升到60亿元。究竟两家企业会采取什么价格策略呢? 这个博弈的格局与“囚徒困境”博弈的格局是一样的,按照上述分析,双方的优势策略是双方都实行高价,结果双方都能获得各50亿元的利润,这是得到总和最大的策略。双方的严格优势策略是都实行低价,而双方的严格劣势策略则是都实行高价。对于两个企业来说,高价都是严格劣势策略,而采取低价策略都是严格优势策略,每个企业都以对方为敌手,只关心自己的利益,在两家企业中,一方降价的结果,必然导致另一方也降价跟随,最终形成价格大战。如果双方通过合作起来,争取双方的优势策略,避开都采取各自的严格优势策略形成价格大战,这对两个企业都有意义,这我们称之为“双赢对局”。
伊斯特林悖论(Easterlin Paradox) 目录 1 伊斯特林悖论的概述 2 伊斯特林悖论的理论解释 伊斯特林悖论的概述 伊斯特林悖论又叫伊斯特林反论、伊斯特林逆论,是由美国南加州大学经济学教授理查德·伊斯特林(R.Easterlin)在1974年的著作《经济增长可以在多大程度上提高人们的快乐》中提出,即:通常在一个国家内,富人报告的平均幸福和快乐水平高于穷人,但如果进行跨国比较,穷国的幸福水平与富国几乎一样高,其中美国居第一,古巴接近美国,居第二。 伊斯特林悖论另外又称为“幸福—收入之谜”或“幸福悖论”。现代经济学是构建于“财富增加将导致福利或幸福增加”这样一个核心命题之上的。然而,一个令人迷惑的重要问题是:为什么更多的财富并没有带来更大的幸福?而这就是“幸福—收入之谜”或“幸福悖论”的表现。 伊斯特林悖论的理论解释 伊斯特林悖论的解释存在各不相同的多种理论。这些理论大体上可以分为两类: 一类是“忽视变量”理论。这些理论认为,经济学仅关注收入、财富和消费,而忽略了影响人们幸福的其他许多重要因素,包括:激励与创造、健康、政治参与、社会渴望、自由、利他主义的丧失、不平等、社会资本的减少和地位外部性。特别是,如果这些非经济因素与收入、财富和消费等经济因素呈负相关时,那么随着GDP的增长,许多影响幸福的非经济因素会下降,从而在不同程度上抵消经济因素带来的正面作用,于是就可能出现收入增加了而人们的幸福没有相应增加的“幸福悖论”。 另一类理论注重的是“比较视角”。这类理论包括相对收入理论、参照组理论或攀比理论。这些理论从收入本身出发,认为个人效用与自己的收入水平正相关,但与社会的平均收入水平(攀比水平)负相关;当社会变得更富裕时,攀比水平随之提高,导致收入—幸福曲线下移,从而使得总效用水平保持不变。罗伯特·弗兰克(RobertFrank)的“相对消费理论”为该领域经济学家的工作提供了一个参照点。在弗兰克看来,一个人的主观福利与其相对地位有关。这就产生了一个零和(zero-sum)地位竞争:一人受罚,大家无趣。因此,地位竞争仅仅导致个人福利的再分配,而作为一个整体的社会的幸福并没有增加。
概述在传统博弈理论中,常常假定参与人是完全理性的,且参与人在完全信息条件下进行的,但在现实的经济生活中的参与人来讲,参与人的完全理性与完全信息的条件是很难实现的。在企业的合作竞争中,参与人之间是有差别的,经济环境与博弈问题本身的复杂性所导致的信息不完全和参与人的有限理性问题是显而易见的。 传统博弈理论区别与传统博弈理论不同,演化博弈理论并不要求参与人是完全理性的,也不要求完全信息的条件。有限理性这一概念最早是由西蒙(Simon.H.A.)在研究决策问题时提出的,它是指人的行为只能是“意欲合理,但只能有限达到”。威廉姆森在研究影响交易费用的因素时,对有限理性的问题进行了归纳总结人的有限理性是由两方面的原因引起的:一方面是由于人的感知认识能力限制,它包括个人在获取、储存、追溯和使用信息的过程中不可能做到准确无误;人的有限理性的另一方面则是来自语言上的限制,因为个人在以别人能够理解的方式通过语句、数字或图表来表达自己的知识或感情时是有限制的(这或许是因为他们没有掌握到所必需的词汇,或许是因为这些词汇还不存在),不管多么努力,人们都将发现,语言上的限制会使他们在行动中感到挫折。从这两个方面而言,完全理性的人根本就不可能存在。 演化博弈论是把博弈理论分析和动态演化过程分析结合起来的一种理论。在方法论上,它不同于博弈论将重点放在静态均衡和比较静态均衡上,强调的是一种动态的均衡。演化博弈理论源于生物进化论,它曾相当成功地解释了生物进化过程中的某些现象。如今,经济学家们运用演化博弈论分析社会习惯、规范、制度或体制形成的影响因素以及解释其形成过程,也取得了令人瞩目的成绩。演化博弈论目前成为演化经济学的一个重要分析手段,并逐渐发展成一个经济学的新领域。 根源经济演化思想很早就存在于经济理论中,即使是在以静态分析为主的新古典经济学盛行的年代,演化思想也仍然在经济学中占有一席之地。马歇尔(Marshall,1948)就曾指出,演化的概念比静态的概念更复杂,因此大量的经济基础理论研究还是以机械类比、均衡、稳定、决定性为主;阿尔钦(Alchian,1950)建议在经济分析中用自然选择的概念代替利润最大化的概念,认为适度的竞争可以作为决定各种制度形式存在的动态选择机制。在这种选择机制下,即使不把行为主体看作是理性的,但来自社会的演化压力(优胜劣汰)也将促使每个行为主体采取最适合自身生存的行动,从而使得达到的演化均衡为纳什均衡。阿尔钦的这种演化观不仅为新制度经济学研究制度的选择提供了一个思路,而且也为演化博弈论的发展提供了思路;纳什(Nash,1950)的“群体行为解释”,则认为是包含较完整的演化博弈思想的最早理论成果。纳什认为,不需要假设参加者有关于总体博弈结构的充分知识,也不要求参加者有进行任何复杂推理的愿望和能力,只需假定参加者能够积累关于各种纯策略被采用时的相对优势的实证信息,纳什均衡仍可达到。 发展演化博弈理论能够在各个不同的领域得到极大的发展应归功于斯密斯(Smith,1973)与普瑞斯(Price,1974),他们提出了演化博弈理论中的基本概念——演化稳定策略(Evolutionary Stable Strategy)。斯密斯和普瑞斯的工作把人们的注意力从博弈论的理性陷阱中解脱出来,从另一个角度为博弈理论的研究寻找到可能的突破口。自此以后,演化博弈论迅速发展起来。20世纪80年代,随着对演化博弈论研究的深入,许多经济学家把演化博弈理论引入到经济学领域,用于分析社会制度变迁、产业演化以及股票市场等等,同时对演化博弈理论的研究也开始由对称博弈向非对称博弈深入,并取得了一定的成果。20世纪90年代以来,演化博弈理论的发展进入了一个新的阶段。威布尔(W.Weibull,1995)比较系统、完整地总结了演化博弈理论,其中包含了一些最新的理论研究成果。其他的一些理论成果包括克瑞斯曼(Cressman,1992)以及萨缪尔森(Samuelson,1997)的著作。 应用研究与此同时,演化博弈论在经济学中的应用研究也飞速发展。弗里德曼(Friedman,1991)认为演化博弈在经济领域有着极大的应用前景,并对一些具体应用前景的动态系统进行了探讨;巴苏(Basu,1995)研究了公民规范和演化之间的关系,认为规范的长期存活依赖于演化过程和自然选择;弗里德曼和方(Friedman& Fung,1996)以日本和美国的企业组织模式为背景,用演化博弈分析了在无贸易和有贸易情形下企业组织模式的演化;拜斯特和古斯(Bester&Guth,1998)用演化博弈理论研究人类在经济活动中利他行为的存在性及其演化稳定性。登弗伯格和古斯(Dufwenberg&Guth,1999)在双寡头垄断竞争的情形下比较了两种解释经济制度的方法:间接演化方法和策略代理方法,研究了在怎样的市场环境中这两种方法会导致相似的市场结果;戈特曼(Guttman,2000)用演化博弈理论研究了互惠主义在有机会主义存在的群体中是否能够存活的问题;青木昌彦(2001)从认知的角度提出了一个关于进化博弈的主观博弈模型;哈如威和普拉赛德(Haruvy& Prasad,2001)运用演化博弈的方法研究在具有网络外部性的条件下免费软件的最优价格和质量;科斯菲尔德(Kosfeld,2002)建立了德国超市购物时间反常的演化博弈模型;奈宝格和瑞戈(Nyborg&Rege,2003)用演化博弈理论研究了顾及别人感受的吸烟行为的社会规范的形成;加斯米那和约翰(Jasmina&John,2004)研究了三种不同的学习规则在公共物品博弈中仿制人类行为时谁表现得更好的问题;丹尼尔、阿瑟和托德(Daniel,Arce& Todd,2005)研究了四种不同类型的囚徒困境博弈,指出这四种囚徒困境要达成合作所需的演化和信息要求。 发展方向进入2l世纪以来,国内的学者也开始关注演化博弈论。谢识予(2001)、张良桥(2001)、盛昭瀚和蒋德鹏(2002)介绍了演化博弈理论的一些基本概念和相关内容;崔浩、陈晓剑和张道武(2004 )用演化博弈论的方法分析了有限理性的利益相关者在共同治理结构下参与企业所有权配置并达到纳什均衡的演化博弈过程;胡支军和黄登仕(2004 )给出证券组合选择的一个演化博弈方法;高洁和盛昭瀚(2004)研究了发电侧电力市场竞价的演化稳定策略;周峰和徐翔(2005)运用演化博弈论探讨了农村税费改革问题;刘振彪和陈晓红(2005)创建了从单阶段创新投资决策到多阶段创新投资决策的演化博弈均衡模型研究企业家创新投资决策问题;石岿然和肖条军(2004)在一个三阶段Hotelling博弈模型的基础上研究双寡头零售市场价格策略的演化稳定性问题;易余胤等(2003;2004;2005)运用演化博弈方法研究了信贷市场、双寡头市场、自主创新行为、合作研发中的机会主义行为等一系列问题。从以上的研究成果来看,近一两年来有越来越多国内学者关注该领域,并且应用演化博弈论探讨了经济学领域中的很多问题。但国内的研究成果仍然存在着不少问题,主要体现在:(1)对演化博弈论的特征以及基本概念不够清晰,演化博弈并不是演化的观点和博弈的思想简单相加,动态演化的博弈模型也不一定就是演化博弈模型;(2)运用演化博弈论解释某些问题显得“牵强附会”,让人感觉只是单纯套用演化博弈论,或是不清楚演化博弈论的理论框架;(3)只能运用一些非常简单的演化博弈模型,研究不够深入。事实上,问题(2)、(3)的产生至少部分是由于(1)引起的,因此,有必要把演化博弈论(模型)的特征以及基本概念界定清楚。 特征一般的演化博弈理论具有如下特征:它的研究对象是随着时间变化的某一群体,理论探索的目的是为了理解群体演化的动态过程,并解释说明为何群体将达到目前的这一状态以及如何达到。影响群体变化的因素既具有一定的随机性和扰动现象(突变),又有通过演化过程中的选择机制而呈现出来的规律性。大部分演化博弈理论的预测或解释能力在于群体的选择过程,通常群体的选择过程具有一定的惯性,同时这个过程也潜伏着突变的动力,从而不断地产生新变种或新特征。 几乎所有的演化博弈理论都具有上述特征。然而,演化博弈论在经济学领域的应用与运用演化博弈理论解释生物进化现象有所不同,演化博弈论中的一些生物进化的概念在经济学领域中无法应用。比如,性别和交配,染色体和代际等等,这些概念很难被引入到经济学领域中来。演化博弈论在经济学领域的应用主要是考虑微观个体在演化的过程中可以学习和模仿其他个体的行为,即沿用拉马克的遗传基因理论。 一般的演化博弈模型的建立主要基于两个方面:选择(Selection)和突变(Mutation)。选择是指能够获得较高支付的策略在以后将被更多的参与者采用;突变是指部分个体以随机的方式选择不同于群体的策略(可能是能够获得高支付的策略,也可能是获得较低支付的策略)。突变其实也是一种选择,但只有好的策略才能生存下来。突变是一种不断试错的过程,也是一种学习与模仿的过程,这个过程是适应性且是不断改进的。不具备这两个方面的模型不能称为演化博弈模型。比如,艾格则等(Agiza,Hegazi&Elsadany,2001)提出了一个动态演化的博弈模型,它在有限理性的企业都采取一定的行为规则(产量调整机制)下研究企业重复博弈是否可以达到纳什均衡。这个模型虽然研究的是有限理性个体和动态演化过程,但不属于演化博弈模型,因为没有包含选择和突变的过程。如果把这个模型作如下修改,便可以看作演化博弈模型:假设企业有许多不同的行为规则,而采用某些行为规则的企业比那些不采用这些行为规则的企业获益更大;随着时间的推移,采用这些行为规则的企业生存下来,而不采用这些行为规则的企业被淘汰。这样修改后的模型既有选择过程又有突变过程,便成为一个演化博弈模型。总之,演化博弈模型有如下几个特征:第一,以参与人群体为研究对象,分析动态的演化过程,解释群体为何达到以及如何达到目前的这一状态;第二,群体的演化既有选择过程也有突变过程;第三,经群体选择下来的行为具有一定的惯性。 应用优势(一)方法论新古典经济学以原子论和机械力学为理论基础,它假定参与人是完全理性和一致偏好的。参与人在既定的条件下可以得到一个最优方案,比如生产商在技术和资源一定的情况下可以找到一个获得最大收益的生产方案,消费者在既定的预算条件下可以获得一个最大效用的消费方案等等。博弈论在新古典经济学的基础上增加了行为主体之间的互动,使得理论更贴近现实,但总的来说,博弈论仍然没有跳出新古典经济学的框架。因此,在运用博弈论建立模型时,对各种关系做出的假设往往不切合实际,因此,根据此类模型做出的决策往往和现实相差较远,容易导致失误。 演化博弈论摒弃了完全理性的假设,以达尔文生物进化论和拉马克的遗传基因理论为思想基础,从系统论出发,把群体行为的调整过程看作为一个动态系统,在其中每个个体的行为及其与群体之间的关系得到了单独的刻画,可以把从个人行为到群体行为的形成机制以及其中涉及到的各种因素都纳入到演化博弈模型中去,构成一个具微观基础的宏观模型,因此能够更真实地反映行为主体的多样性和复杂性,并且可以为宏观调控群体行为提供理论依据。因此,演化博弈论提供的经济现象的解释比博弈论更深刻、更贴近实际、更有说服力。 (二)认识论 博弈论假设行为主体具有完美的理性思维,即行为主体始终以自身最大利益为目标,具有各种环境中追求自身利益最大化的判断和决策能力,具有在存在交互作用的博弈环境中完美的判断和预测能力,不会犯错、不会冲动、没有不理智。另外,博弈论中的一个最重要的假设就是博弈双方行为人的“共同知识”假设,即所有参与人都是理性的,所有参与人知道所有参与人都是理性的,如此类推,以至无限。这是一个令人难以想象的无限推理过程,就行为人对现实世界的认识能力而言,是一条非常严格的假设。很显然,现实世界这种假设通常是得不到保证的。 演化博弈论对于行为主体采取的是有限理性假设,因此,这些个体不具备博弈论中行为主体的“全知全能”,无法在经济活动中瞬间能够获得最优的结果。在演化博弈论中,行为主体被假设为程序化地采用某一既定行为,它对于经济规律或某种成功的行为规则、行为策略的认识是在演化的过程中得到不断的修正和改进的,成功的策略被模仿,进而产生出一些一般的“规则”和“制度”作为行为主体的行动标准。在这些一般的规则下,行为主体获得“满意”的收益。这与现实情况更相符合。 (三)时间的不可逆性 博弈论注重均衡状态的研究,忽视达到均衡的过程。在博弈论中,行为主体能够立即对外部环境作出完美判断,达到均衡状态。博弈论忽视时问问题,强调行为主体瞬问的均衡,即使考虑时间问题,也把时间看作对称或可逆的。 在演化博弈论中,时间占有非常重要的地位。行为主体在演化过程中不断修正和改进自己的行为,模仿成功的策略等等,都需要一个相对较长的时间。演化博弈论认为,时间是不可逆的,过去时间内的状态与未来时间的状态是不对称的,因而,行为主体状态的演化跟初始的时间状态息息相关。 (四)随机(突变)因素 在博弈论模型中,不确定因素以随机变量的形式出现,通过给定随机变量的分布,模型的研究将最终集中于一些重要变量的平均值上,而不确定因素往往被忽略。因此,在博弈论中,即使存在不确定性因素,理性的行为人仍可实现最优化的结果。在演化博弈模型中,随机(突变)因素起着关键的作用,演化过程常被看成是一种试错的过程。行为人会尝试各种不同的行为策略,并且每一次都将发生部分替代。在多数情况下,用概率分布来描述这种不确定性是不可能的,这种不确定使长期最优化决策难以实现,演化过程的长期趋势很难预测,但如果选择过程的适应性标准确定,演化过程呈现一定的规律性,此时,演化过程的长期趋势又是可预测的。 (五)选择机制及均衡 传统的博弈理论中的行为主体是完全理性的,通常,在完全理性的假设下,如果纳什均衡存在,那么博弈双方博弈一次就可直接达到纳什均衡。这个结果不依赖于市场的初始状态,所以不需要任何的动态调整过程。而演化博弈论认为,纳什均衡的达到应当是在多次博弈后才能达到的,需要有一个动态的调整过程,均衡的达到依赖于初始状态,是路径依赖的。 另外,在有多个纳什均衡的情况下,若某个纳什均衡一定会被采用时,必须存在有某种能够导致每个博弈方都预期到的某个均衡出现的机制。然而,博弈论中的纳什均衡概念本身却不具有这种机制。因此,当博弈存在多个纳什均衡时,即使假设博弈方都是完全理性的,也无法预测博弈的结果是什么,如果博弈方只有有限理性,就更难预测博弈的结果了。当然,在博弈论中,当存在多个纳什均衡时,可以利用后向归纳法来实现对纳什均衡的精炼,但这种方法的前提条件是参与人需要满足一个比完全理性更强的理性假定——序贯理性。这在现实中是无法达到的。而在演化博弈理论中,均衡的精炼通过前向归纳法来实现,即参与人根据博弈的历史来选择其未来的行为策略,是一个动态的选择及调整过程。因此,尽管参与人都是有限理性的,但动态的选择机制将使得在有多个纳什均衡存在的情形下达到其中的某一个纳什均衡,实现纳什均衡的精练。 最常见的选择机制动态方程有三类:第一类为正支付动态方程,在这类动态方程中,所有获得的支付大于群体的平均支付的纯策略都有正增长率,所有获得的支付小于群体的平均支付的纯策略都有负增长率;第二类为单调动态方程,在这类动态方程中,若一个纯策略或混合策略获得的支付大于另一个纯策略所获得的支付,则前者的增长率大于后者;第三类为弱正支付动态方程,在这类动态方程中,至少有某些获得支付比群体的平均支付高的纯策略(若存在)有正的增长率。显然,弱正支付动态方程包含了正支付动态方程和单调动态方程。 在演化博弈理论中运用最为广泛的选择机制动态方程是泰勒和朱克(Taylor&Jonker,1978)提出的复制者动态方程,当时他们仅仅研究了对称两人博弈。随后,泰勒(Taylor,1979)把对称情形推广到不对称情形。在复制者动态方程中,纯策略的增长率与相对支付或适应度(纯策略所获得的支付与群体的平均支付之差)成正比。显然,复制者动态方程包括在前三类选择机制动态方程中。复制者动态方程在经济领域的应用最为广泛,学者们运用复制者动态方程对社会习俗、制度、行为规范等一系列社会经济问题进行了成功的研究。 那么,怎样把演化博弈论的基本概念——演化稳定策略与选择机制动态方程联系起来呢?是否通过选择机制所获得的均衡的精练就是演化稳定策略?从直观看来,演化稳定策略似乎可以保证均衡是稳定的。但正式的稳定性的定义针对的是动态系统,而不是博弈的支付或适应度函数,并且演化稳定策略只能描述系统的局部动态性质,它不能够表现均衡与动态的选择过程之间的关系。因此,演化稳定策略与选择机制动态方程所达到的动态均衡并不一定是同一个概念。因此,为了更好地描述动态的演化过程,把演化博弈理论中的静态概念与动态过程统一起来,荷什勒佛(Hirshleifer,1982)提出了演化均衡的概念。按照荷什勒佛的概念,若从使得动态系统的某平衡点的任意小邻域内出发的轨线最终都演化趋向于该平衡点,则称该平衡点是局部渐近稳定的,这样的动态稳定平衡点就是演化均衡(Evolutionary Equilibrium)。 众所周知,演化稳定策略是纳什均衡的精炼。那么,演化均衡与演化稳定策略、纳什均衡之间的关系是怎样的呢?弗里德曼(Friedman,1998)指出: (1)每一个纳什均衡都是动态系统的平衡点;(2)演化均衡一定是纳什均衡;(3)演化稳定策略不一定是演化均衡。 复制者动态方程可以保证演化稳定策略为演化均衡,但在一般的动态方程中演化稳定策略却既不是演化均衡的充分条件也不是演化均衡的必要条件。弗里德曼还认为,演化博弈论中最为有用、运用最为广泛的均衡概念并不是演化稳定策略,而是演化均衡。因为行为按照某种动态随时间变化的假设是合乎情理的。 [1] 评述 演化博弈论摒弃了完全理性的假设 以达尔文生物进化论和拉马克的遗传基因理论为思想基础,从系统论出发,把群体行为的调整过程看作为一个动态系统,在其中每个个体的行为及其与群体之间的关系得到了单独的刻画,可以把从个人行为到群体行为的形成机制以及其中涉及到的各种因素都纳入到演化博弈模型中去,构成一个具微观基础的宏观模型,因此能够更真实地反映行为主体的多样性和复杂性,并且可以为宏观调控群体行为提供理论依据。 在演化博弈论中,行为主体被假设为程序化地采用某一既定行为,它对于经济规律或某种成功的行为规则、行为策略的认识是在演化的过程中得到不断的修正和改进的,成功的策略被模仿,进而产生出一些一般的“规则”和“制度”作为行为主体的行动标准。在这些一般的规则下,行为主体获得“满意”的收益。 行为主体在演化过程中不断修正和改进自己的行为,模成功的策略等等,都需要一个相对较长的时间。演化博弈论认为,时间是不可逆的,过去时间内的状态与未来时间的状态是不对称的,因而,行为主体状态的演化跟初始的时间状态息息相关。在演化博弈模型中,随机(突变)因素起着关键的作用,演化过程常被看成是一种试错的过程。行为人会尝试各种不同的行为策略,并且每一次都将发生部分替代。 近年来,演化博弈论的理论研究以及演化博弈论在经济学的应用研究,成为国外学术界最热门的研究领域之一。演化博牟论还是经济学尤其是博弈论中的一个新领域,可以预见,在未来相 长的时期内,演化博弃沧仍将是经济研究中最具发展潜力的前沿领域之一。