简介斗鸡博弈,顾名思义就是两只公鸡狭路相逢,谁也不服谁,就开始掐,你咬我一口,我蹬你一脚。但是,如果是都照死掐,结果就是两败俱伤。这只鸡眼被啄瞎,那只鸡腿被掐折。那么,这次斗鸡即使决出胜负,也没有了意义。所以,斗鸡博弈里存在两个均衡点。这两个均衡点是以数学家纳什的名字命名的——纳什均衡点。均衡点的位置就是一方胜利,前进一步,一方退缩,做一些让步。点不再是居中了,而是黄金分割。因为两败俱伤肯定是双方都不愿意选 择的结果,双方都希望能在自己损失最少的情况下得到最多。所以,最佳的结果是一方强硬小胜,而另一方则妥协小败。这时候,双方都会自觉遵守纳什均衡,这也是斗鸡博弈的最优策略。 [1] 算法 试想有两只公鸡遇到一起,每只公鸡有两个行动选择:一是退下来,一是进攻。如果一方退下来,而对方没有退下来,对方获得胜利,这只公鸡则很丢面子;如果对方也退下来,双方则打个平手;如果自己没退下来,而对方退下来,自己则胜利,对方则失败;如果两只公鸡都前进,那么则两败俱伤。因此,对每只公鸡来说,最好的结果是,对方退下来,而自己不退。支付矩阵如下:鸡乙/鸡甲 前进 后退前进 (-2,-2) (1,-1)后退 (-1,1) (-1,-1)上表中的数字的意思是:两者如果均选择“前进”,结果是两败俱伤,两者均获得-2的支付;如果一方“前进”,另外一方“后退”,前进的公鸡获得1的支付,赢得了面子,而后退的公鸡获得-1的支付,输掉了面子,但没有两者均“前进”受到的损失大;两者均“后退”,两者均输掉了面子,获得-1的支付。当然表中的数字只是相对的值。这个博弈有两个纳什均衡:一方前进,另一方后退。但关键是谁进谁退?一博弈,如果有惟一的纳什均衡点,那么这个博弈是可预测的,即这个纳什均衡点就是事先知道的惟一的博弈结果。但是如果一博弈有两个或两个以上的纳什均衡点,则任何人无法预测出一个结果来。因此,我们无法预测斗鸡博弈的结果,即不能知道谁进谁退,谁输谁赢。应用汉军立皇帝的过程,就是一个斗鸡博弈的过程,并不是刘和刘玄之间的斗鸡博弈,而是汉军里面的宗室子弟力量和绿林军力量的博弈。双方都希望能找到一个代表和维护自己最大利益的人,让这个人来当皇帝。按照《后汉书》记载,在立皇帝的时候,也有不少人认为刘 很合适,但是绿林军希望立刘玄: (绿林军)乐放纵,惮伯升威明而贪圣公懦弱,先共定策立之。(《后汉书》卷一四《刘 传》)现象斗鸡博弈在生活中也是普遍存在的,在大学里面,经常要进行团队合作,往往对考试成绩不在乎并表示“鱼死网破”的同学可以轻松的获得搭便车的机会,因为重视学习、重视成绩的人在团队中更没有理由的把作业做好。 这样的例子充斥在社会中,往往没有无理取闹的人、发疯闹事的人在发生纠纷以后更容易震慑住理性的人。 综合上面的例子,高承远认为,斗鸡博弈在很大程度上强调了一种“机会成本”的概念,一个有更多机会成本丧失的人往往表现的更加的理性,更加的拘束,更加的患得患失,而几乎没有什么机会成本的人往往在生活中更加的肆无忌惮。 一个简单的例子就是,在公路上发生了交通事故,一个无赖和一个书生进行理论,由于时间成本不一样,斗鸡博弈是很容易产生的,最后的结果往往是一个:秀才遇到兵,有理说不清。 斗鸡博弈强调的是,如何在博弈中采用妥协的方式取得利益。高承远觉得,如果双方都换位思考,它们可以就补偿进行谈判,最后造成以补偿换退让的协议,问题就解决了。博弈中经常有妥协,双方能换位思考就可以较容易地达成协议。考虑自己得到多少补偿才愿意退,并用自己的想法来理解对方。只从自己立场出发考虑问题,不愿退,又不想给对方一定的补偿,僵局就难以打破。 [2]
目录 1概念 2参考文献 概念 定义一:所谓对称博弈是指群体中个体无角色区分的博弈,在进化博弈中,不同角色一般按个体所能够选择的纯策略集合是相同还是不相同来区分的,因此对称博弈中所有的个体都有相同的行动空间。 定义二:在博弈论,如果博弈的收益只依赖于选手所选择的策略而不依赖于进行博弈的选手,这类博弈称为对称博弈。 [1]应用例如,在囚徒困境的博弈中,囚徒都选择认罪的结果为都判刑10年,都选择不认罪的结果为都判刑1年,一个选择认罪一个不认罪的结果分别为判刑20年与释放。在这个博弈中,囚徒最终判刑的年数只要他选择认罪与否有关,而与他的身份无关,这就是一个对称博弈。用表格表示如下。 甲认罪甲不认罪 乙认罪10年,10年0,20年 乙不认罪20年,0 年1年,1年 对称博弈是一个小作品。你可以通过或修订扩充其内容。 参考文献 ↑ 张良桥.进化稳定均衡与纳什均衡J
目录 1什么是对称协调博弈 2对称协调博弈的类型1 3对称协调博弈均衡选择1 4基于不变突变率的理论研究1 5基于可变突率的理论研究成果及评述1 6进一步研究的方向评述1 7参考文献 什么是对称协调博弈 对称协调博弈是指无角色区分的参与之间进行的协调博弈,它表现在支付函数的对称上,策略集是一样的。从形式上看:对称协调博弈就是博弈支付矩阵主对角线上的元素都是纳什均衡的博弈。协调博弈的均衡选择并不涉及到激励问题而依赖于参与人之间对博弈如何进行有充分相似的信念。正是由于信念形成是一个相对复杂的过程,所以对协调博弈均衡问题的研究也就显得非常复杂,不同的信念形成过程动态就会产生不同的均衡。 对称协调博弈的类型1 对称协调博弈分成三类:支付占优与风险占优不一致;支付占优与风险占优一致(严格纳什均衡可进行帕累托排序均衡)及无占优性可比的协调博弈。 (1)支付占优与风险占优不一致的协调博弈 这类博弈最典型的例子就是猎鹿博弈。有两个打猎人,他们可以合作去猎鹿也可以单独去猎兔,如果合作猎鹿,那么两个都可以分得4个单位的支付;如果一个人去猎鹿而另一个人去猎兔,那么前者支付为0(因为猎鹿需要两个人合作可以成功)后者的支付为2;如果两个人不合作都去猎兔,那么他们都可以得到3单位的支付。该博弈的支付矩阵如下: 猎鹿猎兔 猎鹿4,40,2 猎兔2,03,3 表一 显然该博弈有两个纯策略严格纳什均衡即要么两个合作猎鹿,要么两人去猎兔与一个混合策略纳什均衡。按Harsayi and Selten(1988)2的定义,纯策略猎鹿是支付占优纳什均衡、纯策略猎兔是风险占优纳什均衡。猎兔策略是一个保险策略,而猎鹿博弈则是一个帕累托效率策略但由于策略的不确定性而使它具有较大的风险,因此,均衡选择取决于参与人对风险的态度。 (2)支付占优与风险占优一致的协调博弈3 该类博弈典型例子就是中间值博弈、选美博弈或者平均意见博弈,策略值离中间值越远则成本越大。博弈双方的支付用代数式表示为: ,其中 。这种协调博弈中存在多当具有帕累托可比的严格纳什均衡,并且博弈双方的偏好具有一致性,严格纳什均衡具有帕累托可比性。如下面支付矩阵所表示的协调博弈: X1X2 X11,10,0 X20,02,2 表二 此类博弈有两个严格纳什均衡(X1,X1);(X2,X2),其中第二个均衡既是风险占优又是支付占优均衡,并且博弈双方有完全一样的偏好。 (3)无支付占优与风险占优区分的协调博弈 该类博弈最典型的例子就是左行右行博弈。两个在一条路上相对而行的行人,如果都向左或者都向右那么他们就不会相碰,因此,都获得支付1个单位.但如果两个中一个向左前方,一个向右前方那么他们就可能相碰,走起来不方便。这种情况博弈双方有完全相同的偏好,协调博弈中两个严格纳什均衡是无差异的,而该博弈的两个严格纳什均衡就是无差异的。 左行右行 左行1,10,0 右行0,01,1 表三 要解决协调博弈均衡选择问题,首先需要解决各参与人对其他参与行为的预期问题。第二、三类博弈由于博弈双方偏好完全一致,均衡选择问题只取决于支付大小而与风险无关,因此,可以通过博弈前的非约束、无成本的交流或者通过第三方提示而得到解决行为预期问题。第一类博弈风险性与收益性不同,由于参与人对风险与收益的不同看法而使得此类博弈的处理显得特别复杂,也正因为如此,该类协调博弈成为了理论界研究的重点。 对称协调博弈均衡选择1 从已有的研究文献来看,对称协调博弈均衡选择基本沿着两条路径来进行的。 一是实验经济学方法,即通过对参与人真实行为的研究,重点探讨影响协调博弈中均衡选择的因素; 二是沿着纯理论研究方法,通过构建数学模型来解释实验结果,进一步完善进化博弈理论体系,以便更好地预测参与人的行为。实验经济学研究协调博弈的目的就是为了寻找影响均衡选择的因素,为理论研究提供现实的证据,减少理论研究的盲目性,推动理论研究的发展。 (1)策略的显著性影响协调博弈的均衡选择 运用实验方法来研究协调博弈均衡选择问题至少可以追溯到托马斯·克罗姆比·谢林(Thomas Crombie Schelling)(1960)4。Schelling通过一系列的实验报告得出了第二类、第三类协调博弈的均衡选择结果并发现参与人常常通过焦点来协调他们的行为。他认为:在现实中,参与人可能通过自己的经验、文化、心理等联想而使一些均衡较之其他均衡更突出,并产生自动实施的预期而倾向于选择那些“唯一”的均衡。正是因为一些策略可能比其他策略更突出或者更显著,参与人的选择结果更多地依赖于策略的显著性而非博弈支付。博弈前的无成本、非约束、不可验证的交流有助于解决第二类、第三类协调博弈的均衡选择问题,并且系统会收敛于帕累托效率均衡。现实中第二类、第三类协调博弈的情况是很少见的,多数情况下,参与人的偏好不会完全一致,存在风险与收益之间的权衡。在这种情况下,需要通过如法律、法规等强制性措施来使博弈收敛到特定的均衡。Schelling还研究了法律与显著性即焦点之间的关系,并指出法律除了通过其制裁功能来改变博弈支付进而影响参与人行为以外,更重要的是由于其信息的公开性使得相应策略具有焦点的功能,焦点使个人行为更快地收敛,即法律具有快速转变已经形成的秩序的功能。 schelling是较早运用实验方法来研究协调博弈中均衡选择问题的学者之一,不过他所用的实验是非正式的且局限于小群体之中的,就连他自己也认为他所用的方法是“不科学”的。Judith Mehta, Chris Starmer, and Robert Sugden(1994)5模仿Schelling(1960)的实验更正式地考察了Schelling(1960)所提出的焦点在简单第二类、第三类协调博弈中对均衡选择的作用。他们通过两组实验的比较,验证了Schelling提出的“焦点对协调博弈中的均衡选择起着非常重要的作用”的观点。Aumman(1987)6认为博弈前无成本、非约束的交流会使协调收敛到效率均衡,而对第一类有风险性与收益性冲突的协调博弈,博弈前的交流不能使系统收敛于效率均衡,因为前者的交流是可置信的,而后者无成本、非约束交流是不可置信的。 (2)风险性影响协调博弈的均衡选择 Van Huyck, Battailio and Beil (HBB,1990)7系统地研究了协调博弈的均衡选择问题,目的是探讨以下两个问题:(1)在策略互动的博弈环境下,纳什均衡是否是一个好的预测;(2)当存在多个纳什均衡时,哪一个均衡最后会出现以及均衡的出现是否与博弈特定均衡的显著性有关。他们进行了两种试验:一是参与人进行随机匿名配对博弈,二是参与人可以自己选择博弈对手。结果发现,后者可以很快地达到支付占优均衡,而前者却很难达到此结果。显然,纳什均衡能够很好地预测被观察到的行为,这是不争的事实。另外他们在实验中发现参与人并不总是选择帕累托占优的均衡,多数情况下会选择风险占优均衡。该结果与一般认为帕累托均衡是一个自然的焦点的观点不一致,即协调失败可能会在实践中出现。最后,在实验中他们还证实了劣策略可能影响纳什均衡选择,因此在非合作博弈理论中的重复剔除严格劣策略的方法是值得商榷的。他们的实验结果成为了后续理论研究的出发点。 (3)初始提示影响协调博弈的均衡选择 Cooper et al.,(1992)8通过实验验证了博弈前的交流有利于参与人协调于支付占优状态,Berninghaus and Van Huyck, Raymond Battalio and Richard Beil(1991)9通过实验研究了平均意见协调博弈中参与人人数、支付占优、保障水平及历史事件的显著性等对均衡选择的影响。实验结果发现,在有唯一支付占优均衡且有唯一保障性均衡的平均意见博弈10中,在支付占优与保障性都不具有显著性的情况下,重复互动产生了一个简单的动态并且收敛到由初始中位数决定的无效率均衡。因此,如果给定一个初始中间值,那么在未来时期,这个中间值就变得可以预测了。因此,初始提示2是影响协调博弈中均衡选择的重要因素。 (4)重复次数影响协调博弈的均衡选择 Siegfried K. Berninghaus, Karl-Martin Ehrhart(1998)11通过实验考察了参与人重复次数对协调博弈中均衡选择的影响,他们是基于以下假说来进行试验的:协调于帕累托均衡可以获得更多支付,当博弈次数重复时,参与人为了长期支付而愿意在开始时牺牲短期支付,表现为更有耐心寻求协调于帕累托均衡。实验结果发现:当博弈重复次数为10次时,参与人常常选择非帕累托效率均衡;当均衡重复次数为30次时,两种均衡都有可能被选择;当博弈重复次数为90次时,参与人常常选择帕累托效率均衡。通过减少博弈的重复次数就得到了大群体时HBB(1990)的结论,当博弈重复次数足够大时均衡结果就是帕累托优势均衡,该结论支持了学习导向理论。一种解释就是参与人意识到效率均衡的存在,在重复博弈早期就会通过选择而发出希望协调于支付占优均衡的信号。另外,在实验中他们通过改变协调失败的成本,发现高协调失败成本会阻碍风险厌恶参与人改变自己行动的可能性,这与Myerson,Roger(1978)12所指出的失败成本越大,参与人犯错误的概率就越小的观点是一致的。 (5)互动结构影响协调博弈的均衡选择 Claudia Keser, et. al. (1998)13通过了一系列实验研究了局部互动结构与均衡选择的关系。他们比较了有局部互动结构与没有局部互动结构的实验。结果发现在三人群体且没有局部互动结构时,博弈很快就均衡于帕累托效率均衡,该结果与Van Huyck et al. (1990)的小群体结论是一样的。当参与人处于局部互动结构中时,他们发现博弈协调于风险占优均衡。Huyck et al.(1997)14在另一次实验中,比较了封闭邻居与开放邻居结构对协调均衡选择的影响。结果发现,前者更易于协调于支付占优状态,其原因在于开放邻居中支付占优的风险性大于封闭邻居支付占优的风险性。同时他们也发现当存在更多迭代时,博弈更多地协调于支付占优均衡。因此,局部互动对协调博弈中的均衡选择问题起着非常重要的作用。 (6)博弈前的“廉价磋商”影响协调博弈均衡选择 Russell Cooper et. al (1992)15研究了博弈前的廉价磋商对协调博弈中均衡选择的影响。他们考察第二类博弈4与猎鹿博弈。实验发现在第二类博弈中,单向博弈前廉价磋商能够提高帕累托占优均衡出现的可能性,但双向博弈前廉价磋商却不一定会降低协调失败的频率。猎鹿博弈中双边博弈前廉价磋商总是会选择帕累托占优均衡而不是选择风险占优均衡,而单边博弈前廉价磋商却不会。也就是说,博弈前的廉价磋商是影响协调博弈均衡选择的又一因素。 以上学者根据实验分别从不同的角度研究了影响协调博弈中的均衡选择问题的因素。从他们的研究中可以看出:博弈支付并不是影响均衡选择的唯一因素,现实中影响协调博弈的均衡选择因素是多方面的。因此,要较准确地描述参与人的行为就必须综合考虑影响参与人决策过程的各种因素。 基于不变突变率的理论研究1 (1)不变突变率的理论研究成果 Michihiro Kandori, Greorge J. Mailath, Rafael Rob (KMR)1993首次运用Foster and Young(1990)7的方法考察了离散条件下系统的随机稳定性并给出了相应的算法。他们的核心思想就是在模型中引入了确定性达尔文动态,在此基础上再引入了由正态分析描述的随机影响因素,从而使得确定性动态过程变成了随机动态过程。在此模型中,他们假定背景突变的存在及每个参与者都在任何时候都以相同的概率发生突变而选择突变策略,由此便保证了马尔可夫链的遍历性,因此,随机动态系统存在平稳分布,他们采取了Freidlin, M. I and Wentzell, A . D. (1984)16提供的决策树法来求系统平稳分布即随机稳定状态。决策树法的基本逻辑如下: 一是引入一种状态到另一种状态的离开阻抗(也就是离开某状态所需要的突变数); 二是找到每一个常返状态8(Recurrent state)中吸引子(attractor)对应的最小阻抗的路径,由此研究吸引子的吸引域宽度,或者求出每个吸引子的随机潜力; 最后,有最宽吸引域或者最小随机潜力的吸引子就是随机稳定状态。在KMR一文中,由于假定在任何状态任何时间每个个体都以相同的非零突变率选择其他策略,因此,离开阻抗直接可以通过突变者的个体数来描述。阻抗决定吸引域的半径即宽度,吸引域的宽度决定系统回复到均衡的次数,进而确定随机稳定状态。正因为如此,KMR一文的所有定理的结论都是围绕着“吸引域最宽的吸引子就是随机稳定状态”这一结论而展开的。 Peyton Young(1993)应用与KMR相同的方法研究了离散条件下对称协调博弈的随机稳定性,他主要考察社会习俗的形成问题。他认为由于参与人有高昂的信息搜寻成本,每一个人都只能依据非常有限的博弈历史来进行决策,均衡选择并不是依据其本身所具有内在显著性,而是由系统演化的动态过程所决定的。动态过程也就是参与人对其他参与人行为的信念即预期形成的适应性学习过程。只要信息充分不完全性并且参与人永不犯错误,那么满足弱非循环博弈的适应性学习过程以概率1会收敛到纯策略严格纳什均衡;不完全性可以有效防止博弈锁定于次优循环,有限记忆则可以使参与人很快忘记过去协调失败的行为,这两个条件在一起实际上就是保证系统不会被粘住在一个均衡,也就是说随机因素的影响使系统在不同吸引域之间不断跳跃。Young(1993)在其模型引入了适应性动态过程,在此基础上来引入随机因素,然后,通过Freidlin, M. I and Wentzell, A . D.提供的决策树法来计算系统的随机稳定状态。与KMR相比,两者尽管在形式上不同,但都没有超越“吸引域大的均衡就是长期随机稳定均衡”这一基本框架。另外,Young(1993)在文中给出了计算随机稳定状态的步骤: 第一步求出在无扰动适应性动态下的常返状态。对一般的n人协调博弈,常返状态的求法是非常复杂的,但如果协调博弈是弱非循环且样本是充分不完全,那么常返状态就是对应于博弈中的严格纳什均衡; 第二步计算从一个常返状态到另一个常返状态的最小阻抗。理论上说这就相当于解决一系列的最短路径问题,但实际上可以直接通过博弈的支付矩阵来计算9; 第三步依据以上的阻抗来构建“方向树”,并且寻找有最小阻抗的树,除完全相同阻抗的情形外,随机进化稳定状态一般都是唯一的。Young(1993)还是没有跳出不变突变率的框架,尽管在处理方法不同于KMR,但核心思想是一样的, 第一、文中的适应性动态依然是支付单调的; 第二、与KMR一样,文中假定突变率不变,因而突变率与吸引域的宽度无关,突变的作用与KMR完全一样,是为了使系统在不同状态之间跳跃,系统状态的吸引域半径完全是由博弈支付决定的; 第三、结论与KMR一样,只是说法不同,即吸引域宽者就是长期随机稳定状态。 从以上两文可以看出:引入动态过程是为了常返状态的存在性;引入突变是为了使系统在不同常返状态之间跳跃;引入不变突变率是为了简化计算。有了前述的保证就可以得到“随机稳定状态即是吸引域最宽的常返状态”这一结论。正是因为这样,Ellision(2000)直接假定以上三个条件直接从吸引域及其宽度出发来分析系统的随机稳定状态。 Ellision(2000)直接从转移矩阵出发来定义状态的吸引域11,抓住了求随机稳定状态方法的核心思想,绕过了求不变分布,直接利用吸引域半径来求解协调博弈中的均衡选择问题。其结论为:如果离开常返状态的阻抗大于进入常返状态的阻抗,也就是说,当离开吸引域的阻抗大于进入吸引域的阻抗时,也就是离开的难度大于进入的难度,因此,系统的进化稳定状态就一定在此吸引子之中。当然,如果是对称协调博弈,那么常返状态就是由纯策略严格纳什均衡组成,随机稳定状态就是最小随机潜力的状态。在Ellison模型中一步一步的演化比休克式演化的速度更快,为了在模型中体现这一点,他把系统向均衡状态演化过程的成本减掉而定义了修进的共轭半径,共轭半径的修进无形地增加了向均衡靠拢的可能性也就是增加了吸引域的宽度。事实上,从分析可以看出,Ellison的结论依赖于参与人在任何时候任何状态都有不变的突变率。因此,博弈的随机稳定状态完成由博弈的支付确定的,并且有最大离开阻抗或者最小随机潜力的就是随机稳定状态。 (2)不变突变率理论研究的评述 以上三篇研究对称协调博弈随机稳定性文章在学术界被多次引用,足以说明这些文章已经得到了学者们的重视,其共同的特点就是假定突变率不随时间与状态的变化而变化,因而,把求随机稳定状态直接转化为求吸引子或者严格纳什均衡的吸引域宽度,最宽吸引域所对应的吸引子就是随机稳定状态。另外,不变突变率带来的一个非常重要的结果就是吸引域完成是由博弈支付确定的,因而,只要确定了基础博弈,系统的随机稳定状态就已经确定了。文中引入随机动态的主要作用就是使系统在不同吸引子之间反复跳跃而不被粘住,从而达到求随机稳定状态之目的。尽管形式不同,他们的结论却是一样的,即“在有风险占优与帕累托占优的协调博弈中”系统的长期随机稳定状态是有较宽吸引域的风险占优状态,具体地说: a、动态过程与常返状态的存在性。KMR的达尔文动态是典型的支付单调动态,所谓支付单调动态就是指支付越多则选择人数就越多,即参与人的行动是基于博弈支付而作出的,支付单调动态确保对称协调博弈中常返状态就是严格纳什均衡集。 PY的适应性动态(实际上就是一种相对群体分布的最优反应动态),在满足弱非周期条件并且样本不完全及参与人永远不犯错误,那么适应性动态就以概率1收敛到严格纳什均衡;Ellison(2000)模型脱离了博弈的动态过程,他直接假定常返状态的存在性(默认动态过程是支付单调的或者博弈满足弱非周期性),并且认为在弱非周期条件下常返状态就是严格纳什均衡。 b、随机因素的引入与遍历性。KMR、PY与Ellison都是假定不变突变率,但他们没有说明突变率不变的原因。不变突变率的随机因素引入保证动态过程满足遍历性要求,从而系统不会被粘在某一处,即不会出现锁定(lock in)的情况,保证系统在不同均衡状态之间跳动。具体地说:为了保证不变分布的存在性,PY(1990)通过假定随机因素的累积作用而保证遍历性的存在;KMR则是假定状态转移矩阵各元素不为零而保证系统不会被粘住;PY(1993)与Ellison(2000)则是假定博弈满足非周期条件而使系统收敛到严格纳什均衡,同时假定样本不完全或者有限记忆(也就是参与人很快会忘记过去而不会被锁定)而保证系统不会被粘住。有了常返状态存在性与遍历性条件就可以保证系统存在一个平稳分布,于是求随机稳定状态问题就转化为求平稳分布。在此基础上直接应用Freidlin, M. I and Wentzell, A . D. (1984)的方法计算随机稳定状态。BL与JO两文没有直接求随机稳定状态,只是从数理逻辑上证明了随机因素可变时随机稳定状态也是可变的。 c、实验经济学、社会学及心理学的研究表明,参与人的突变率是随着随机动态系统状态与时间变化而变化的,也就是说随机动态系统的随机稳定状态不仅依赖于吸引域的宽度,而且也依赖于吸引域的深度,如何度量吸引域的深度是值得理论界探讨的。根据上面的模型,求解随机稳定状态实际就是解决两个问题:一是保证平稳分布的存在性;二是保证系统的常返状态的存在性。平稳分布可以通过背景突变率的存在性而假定满足遍历性。常返状态可假定基础博弈是对称协调博弈即得到满足。有了这两个假定,那么随机稳定状态就完全由常返状态的吸引域确定。因而,对吸引域的影响因素进行深入探讨是解决协调博弈的随机稳定性一条很好的途径。 基于可变突率的理论研究成果及评述1 (1)可变突变率的理论研究成果 首次对不变突变率假定提出挑战的是James Bergin and Lipman(BL 1996),他们认为系统在不同状态突变率应该是不同的。特别是:如果突变来自于试验,那么有理由认为在帕累托占优的博弈中,处于帕累托状态均衡会比其他均衡状态的突变率更少;如果突变来自于参与经验的不足,那么重复次数更多的参与人犯错误概率就应该少于一次性博弈;如果突变来自于环境的约束,那么随着博弈的进行,参与人对环境的熟悉程度会不断增加,因此,犯错误的概率也会应该越来越少。只有深入到突变产生的过程中去才能更好地研究协调博弈中的随机稳定性。通过研究他们得到:随机系统的稳定性不仅依赖于博弈的支付,而且依赖于突变产生的过程,不同的突变率决定了不同的随机稳定状态。因而,要准确地研究系统的稳定性就必须深入到系统突变产生的过程中去。 Jack Robles(JR 1998) 认为增加不变突变率使系统得到唯一的随机稳定均衡是前面三篇文章的共同点,他们并没有把突变产生的原因加入到模型中去,因而与现实是不相符合的。实验证据表明随着博弈重复次数的增加,策略选择中的随机因素的影响会不断地减少;随着博弈的重复,参与人更为熟悉他们所处的环境并能够更准备地预期对手未来的行为而减少试验与错误的次数。因此,只有把把突变产生的原因即突变过程引入到博弈模型中去才可以更为准确地描述参与人的行为,即假定突变率随时间而减少是合理的,突变率应该是内生性的。他们考察了突变率随系统演化时间变化而变化的情况,认为突变率趋于零的速度不同就会使动态系统不满足遍历性要求。因而,难以通过已知的方法来求系统的随机稳定状态。他得到如下结论:如果随机动态满足遍历性要求,那么突变率趋于零时系统就会达到长期均衡,其结果与小的常突变率的极限行为是一样。然而,突变率趋于零的速度不同而使得遍历性这一要求很难满足,因此考察突变率趋于零的不同的速度对协调博弈均衡选择问题的影响是非常重要。由突变率下降速度不同而导致遍历分布不存在时,他采用非平稳马尔可夫链来进行分析,并用了历史依赖的弱遍历性与强遍历性两个概念来描述其结论。他们并没有得出均衡与突变率收敛零的速度之间的具体关系,只证明了突变率并不能决定系统的最终状态,随机稳定状态是依赖于系统的初始条件的。 Sandholm, H.W. and Pauzner, A. (SP 1998)17研究了既有群体增长也有个体突变的情形。他认为KMR与PY等假定固定群体与现实是不相符的,现实中群体的规模随着时间的演化是不断增长的,要更现实地研究协调博弈中的均衡选择问题就必须把群体增长率纳入到模型中来。在演化过程中增加群体增长率会产生两种效应:第一个效应是直接的,群体增长使得在均衡之间跳跃随时间的变化而变得越来越少,因此,当群体增长足够快时,跳跃的可能性就会慢慢地消失;第二个效应是相对的,当群体的增长率足够大时,通过突变从风险占优均衡跳到支付占优均衡的困难就会越来越大,当群体为无穷大时,这种效应就会非常明显。群体的快速增长使得进化过程变得非平稳,因此,无法保证平稳分布的存在性。他们通过引入伯努利动态来描述参与人修进自己的策略过程,并且假定群体按照对数增长率来增长,在此条件下他们证明了系统的均衡选择是历史依赖的。 Bhaskar, V. and Vega-Redondo, F. (BV 2004)18考察了多个有局部互动的地点的情况下协调博弈中均衡选择问题。他们引入了两种动态:一是同一地点内个体之间按模仿者动态进行选择,二是地点之间个体按向高支付的地点迁移而引入迁移动态。并分别引入了突变率 与迁移率 ,最后他们证明了在这种情况下,动态系统长期均衡于效率均衡即支付占优均衡。其实他们结论的道理很简单,因为迁移的存在使得无效率均衡变得不稳定,这与博弈前交流的作用是一样的。 (2)可变突变率理论研究的评述 尽管可变突变率模型更现实地考察了参与人的行为,但也存在固有的缺陷:一是这些模型都没有区分突变率与错误率,把突变率与错误率混为一谈,突变是无目的性的,假定在任何状态下任何时间都不变有一定道理,但错误率就能这样假定;二是与可变突变率模型都没有结合到现实中参与人行为,没有结合社会学心理学等的研究成果,仅仅从数学理论上给予描述,难以应用于描述现实人的行为,难以很好地应用于研究协调博弈的随机稳定性。 进一步研究的方向评述1 实验研究表明,对称协调博弈不一定收敛到风险占优均衡,但可能收敛到其他的均衡。支付只是影响均衡选择的因素之一,不变突变率相关理论并不能很好地解释现实中参与人的行为,其合理性是令人署凝的, 第一,人们常说的“习惯成自然”,即当某种行为被多次选择时极可能内化为参与人的行为指南,这时参与进行试验或者发生错误的可能性就会大大减少,发生错误的可能性随着选择次数的增加而增加; 第二,消费理论中的“羊群行为”,即当某种行为被周围大多数人所选择时,在一定条件下参与人极可能陷入信息陷阱而忽视自己的信息,一旦达到这种状态参与人发生错误的困难就会很大; 第三,Myersion (1991)19基于“越昂贵的策略犯错误的可能就越少”这一现实而提出相对均衡策略的稳键策略概念,认为越昂贵的错误犯的可能性就会越少;宏观经济学中的“效率工资理论” 说明高于平均工资的工资增加工人被解雇的机会成本,从而刺激工人努力工作而减少犯错误,大大降低了参与人选择不可预见行为的可能性; 第四,在帕累托效率状态时,参与人出现错误的可能性会少于其他状态,当然还有许多其他因素影响系统的均衡选择。总之,为了更好地描述参与人的行为,就需要分清哪是突变率,哪是错误率,在此基础上再研究协调博弈的随机稳定性会更具现实意义。 参考文献 ↑ 1.0 1.1 1.2 1.3 1.4 张良桥.对称协调博弈随机稳定性研究文献综述 ↑ 2.0 2.1 罗素·W·库珀(著),张军,李池译(2001):《协调博弈----互补性与宏观经济学》M,第一版,中国人民大学出版社。 ↑ Maynard Smith, J. and G. R. Price.(1973): “The Logic of Animal Conflicts” J, Nature, , (246): 15-18. ↑ 4.0 4.1 Harsanyi, J. and Selten, R. (1988): A general theory of equilibrium selection in gamesM. The MIT Press, Cambridge, MA. ↑ Schelling, T. (1960): The strategy of conflictM, Harvard University. Press, Cambridge, MA. ↑ Mehta J., Starmer C., and Sugden R. (1994): The nature of salience: An experimental investigation of pure coordination gamesJ. American economic review. 84, 658-673. ↑ 7.0 7.1 Aumann, R. (1987): correlated equilibrium as an expression of Bayesian rationalityJ, Econometrica, 55, 667-677 ↑ 8.0 8.1 Van Huyck, J. b. Battalio, R. c.,Beil, R. O. (1990): Tacit coordination games, strategic uncertaintyJ. American economic review. 80, 234-248. ↑ 9.0 9.1 Cooper, R. D. V. Dejong, R. Forsythe and J. W. Ross(1992): Communication in coordination gamesJ, American economic review, 107, 739-771 ↑ Crawford, P. V. and Haller, H. (1990): Learning how to cooperate: Optimal play in repeated coordination gamesJ, Econometrica, 58, 571-595. ↑ 11.0 11.1 Van Huyck, J. b. Battalio, R. c. Beil, R. O. (1991): Strategic uncertainty, equilibrium selection, and coordination failure. Average opinion games. Quarterly journal of economics. 106, 885-910. ↑ Myerson, R. (1978): Refinements of the Nash equilibrium conceptJ, International journal game theory. 7, 73-80 ↑ Keser C., and Ehrhart K., and Berninghaus K. (1998): Coordination and local interaction: experimental evidenceJ. Economics Letters. 58, 269-275. ↑ Van Huyck, J. Raymond, C. and Frederick W. (1997): On the origin of convention: evidence from coordination games, American economic review. 107, 576-596. ↑ Cooper, R. D. V. Dejong, R. Forsythe and J. W. Ross(1992): Forward induction in coordination gamesJ, Economics Letters, 40, 167-172 ↑ Freidlin, M. I and Wentzell, A . D. (1984): Random perturbations of dynamical systemsM, Springer-verlag, Berlin/New York. ↑ Sandholm, H.W. and Pauzner, A. (1998): Evolution, population growth, and history dependenceJ. Games and economic behavior. 22, 84-120. ↑ Bhaskar, V. and Vega-Redondo, F. (2004): Migration and the evolution of conventionsJ, Journal of economic behavior &organization. ↑ Myerson, R. (1991): Game theory: Analysis of ConflictM. Cambridge University Press.
概述 赌徒谬误(Gambler's Fallacy)亦称为蒙地卡罗谬误,是一种错误的信念,以为随机序列中一个事件发生的机会率与之前发生的事件有关,即其发生的机会率会随着之前没有发生该事件的次数而上升。如重复抛一个公平硬币,而连续多次抛出反面朝上,赌徒可能错误地认为,下一次抛出正面的机会会较大1。 赌徒谬误是生活中常见的一种不合逻辑的推理方式,认为一系列事件的结果都在某种程度上隐含了自相关的关系,即如果事件A的结果影响到事件B,那么就说B是“依赖”于A的。例如,一晚上手气不好的赌徒总认为再过几把之后就会风水轮流转,幸运降临。相反的例子,连续的好天气让人担心周末会下起大雨。 赌徒谬误亦指相信某一个特定的结果由于最近已发生了(“运气用尽了”)或最近没有发生(“交霉运”),再发生的机会会较低。 产生原因 赌徒谬误的产生是因为人们错误的诠释了“大数法则”的平均律。投资者倾向于认为大数法则适用于大样本的同时,也适用于小样本。Tversky and Kahneman把赌徒谬误戏称为“小数法则”(law of small numbers)。在统计学和经济学中,最重要的一条规律是“大数定律”,即随机变量在大量重复实验中呈现出几乎必然的规律,样本越大、则对样本期望值的偏离就越小。例如,抛掷硬币出现正面的概率或期望值是0.5,但如果仅抛掷一次,则出现正面的概率是0或1(远远偏离0.5)。随着抛掷次数的增加(即样本的增大),那么硬币出现正面的概率就逐渐接近0.5。但根据认知心理学的“小数定律”,人们通常会忽视样本大小的影响,认为小样本和大样本具有同样的期望值。 所有轮盘赌中最受欢迎的系统是戴伦伯特系统,它正是以赌徒未能认识到独立事件的独立性这一“赌徒谬误”为基础的。参与者赌红色或黑色(或其他任何一个对等赌金的赌),每赌失败一次就加大赌数,每赌赢一次就减少赌数。 Tversky and Kahneman(1982) and Terrell(1994)讨论了这种称为“赌徒谬误”的认知偏差。而Shefrin(1999)表明,在掷硬币的实验中,连续出现正面或反面时,人们基本上会预测下次结果是相反的。如果是在股票市场中,投资者就会在股价连续上涨或下跌一段时间后预期它会反转。这表明,当股价连续上涨或下跌的序列超过某一点时,投资者就会出现反转的预期。因而投资者倾向于在股价连续上涨超过某一临界点时卖出。Shefrin(1999)探讨了在整个市场的行情向好时,人气上升,而市场行情不好时,人气下降的情况,2000年前后网络股及科技股的忽剧涨跌就是这样一个例子。 在《超越恐惧和贪婪》一书中,Shefrin认为策略分析师倾向于赌徒谬误,这是一种人们不恰当地预测逆转时发生的现象。在高于平均值的市场表现之后,向均值回归的预测意味着什么?De Bondt(1991)研究发现,预测在三年牛市之后过于悲观,而在三年熊市之后会过度乐观。 [2] 实例 赌徒谬误: 抛硬币 赌徒谬误可由重复抛硬币的例子展示。抛一个公平硬币,正面朝上的机会是0.5(二分之一),连续两次抛出正面的机会是0.5×0.5=0.25(四分之一)。连续三次抛出正面的机会率等于.5×0.5×0.5= 0.125(八分之一),如此类推。 现在假设,我们已经连续四次抛出正面。犯赌徒谬误的人说:“如果下一次再抛出正面,就是连续五次。连抛五次正面的机会率是(1 / 2)5 = 1 / 32。所以,下一次抛出正面的机会只有1/32。” 以上论证步骤犯了谬误。假如硬币公平,定义上抛出反面的机会率永远等于0.5,不会增加或减少,抛出正面的机会率同样永远等于0.5。连续抛出五次正面的机会率等于1/32(0.03125),但这是指未抛出第一次之前。抛出四次正面之后,由于结果已知,不在计算之内。无论硬弊抛出过多次和结果如何,下一次抛出正面和反面的机会率仍然相等。实际上,计算出1/32机会率是基于第一次抛出正反面机会均等的假设。因为之前抛出了多次正面,而论证今次抛出反面机会较大,属于谬误。这种逻辑只在硬币第一次抛出之前有效。 著名的正缆(Martinagle)输后加倍下注系统是赌徒谬误的其中一例。运作方法是赌徒第一次下注1元,如输了则下注2元,再输则入4元,如此类推,直到赢出为止。这种情况可用随机游走数学定理解释。这个系统或类似的系统冒很大的风险来争取小额的回报。除非有无限的资本,这类策略才可成功。因此,较佳的方法是每次下注固定数额,因为可以较易估计每小时的平均赢输数额。 [1]
简介 独裁者博弈(DictatorGames,简记为DG) 对最后通牒博弈进行修改,取消响应者对提议者(分配者)所提要求的否决权,那么,这个分配者就可以被叫作“独裁者”。这种严格不平等条件下的谈判博弈被称为“独裁者博弈”。在这里,响应者没有拒绝的选择,主要是考察提议者(独裁者)如何分配。 通常的做法是将独裁者博弈与最后通牒博弈实验结果进行对比。Forsytheetal.(1994)首次对两个实验进行了对比,他们的结果表明在最后通牒博弈实验中给响应者的钱数要比独裁者的实验大许多,说明许多人在运用后向归纳法,但是独裁者并不是完全每个人都给响应者最小单位的钱数。 剖析 设想,一个独裁者与一个无权者之间分配一笔固定资产。讨价还价只能进行有限次,最后一次博弈的决定者理所当然是独裁者。按照理性人假设,自私自利的独裁者一定是独吞这笔财富。 然而,从历史上来看,大部分的当政者并不会这么做。实际上,这个博弈的独裁者并不仅仅只是考虑资产多少,他还要考虑名誉、地位与统治的稳固与否。如果将这些因素都考虑成收益,从广义上来说,这样的独裁者仍然是理性的。可见,对于平民来说,收益可能仅是资产分得多少,而对于当政者来说,资产并不是其全部的收益。反过来说,仅仅考虑自身经济收益的当政者反而是非理性的人。[1]
目录 1 非零和博弈简介 2 非零和博弈例子 非零和博弈简介 非零和博弈是一种非合作下的博弈,博弈中各方的收益或损失的总和不是零值,它区别于零和博弈。在经济学研究中很有用。 非零和博弈例子 譬如,在恋爱中一方受伤的时候,对方并不是一定得到满足。也有可能双方一起能得精神的满足。也有可能双方一起受伤。通常,彼此精神的损益不是零和的。 非零和博弈是一个小作品。你可以通过或修订扩充其内容。
概述 是指人们的行为在相互作用时,当事人不能达成一个具有约束力的协议。非合作博弈强调的是个人理性、个人最优决策,其结果可能是有效率的,也可能是没效率的。 分类负和博弈和零和博弈统称为非合作博弈,正和博弈亦称为合作博弈。 纳什均衡,Nashequilibrium,又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。约翰·纳什1948年作为年轻数学博士生进入普林斯顿大学。其研究成果见于题为《非合作博弈》(1950)的博士论文。该博士论文导致了《n人博弈中的均衡点》(1950)和题为《非合作博弈》(1951)两篇论文的发表。纳什在上述论文中,介绍了合作博弈与非合作博弈的区别。他对非合作博弈的最重要贡献是阐明了包含任意人数局中人和任意偏好的一种通用解概念,也就是不限于两人零和博弈。该解概念后来被称为纳什均衡。[1]
概述所谓负和博弈,是指双方冲突和斗争的结果,是所得小于所失,就是我们通常所说的其结果的总和为负数,也是一种两败俱伤的博弈,结果双方都有不同程度的损失。 例子比如在生活,兄弟姐妹之间相互间的争东西,其结果就很容易形成这种两败俱伤的负和博弈。一对双胞胎姐妹,妈妈给她们俩人卖了两个玩具,一个是金发碧眼、穿着民族服装的捷克娃娃,一个是会自动跑的玩具越野车,看到那个捷克娃娃,姐妹俩人同时都喜欢上了,而都讨厌那个越野车玩具,她们一致认为,越野车这类玩具是男孩子玩的,所以,她们两个人都想独自占有那个可爱的娃娃,于是矛盾便出现了,姐姐想要这个娃娃,妹妹偏不让,妹妹也想独占,姐姐偏不同意,于是,干脆把玩具扔掉,谁都别想要。可以说像这种情况,在我们的生活中是经常出现的,在相处过程中,由于交往双方为了各自的利益或占有欲,而不能达成相互间的统一,使交际产生冲突和矛盾,结果是交际的双方都从中受到损失,“博弈论”把这种情况叫“负和博弈”如上面所举的例子,姐妹俩互不让步,最后,干脆仍掉,谁都别想得到,这样造成的后果是:其中一方的心理不能得到满足,另一方的感情也有疙瘩,可以说,对双方而言都受到损失;双方的愿望都没有实现,剩下的也只能是姐妹关系的不和或冷战,从而对姐妹间的感情造成不良的影响。 [1] 负和博弈是一个小作品。你可以通过或修订扩充其内容。