纳什均衡点(Nash Equilibrium Point) 目录 1 纳什均衡点概述 2 经典的例子 3 学术争议和批评 纳什均衡点概述 纳什均衡点(港译:纳殊均衡点),又称为非合作博弈均衡点,是博弈论的一个重要概念,以约翰·纳什命名。 如果某情况下无一参与者可以独自行动而增加收益,则此策略组合被称为纳什均衡点。 纳什均衡点概念提供了一种非常重要的分析手段,使博弈论研究可以在一个博弈结构里寻找比较有意义的结果。 但纳什均衡点定义只局限于任何局中人不想单方面变换策略,而忽视了其他局中人改变策略的可能性,因此,在很多情况下,纳什均衡点的结论缺乏说服力,研究者们形象地称之为“天真可爱的纳什均衡点”。 经典的例子 经典的例子就是囚徒困境,囚徒困境是一个非零和博弈。大意是:一个案子的两个嫌疑犯被分开审讯,警官分别告诉两个囚犯,如果你招供,而对方不招供,则你将被判刑一年,而对方将被判刑十年;如果两人均招供,将均被判刑五年。 于是,两人同时陷入招供还是不招供的两难处境。如果两人均不招供,将最有利,只被判刑三年。但两人无法沟通,于是从各自的利益角度出发,都依据各自的理性而选择了招供, 这种情况就称为纳氏均衡点。这时,个体的理性利益选择是与整体的理性利益 Image:博弈论-囚徒困境.jpg 基于经济学中Rational agent的前提假设,两个囚犯符合自己利益的选择是坦白招供,原本对双方都有利的策略不招供从而均被判刑三年就不会出现。事实上,这样两人都选择坦白的策略以及因此被判五年的结局被是“纳什均衡”(也叫非合作均衡),换言之,在此情况下,无一参与者可以“独自行动”(即单方面改变决定)而增加收获。 学术争议和批评 (供参考) 第一,纳什(Nash)的关于非合作(non-cooperative)博弈论的平衡不动点解(equilibrium/fixpoint)学术证明是非构造性的(non-constructive),就是说纳什用角谷静夫不动点定理(Kakutani fixed point theorem)证明了平衡不动点解是存在的,但却不能指出以什么构造算法如何去达到这个平衡不动点解。这种非构造性的发现对现实生活里的博弈的作用是有限的,即使知道平衡不动点解存在,在很多情况下达不到并不能解决问题。来源请求在数学意义上,纳什并没有超越角谷静夫不动点定理。 经过《美丽心灵》的Sylvia Nasar(书作者)和Ron Howard(电影作者)这样的主流媒体的介入,角谷静夫(Kakutani)在这些人的作品里被完全忽略。有人认为,“纳什平衡”(Nash equilibrium)的更合适的名字应该叫作“角谷静夫—纳什博弈论不动点”(Kakutani-Nash game-theoretic fixed point)或“角谷静夫—纳什平衡”(Kakutani-Nash equilibrium),没有角谷静夫不动点定理,纳什的证明没有多大学术意义。《美丽心灵》完全忽视角谷静夫之关键贡献的作法有待商榷。 第二,纳什的非合作(non-cooperative)博弈论模型仅仅是突破了博弈论中的一个局限。一个更大的局限是,博弈论面对的往往是由几十亿节点的庞大对象构成的社会、经济等复杂行为,但冯·诺伊曼(Von Neumann)和纳什的研究是针对两三个节点的小规模博弈论(有人称之为tiny-scale toy case)。 这个假设的不完善处,可能比假设大家都是合作的(cooperative)更严重。因为在经济学里,一个庞大社会里的人极不可能全部都是合作的,非合作的情况通常在庞大对象的情形中更普遍,而在两三个节点的小规模经济中倒反而影响较小。既然改了合作前提为非合作前提,却仍然停留在两三个节点的小规模博弈论中,这是一个不可忽视的缺陷。最近香港城市大学和北京清华大学的学者群邓小铁、姚期智在基于复杂度理论的大规模博弈论上有所进展,这和纳什小规模博弈论的本质以及《美丽心灵》的广告效果是不可同日而语的。
目录 1 什么是尼姆数 2尼姆数的特点 3加法和乘法表 什么是尼姆数 组合博弈论引入了一类数学对象,称为尼姆数,它们被定义为尼姆游戏尼姆堆的值。但是由于斯普莱格–格隆第定理,它们可以用于一大类游戏的研究。事实上,尼姆数是在序数的真类上赋予尼姆加法和尼姆乘法的运算之后形成的概念。这些运算和通常施行于序数类上的加法和乘法并不相同。 尼姆数的特点 斯普莱格–格隆第定理指出:每个无偏博弈等价于一个特定大小的尼姆堆。尼姆数的加法运算(叫做尼姆加法)可以用于计算等价于多个堆的单一尼姆堆大小。这被定义为 对于序数的集合S,mex(S)定义为“局外最小序数”,也就是说序数中不是S的元素的最小一个。对于有限序数,尼姆和可以简单地通过将相加的各个数字的二进制表示逐位进行不进位的加法而得到(例如,100010+110010=10000)。 尼姆数的乘法运算(尼姆乘法)可以递归地定义如下: αβ=mex{α′β+αβ′−α′β′:α′<α,β′<β}=mex{α′β+αβ′+α′β′:α′<α,β′<β}. 全体尼姆数不能组成普通集合而只是真类。要是把它当作普通集合,或者考虑其任意的一个对尼姆加法和乘法封闭的子集,那么尼姆数的类可以构成一个特征为2的代数封闭域。尼姆加法的单位元是序数0,而尼姆乘法的单位元则是序数1。由于特征为2,α的尼姆加法逆元是α自身。非零序数α的尼姆乘法逆元是mex(S),这里S是满足以下条件的序数集合: 0是S的元素; 如果0<α ′<α且β ′是S的元素,那么1+(α′−α)β′/α ′也是S的元素。 若n是自然数,小于的尼姆数组成一个阶的有限域。 正如尼姆加法,有限序数的尼姆积也有一些有意思的结果: 2的不同费马幂(形如)的尼姆积等于其序数积; 2的某个费马幂x的平方根等于3x/2在通常的序数乘法下的结果。 尼姆数组成的最小代数封闭域是由小于的序数构成的,这里ω是最小的无限序数。因此,作为尼姆数的是尼姆数“域”上最小的超越数。 加法和乘法表 以下表格列出了最小16个尼姆数的加法和乘法表。因为16是一个费马幂(形如),因此这个子集是封闭的。 尼姆加法 + 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 1 0 3 2 5 4 7 6 9 8 11 10 13 12 15 14 2 2 3 0 1 6 7 4 5 10 11 8 9 14 15 12 13 3 3 2 1 0 7 6 5 4 11 10 9 8 15 14 13 12 4 4 5 6 7 0 1 2 3 12 13 14 15 8 9 10 11 5 5 4 7 6 1 0 3 2 13 12 15 14 9 8 11 10 6 6 7 4 5 2 3 0 1 14 15 12 13 10 11 8 9 7 7 6 5 4 3 2 1 0 15 14 13 12 11 10 9 8 8 8 9 10 11 12 13 14 15 0 1 2 3 4 5 6 7 9 9 8 11 10 13 12 15 14 1 0 3 2 5 4 7 6 10 10 11 8 9 14 15 12 13 2 3 0 1 6 7 4 5 11 11 10 9 8 15 14 13 12 3 2 1 0 7 6 5 4 12 12 13 14 15 8 9 10 11 4 5 6 7 0 1 2 3 13 13 12 15 14 9 8 11 10 5 4 7 6 1 0 3 2 14 14 15 12 13 10 11 8 9 6 7 4 5 2 3 0 1 15 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 尼姆乘法 × 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 2 0 2 3 1 8 10 11 9 12 14 15 13 4 6 7 5 3 0 3 1 2 12 15 13 14 4 7 5 6 8 11 9 10 4 0 4 8 12 6 2 14 10 11 15 3 7 13 9 5 1 5 0 5 10 15 2 7 8 13 3 6 9 12 1 4 11 14 6 0 6 11 13 14 8 5 3 7 1 12 10 9 15 2 4 7 0 7 9 14 10 13 3 4 15 8 6 1 5 2 12 11 8 0 8 12 4 11 3 7 15 13 5 1 9 6 14 10 2 9 0 9 14 7 15 6 1 8 5 12 11 2 10 3 4 13 10 0 10 15 5 3 9 12 6 1 11 14 4 2 8 13 7 11 0 11 13 6 7 12 10 1 9 2 4 15 14 5 3 8 12 0 12 4 8 13 1 9 5 6 10 2 14 11 7 15 3 13 0 13 6 11 9 4 15 2 14 3 8 5 7 10 1 12 14 0 14 7 9 5 11 2 12 10 4 13 3 15 1 8 6 15 0 15 5 10 1 14 4 11 2 13 7 8 3 12 6 9
目录 1什么是纽卡悖论 2纽卡悖论实例 什么是纽卡悖论 纽卡悖论是决策理论中的一个。 假设:有两个盒子A和B放在桌子上: A是透明的,可以看见里面有$1,000, B是不透明的,上面写着或者是$1,000,000,或者是0。 你可以在下面的两种选择中,只能取一个(1)或(2): (1)只选择B (2)A和B两个都选 你会作出什么选择? 纽卡悖论实例 有一个教授曾经作过一个实验:他让1000个学生选,其中999个学生选择了(1),只有1个学生选择了(2)。而这999个学生一人只获得$1,000,而那1个学生却获得了$1,000,000。为什么呢? 因为这个教授事先已经作了预测,并作出这样的安排: 如果选(2)B盒子里就不放任何一分钱, 如果选择(1)B盒子里就放$1,000,000。 而这个教授的预测只有千分之一的失误。
目录 1培里悖论概述 培里悖论概述 培里(G. G. Berry)是英国的图书馆管理员。有一天他告诉罗素下面的悖论:英语中只有有限多个音节,只有有限多英语表达式包含少于40个音节,所以,用少于40个音节的表达式表示的正数数目只有有限多个。假设R为不能由少于40个普的英语表达式来表示的最小正整数(The least positive integer which is not denotedby an expression in the English language containing fewer than forty syllables)。但是,这段英语只包含三十几个音节,肯定比40个少,而且表示R,这自然产生了矛盾。 培里悖论是一个小作品。你可以通过或修订扩充其内容。
囚徒困境 囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。 简介 全员营销与囚徒困境 单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。 囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。 经典 囚徒困境 1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。 若二人都互相检举(互相“背叛”),则二人同样判监2年。 用表格概述如下: 甲沉默(合作) 甲认罪(背叛) 乙沉默(合作) 二人同服刑半年 甲即时获释;乙服刑10年 乙认罪(背叛) 甲服刑10年;乙即时获释 二人同服刑2年 解说 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:若对方沉默、背叛会让我获释,所以会选择背叛。若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。 一般形式 囚徒困境 整理囚徒困境的基本博弈结构,可更清楚地分析囚徒困境。实验经济学常用这种博弈的一般形式分析各种论题。以下是实现一般形式的其中一例:有两个参与者和一个庄家。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性1。然后,庄家翻开两个参与者卡片,根据以下规则支付利益: 一人背叛、一人合作:背叛者得5分(背叛诱惑),合作者0分(受骗支付)。 二人都合作:各得3分(合作报酬)。 二人都背叛:各得1分(背叛惩罚)。 用支付矩阵表格展示支付如下(以红和蓝分别表示二参与者) 一般形式囚徒困境的支付矩阵 合作 背叛 合作 3, 3 0, 5 背叛 5, 0 1, 1 以“T、R、P、S”符号表示 合作 背叛 合作 R, R S, T 背叛 T, S P, P 以“胜-负”术语表示 合作 背叛 合作 胜-胜 大负-大胜 背叛 大胜-大负 负-负 简单博弈获得的点数可以得出一些一般化的结论。 T、R、P、S符号表 符号 分数 英文 中文 解释 T 5 Temptation 背叛诱惑 单独背叛成功所得 R 3 Reward 合作报酬 共同合作所得 P 1 Punishment 背叛惩罚 共同背叛所得 S 0 Suckers 受骗支付 被单独背叛所获 若以T(Temptation)=背叛诱惑,R(Reward)=合作报酬,P(Punishment)=背叛惩罚,S(Suckers)=受骗支付,以个人选择得分而言,可得出以下不等式。 T>R>P>S (解:从5>3>1>0获得以上不等式) 若以整体获分而言,将得出以下不等式。 2R>T+S或2R>2P (解:2×3>5+0或2×3>2x1;合作2人共得6分,比起互相背叛的共得2分及单独背叛的共得5分,显然合作获分比背叛高。合作在团体而言是支配性策略。) 而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。 以上理论是道格拉斯·霍夫施塔特创建的。 现实的例子 囚徒困境 现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子,将结果划成同样的支付矩阵。社会科学中的经济学、政治学和社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒困境分析,模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用,说明这种博弈的重要性。以下为各界例子: 政治学例子:军备竞赛 在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成都有损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。 经济学例子:关税战 两个国家,在关税上可以有以两个选择: 提高关税,以保护自己的商品。(背叛) 与对方达成关税协定,降低关税以利各自商品流通。(合作) 当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。) 商业例子:广告战 商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。 两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告,收入增加很少但成本增加。但若不提高广告质量,生意又会被对方夺走。 此二公司可以有二选择: 互相达成协议,减少广告的开支。(合作) 增加广告开支,设法提升广告的质量,压倒对方。(背叛) 若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。 自行车赛例子 自行车赛事的比赛策略也是一种博弈,而其结果可用囚徒困境的研究成果解释。例如每年都举办的环法自由车赛中有以下情况:选手们在到终点前的路程常以大队伍(英文:Peloton)方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中。而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略。通常会发生这样的情况,大家起先都不愿意向前(共同背叛),这使得全体速度很慢,而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置,以分担风的阻力(共同合作),使得全体的速度有所提升,而这时如果前方的其中一人试图一直保持前方位置(背叛),其他选手以及大队伍就会赶上(共同背叛)。而通常的情况是,在最前面次数最多的选手(合作)通常会到最后被落后的选手赶上(背叛),因为后面的选手骑在前面选手的冲流之中,比较不费力。 相关事件 囚徒困境 异想 威廉·庞德斯通(William Poundstone)在他的著作中,以一新西兰的例子来说明囚徒困境。在新西兰,报亭即无管理员也不上锁,买报纸的人自行放下钱后拿走报纸。当然某些人可能取走报纸却不付钱(背叛),但由于大家认识到如果每个人都偷窃报纸(共同背叛)会造成以后不方便的有害结果,这种情形很少发生。这例子特别之处是新西兰人并没有被任何其他因素影响而能脱离囚徒困境。并没有任何人特别去注意报亭,人们守规则是为了避免共同背叛带来的恶果。这种避免囚徒困境的大家共同的推理或想法被称为“异想(magical thinking)”。 “认罪减刑”不可行 囚徒困境的结论是许多国家中认罪减刑(英文:plea bargain)被禁止的原因之一。囚徒困境带来的结论是:如果有二个罪犯,其中一人犯罪而另外一人是无辜的,犯罪者会为了减刑坦白一切甚至冤枉清白者(单独背叛)。最糟糕的情况是,如果他们二人都被判入狱,坦白的犯罪者刑期少,坚持无罪的冤枉者刑期反而更多。 公用品悲剧 现实的博弈参与者不只一方,会有多方参与的囚徒困境。加勒特·詹姆斯·哈丁(Garrett James Hardin)的公用品悲剧就是一例:“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物”,例如渔业,公海中的鱼是属于公共的,而在本身不滥捕其他人也滥捕的思想下,渔民会没有节制的大捞特捞,结果海洋生态破坏,渔民的生计也受影响(共同背叛的结果)。但是,多方囚徒困境的提法有待商榷,因为其总是可以被分解为一组组经典的二方囚徒困境。就是说只有二方的囚徒困境,没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。 重复的囚徒困境 囚徒困境 罗伯特·阿克塞尔罗德在其著作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。 阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。 最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特(Anatol Rapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%~5%)时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件。 友善 最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。 报复 但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。 宽恕 成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。 不嫉妒最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(对于“友善”的策略来说这也是不可能的,也就是说“友善”的策略永远无法得到高于对手的分数)。 因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易。 重新考虑经典的囚徒困境一节中给定的军备竞赛模型:结论是,只是理性策略增进了军事力量,似乎两个国家都宁可花费其GDP在枪炮而不是黄油上。有趣的是,企图说明对抗国家实际上以这种方式(在“重复囚徒困境假定”下的不同时期,军费支出在“高”和“低”之间反复)竞赛的尝试,却经常表明假定的军备竞赛并没有如预想的那样出现。(例如希腊人和土耳其人的军费支出,看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛,却更可能是被其国内的政策所驱使。)这可能是一次性博弈和重复性博弈中的理性行为不同的例子。 对一次性囚徒困境博弈来说,最佳(点数最大化的)策略是简单地背叛;正如前面解释的,无论对手的行动可能是什么,这都是真实的。但是,在重复的囚徒困境博弈中,最佳策略依赖于可能的对手的策略,和他们怎样对背叛和合作作出反应。例如,考虑这样一个人群,那里每个人每次都背叛,除了一个人是遵循以牙还牙策略。这个人处于一种轻微的不利地位,因为第一回合的损失。在这样的人群中,对这个人来说最佳策略就是每次都背叛。在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中,对个人来说的最佳策略依赖于这个百分比和博弈的长度。 一般有两种方法得到最佳策略: 贝叶斯纳什均衡:如果对抗策略的统计分布能被确定(例如,50%以牙还牙,50%一直合作),就能从数学上获得最佳的相对策略。已经有了人群的蒙特卡罗模拟,在这里低分个人消失了,高分个人一再被生产出来(一种获得最佳策略的天才算法)。决赛人群中的算法合成通常依赖于初赛人群中的算法合成。 尽管以牙还牙始终被认为是最可靠的基本策略,但是在重复囚徒困境的20周年纪念赛中,来英国南安普敦大学的一个小组(由尼古拉斯·詹宁斯(Nicholas Jennings)领导,包括了拉蒂普·达什(Rajdeep Dash)、萨瓦帕里·拉姆琼(Sarvapali Ramchurn)、亚历克斯·罗杰斯(Alex Rogers)斯和皮鲁克里士南·维特林根(Perukrishnen Vytelingum))介绍了一个新的策略,这个策略证明了它比以牙还牙更成功。这个策略依赖于程序之间的合作,为单一程序中获得了最高的点数。南安普敦大学提交了60个程序参与竞赛,这些程序的开头被设计成通过一组5到10个的动作去彼此识别。一旦这些识别被作出,一个程序将总是合作,其他程序则总是背叛,保证背叛者得到最大的点数。如果程序识别出它在操作一个非南安普敦参与者,这程序将持续地背叛,企图去最小化竞争程序的得分。结果,这个策略以获得前3位结束了竞赛,也得到了大量接近底部的位置。虽然这个策略显著地证明了比以牙还牙有效,但是这是因为利用了下述事实:在这个特殊的竞赛中,多重通道是被允许的。在一方只能控制单一参与者的竞赛中,以牙还牙确实是更好的策略。 如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你。因此,你们都将在最后的回合背叛。这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,你的对手都将背叛。依此类推。为了合作以保持请求,这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是无法确定的长度。 另一个单独的案例是“永不停止”的囚徒困境。这个博弈被重复很多次,而且你的分数是一个平均数(当然是用计算机计算的)。 囚徒困境博弈是某些人类合作和信任理论的基础。假定囚徒困境能够模拟需要信任的两人之间的交流,群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟。这从而引起了许许多多学者经久不衰的兴趣。1975年,格罗夫曼(Grofman)和普尔(Pool)估计,致力于这方面研究的学术文章,数量超过2000篇。 学习心理学和博弈论 当博弈参与者能学会估计其他参与者背叛的可能性,他们自身的行为就为他们关于其他人的经验所影响。简单的统计显示,总体上,缺乏经验的参与者与其他参与者的互动,或者是典型的好,或者是典型的坏。如果他们在这些经验的基础上行动,(通过更多的背叛或合作,否则)他们可能在未来的交易中受损。随着经验逐渐丰富,他们获得了对背叛可能性的更真实的印象,变得更成功地参与博弈。不成熟的参与者经历的早期交易对他们未来参与的影响,可能比这些交易对成熟的参与者的影响要大得多。这个原理部分地解释了,为什么年轻人的成长经验这么具有影响力,以及为什么他们特别容易被欺负,有时他们本身最后也成为欺凌弱小者。 群体中背叛的可能性,可以被合作的经验所削弱,因为先前的博弈建立了信任。因此自我牺牲行为可以,例如,加强团体的道德品质。如果团体很小,积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈。这与相似的困境有关:鼓励那些你将援助的人,从可能使他们处于危险的境地的行为中得到满足。这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。 相关的博弈 中国外汇盈余陷入"囚徒困境" 封闭袋子交易 霍夫施塔特曾提出,像囚徒困境一类的问题,若以简单博弈的形式来说明,人们会较容易理解。例如他以“封闭袋子交易”的简单博弈来说明此论题 两人面对面互相交换封闭的袋子,共同了解其中一方放钱,另一方放商品。双方可以诚实的依照承诺,把东西放到袋子里交换;又或者交空袋子给对方,选择背叛。 在这场博弈中,由于背叛可获得巨大利益,必然有多人选择背叛。这意味着理性的商人不会进行这种交易,因而“封闭袋子交易”将由于逆向选择而失去市场。 是敌是友? “是敌是友?”是一个竞赛表演节目,从2002年到2005年在美国竞赛表演广播网(Game Show Network)放映。这是一个用真人进行的囚徒困境博弈例子,不过情景是人造的。这个竞赛表演有三对人参与竞争。当每对人被淘汰时,他们做一个囚徒困境博弈,决定如何分他们的奖品。如果他们都合作(“朋友”),他们的奖品就被平分。如果一个合作而另一个背叛(“敌人”),背叛者得到所有的奖品,合作者什么都得不到。如果都背叛,那么两人都一无所获。注意,这个支付矩阵与前述标准的支付矩阵不同,因为发生“都背叛”的情形和“我合作而对手背叛”的情形,其损失是一样的。和标准囚徒困境的稳定均衡相比,“都背叛”是不稳固的均衡(weak equilibrium)。如果你知道你的对手将成为“敌人”,这时你的选择无法影响你的奖品。在某种意义上,“是敌是友”拥有一个介于“囚徒困境”和“小鸡”之间的支付模型。 这个支付矩阵是: 如果参与者都合作,每人得到 +1。 如果都背叛,每人得到 0。 如果甲合作而乙背叛,甲得到0而乙得到 +2。 是敌是友对于想对囚徒困境作现实分析的人将是有用的。注意到,参与者只能进行一次,所以所有涉及重复进行博弈的观点都不适用,“以牙还牙”策略也无法发展出来。 在是敌是友中,每个参赛者被允许做一个声明,使另一半友在双方秘密决定合作或背叛之前,确信他的友善。可能“打破制度”的方法将是一个参与者告诉他的对手:“我会选择做敌人。如果你相信我后来会和你分奖品的话,就选择做朋友。否则,如果你选择做敌人,我们都回空手而回。”一个更贪婪的版本将是:“我将选择做敌人。我会给你百分之X,剩下的百分之(100-X)归我。所以,要或不要,要么我们都得到一些,要么我们都一无所获。”(在最后通牒博弈中时。)现在,奸计就是去尽量减少那个百分之X,并保持另一个竞争者仍然选择做朋友。基本上,这个参与者必须知道这个界限,在这里他的对手从看到他一无所获中得到的效用,要超过他从肯定能赢得的金钱中得到的效用,如果他顺利的话。 在竞赛中这个方法从未被试验过;可能是因为裁判们不会允许,而且即使允许,不平等厌恶也会由于这个规则的使用而导致较低的期望收益。(最后通牒博弈中尝试了这个方法,结果导致对高而不平等的出价的拒绝——在一些案例中,相当于两周的工资优先于两个参与者一无所获被决绝。) 参考资料 [1] 博客网 http://smile99.bokee.com/5079410.html [2] 百度空间 http://hi.baidu.com/dvchen/blog/item/0e1ea13fb394fdca7d1e71fb.html [3] 博客网 http://plg9256.bokee.com/viewdiary.13903449.html [4] 西祠胡同 http://www.xici.net/b166018/d7791984.htm [5] 中国经济网 http://www.ce.cn/books/jhsz/szlz/lxzdl/lxzdl/200502/22/t20050222_3134711.btk
群体稳定策略(Socially Stable Strategy; SSS) 目录 1 什么是群体稳定策略 2 相关条目 什么是群体稳定策略 斯温克斯(1992)在马特休的循环稳定集的基础上提出了“群体稳定策略”。相对于均衡的进入者而言,所谓“群体稳定策略”是指如果存在一个突变群体(或者进入者群体,譬如说群体A),其支付高于原群体的支付,那么必定存在另外一个群体(如群体B),在这个包含大部分原群体个体而有一少部分群体A的个体的群体中,群体B将获得高于群体A的支付。这个概念也称为“稳健策略组合”。 当然在某些情况下,“群体稳定策略”可能并不存在,但不是这个概念本身的缺点,出现这种情况与我们所研究的动态过程本身是分不开的。然而,我们可能会问,实际的行为模式又是怎么样呢?如果这个过程并不是稳定状态,那么稳定状态又是什么呢?在对这个问题作出回答时,马特休利用了吉尔博和马特休(1991)所提出的集值解的概念,同时他也证明了循环稳定集的存在性。Binmore and Samue1.son(1993)把参与人的学习过程纳入到了进化模型中并提出了自我强化均衡(Fudenberg,D.,1998)。他们认为,每个参与人都会通过自己的经验来推断对手可能选择的策略而作出最优反应,这个学习过程可能使得系统在不同自我强化均衡的吸引域之间漂移而不会停留在某一个均衡,由于在非均衡路径上的推断不一定正确,所以自我强化均衡可能不一定是纳什均衡。 相关条目 循环稳定集 进化稳定策略
含义 钱包悖论,又称钱包游戏,是概率论中的一个悖论。 内容 A和B两人进行一场赌博。 赌法是:由第三者计算A、B二君钱包里面的钱,钱少者可以赢走钱多者的钱。 A对于这场赌博的想法为:若B君的钱比我少,我可能输掉我现有的钱。但若B君的钱比我多,我赢了,就会得到多于我现有的钱。我能够赢的钱比输的钱多,所以这场赌博对我有利。 而B的想法也是如此。 二人想法的逻辑都正确,但若认为二人的想法都正确,又将做出这场赌博对A、B二人都有利的错误结论。这显然是一个悖论。 来源 钱包悖论源自法国数学家莫里斯·克莱特契克,在他的《数学消遣》书中赌的是领带而非钱.“有两个人都声称他的领带好一些。他们叫来了第三个人,让他作出裁决到底谁的好。胜者必须拿出他的领带给败者作为安慰。两个争执者都这样想:我知道我的领带值多少。我也许会失去它,可是我也可能赢得一条更好的领带,所以这种比赛是对我有利。一个比赛怎么会对双方都有利呢?” 分析 克莱特契克的分析 克莱特契克在他的书中指明必须限制条件,这才是一场公平的游戏,例如A,B二人对对方穿领带的习惯一无所知等。 他还假定每一个比赛者带有从0到任意数量(比如说一百元)的钱。以此假定构成两人钱数的矩阵,就可看出这个此赛是“对称的”,不会偏向任何一方。 但他没有指出两个比赛者的想法错在哪里。 考虑胜算 其实问题就在A,B二人只以“可以赢更多的钱”这点,就做出这场赌博对自己有利的结论,当然是错误的。显然是缺乏思考,对客观事物的复杂程度缺乏认识,才会做出如此乐观的结论。 这场赌博对谁有利的考虑谁可以赢得这场赌博。而不是以“可以赢更多的钱”来判断。 若以谁有胜算来判断,必须注意二点: 必须计算期望值。“钱包里有多少钱”是很随机的。无法有一定的标准。难以论定这场赌博的胜负,但若将“所有人类的钱包里的钱”相加后除以全人类数目,还是可以得出一个平均值。若钱包里的钱比平均值小,那胜算比较大,反之较小。各国家,各地区人的钱包里的平均值都不一样,全人类太广泛,以国家,地区来分更加有胜算。 但就算是费很大力气来得到这平均值,还是很难确定有胜算的。由此可见A,B二人认为这场赌博对自己有利的结论是做得多么轻易,缺乏思考。 其实最有胜算的方法是知道对方的钱包里有多少钱。 另一种分析 钱包只有二个,所以钱包里的钱只存在二个数: X,Y,设X>Y。 A有1/2机会是X,1/2机会是Y;B也如是。 如果A的钱是Y,则赢得X;如果A的钱是X,则输掉X;B也如是。 结论:1/2机会赢,1/2机会输。 而A,B想法的问题出在,他们假设了3个数: 设A有X元,B有Y元,(Y<X)或Z元,(Z>X)。 但实际上只存在2个数,所以这是错误的论证,推理出错误的结论。 现实例子 最常见的就是在赌博时,期待“如果赢的话、会赢得比输得更多”。例如玩吃角子老虎机时认为“就算只中樱桃,也是翻五倍!”但问题在于未必会中奖。 伪学术·钱包悖论 悖论这类东西非常有趣,最近在wiki上看到几个以前没有见过的,自己略微想了想,有些意义不大,纯粹是古希腊人的概念之争。马上要谈及的钱包悖论和上次的双信封悖论的问题表述略有相似,但产生悖论的原因不同,还是比较有意思的。
条目名称 区群谬误区群谬误(Ecological fallacy) 名词解释 区群谬误又称生态谬误,层次谬误,是一种在分析统计资料时常犯的错误。和以偏盖全相反,区群谬误是一种以全盖偏,如果仅基于群体的统计数据就对其下属的个体性质作出推论,就是犯上区群谬误。这谬误假设了群体中的所有个体都有群体的性质(因此塑型(Sterotypes)也可能犯上区群谬误)。区群谬误的相反情况为化约主义(Reductionism)。 其它内容 区群谬误区群谬误经常出现在人口研究之中,Ecological fallacy这名词最先见于William S. Robinson在1950年的文章。 在1930年美国人口普查结果中,Robinson分析了48个州的识字率以及新移民人口比例的关系。他发现两者之间的相关系数为0.53,即代表若一个州的新移民比率愈高,平均来说这个州的识字率便愈高。但当分析个体资料时,便发现相关系数便是-0.11,即平均来说新移民比本地人的识字率低。出现这种看似矛盾的结果,其实是因为新移民都倾向在识字率较高的州份定居。Robinson因此提出在处理群体资料,或区群资料时,必须注意到资料对个体的适用性。这并非指任何以群体资料对个体性质作出的推论都是错误的,但在推论时必须注意群体资料会否把群体内的变异隐藏起来。