阿罗的不可能定理 定义 阿罗不可能定理(Arrow'simpossibilitytheorem,阿罗的不可能性定理) 阿罗不可能性定理是指:如果众多的社会成员具有不同的偏好,而社会又有多种备选方案,那么在民主的制度下不可能得到令所有的人都满意的结果。定理是由1972年度诺贝尔经济学奖获得者美国经济学家肯尼思·J·阿罗提出。 背景资料 1951年肯尼斯·约瑟夫·阿罗(Kenneth J.Arrow)在他的现在已经成为经济学经典著作的《社会选择与个人价值》一书中,采用数学的公理化方法对通行的投票选举方式能否保证产生出合乎大多数人意愿的领导者或者说“将每个个体表达的先后次序综合成整个群体的偏好次序”进行了研究。结果,他得出了一个惊人的结论:绝大多数情况下是——不可能的!更准确的表达则是:当至少有三名候选人和两位选民时,不存在满足阿罗公理的选举规则。或者也可以说是:随着候选人和选民的增加,“程序民主”必将越来越远离“实质民主”。从而给出了证明一个不可思议的定理:假如有一个非常民主的群体,或者说是一个希望在民主基础上作出自己的所有决策的社会,对它来说,群体中每一个成员的要求都是同等重要的。一般地,对于最应该做的事情,群体的每一个成员都有自己的偏好。为了决策,就要建立一个公正而一致的程序,能把个体的偏好结合起来,达成某种共识。这就要进一步假设群体中的每一个成员都能够按自己的偏好对所需要的各种选择进行排序,对所有这些排序的汇聚就是群体的排序了。 孕育和诞生 阿罗的不可能定理阿罗不可能定理的证明并不难,但是需要严格的数学逻辑思维。关于这个定理还有一段情节颇为曲折的故事。 阿罗在大学期间就迷上了数学逻辑:读四年级的时候, 波兰大逻辑学家塔斯基(Tarski) 到阿罗所在的大学讲了一年的关系演算, 阿罗在他那里接触到诸如传递性、排序等概念 在此之前. 阿罗对他所着迷的逻辑学还是全靠自学呢。 后来, 阿罗考上研究生.在哈罗德·霍特林(Harold Hotelling) 的指导下攻读数理经济学 他发现,逻辑学在经济学中大有用武之地 就拿消费者的最优决策来说吧,消费者从许多商品组合中选出其最偏好的组台、这正好与逻辑学上的排序概念吻台。又如厂商理论总是假设厂商追求利润最大化, 当考虑时间因素时,因为将来的价格是未知的厂商只能力图使基于期望价格的期望利润最大化。我们知道、现代经济中的企业一般是由许多股东所共同拥有100个股东对将来的价格可能有100种不同的期望,相应地根据期望利润进行诸如投资之类的决策时便有100种方案。那末,问题如何解决呢?一个自然的办法是由股东(按其占有股份多少)进行投票表决, 得票最多的方案获胜这又是一个排序问题阿罗所受的逻辑训练使他自然而然地对这种关系的传递性进行考察 结果轻而易举地举出了一个反例。 阿罗第一次对社会选择问题的严肃思考就这样成为他学习标准厂商理论的一个副产品不满足传递性的反例激起了阿罗的极大兴趣,但同时也成为他进一步研究的障碍 因为他觉得这个悖论素未谋面但又似曾相识。事实上这的确是一个十分古老的悖论,是由法国政治哲学家、概率理论家贡多赛在1785年提出的 但是阿罗那时对贡多赛和其他原始材料一无所知,于是暂时放弃了进一步的研究。这是1947年。 次年, 在芝加哥考尔斯(Cowles)经济研究委员会, 阿罗出于某种原因对选择政治学发生了浓厚的兴趣:他发现在某些条件下,“少数服从多数”的确可以成为一个合理的投票规则。但是一个月后,他在《政治经济学杂志》里发现布莱克(Black)的一篇文章已捷足先登,这篇文章表达了同样的思想看来只好再一次半途而废了。阿罗没有继续研究下去其实还有另一层的原因,就是他一直以 严肃的 经济学研究为己任,特别是致力于运用一般均衡理论来建立一个切实可行的模型作为经济计量分析的基础 他认为在除此以外的“旁门左遭’中深究下去会分散他的精力。 1949年夏天, 阿罗担任兰德公司(Rand)的顾问。这个为给美国空军提供咨询而建立起来的公司那时的研究范围十分广泛,包括当时尚属鲜为人知的对策论。职员中有个名叫赫尔墨([[]Helmer]]) 的哲学家试图将对策论应用于国家关系的研究, 但是有个问题令他感到十分棘手: 当将局中人诠释为国家时,尽管个人的偏好是足够清楚的,但是由个人组成的集体的偏好是如何定义的呢?阿罗告诉他, 经济学家已经考虑过这个问题, 并且一个恰当的形式化描述已经由伯格森(Bergson) 在1938年给出。伯格森用一个叫做社会福利函数的映射来描述将个人偏好汇集成为社会偏好的问题, 它将诸个人的效用组成的向量转化为一个社会效用虽然伯格森的叙述是基于基数效用概念的, 但是阿罗告诉赫尔墨, 不难用序数效用概念加以重新表述。于是赫尔墨顺水推舟,请阿罗为他写一个详细的说明当阿罗依嘱着手去做时,他立即意识到这个问题跟两年来一直困扰着他的问题实际上是一样的。既然已经知道“少数服从多数“一般来说不能将个人的偏好汇集成社会的偏好,阿罗猜测也许会有其他方法。几天的试探碰壁之后, 阿罗怀疑这个问题会有一个不可能性的结果。果然, 他很快就发现了这样一个结果; 几个星期以后,他又对这个结果作进一步加强。 阿罗不可能定理就这样呱呱坠地了。 从1947年萌发胚芽到t950年开花结果,阿罗不可能定理的问世可谓一波三折, 千呼万唤始出来, 而且颇有点 无心插柳的意味。但是,正是在这无心背后的对科学锲而不舍的追求,才使逻辑学在社会科学这块他乡异壤开出一朵千古留芳的奇葩 这不能不说是耐人寻味的。 操作实务 阿罗的不可能定理众所周知,多数原则是现代社会广泛接受的决策方法。洛克认为“根据自然和理性的法则,大多数具有全体的权力,因而大多数的行为被认为是全体的行为,也当然有决定权了”。但很多在自然法学家那里是想当然正确的东西在社会选择理论中是需要证明的。所谓社会选择,在数学上表达为一个建立在所有个人的偏好上的函数(或对应),该函数的性质代表了一定的价值规范,比如公民主权、全体性、匿名性、目标中性,帕累托最优性,无独裁性等。社会选择最重要的问题是,这些价值规范之间是否是逻辑上协调的。阿罗证明,不存在同时满足如下四个基本公理的社会选择函数:①个人偏好的无限制性,即对一个社会可能存在的所有状态,任何逻辑上可能的个人偏好都不应当先验地被排除;②帕累托原则,即一个方案对所有人是最优的意味着相对于社会偏好序也是最优的;③非相关目标独立性,即关于一对社会目标的社会偏好序不受其它目标偏好序变化的影响;④社会偏好的非独裁性。 内容 阿罗的不可能定理源自孔多塞的“投票悖论”,早在十八世纪法国思想家孔多赛就提出了著名的“投票悖论”:假设甲乙丙三人,面对ABC三个备选方案,有如图的偏好排序。 甲(a > b > c),乙(b > c > a),丙(c > a > b)注:甲(a > b > c)代表——甲偏好a胜于b,又偏好b胜于c。 若取“a”、“b”对决,那么按照偏好次序排列如下: 甲(a > b ),乙(b > a ),丙(a > b )社会次序偏好为(a > b ) 若取“b”、“c”对决,那么按照偏好次序排列如下: 甲(b > c ),乙(b > c ),丙(c > b )社会次序偏好为(b > c ) 若取“a”、“c”对决,那么按照偏好次序排列如下: 甲(a > c ),乙(c > a ),丙(c > a )社会次序偏好为(c > a ) 于是我们得到三个社会偏好次序——(a > b )、(b > c )、(c > a ),其投票结果显示“社会偏好”有如下事实:社会偏好a胜于b、偏好b胜于c、偏好c胜于a。显而易见,这种所谓的“社会偏好次序”包含有内在的矛盾,即社会偏好a胜于c,而又认为a不如c!所以按照投票的大多数规则,不能得出合理的社会偏好次序。 阿罗不可能定理说明,依靠简单多数的投票原则,要在各种个人偏好中选择出一个共同一致的顺序,是不可能的。这样,一个合理的公共产品决定只能来自于一个可以胜任的公共权利机关,要想借助于投票过程来达到协调一致的集体选择结果,一般是不可能的。 推理及学者的评价 阿罗的不可能定理为了简单起见,假定,每个个体至少有3个供排列的选项,可以用各种味道的饼干为选项的例子,如,香草饼干(V)、巧克力饼干(C)和草莓饼干 (S),每一个人要形成一个序列,表示出他对3种味道的喜爱程度,如V>S>C,表示这个人最喜欢香草饼干,其次是草莓饼干,最后是巧克力饼干。设有甲乙丙三人作选择,他们的个人偏好为: 甲: V>C>S,乙: C>S>V,丙: S>V>C。 表1 投票悖论 投票者对不同选择方案的偏好次序:甲VCS,乙CSV,丙SVC ,用民主的多数表决方式,如果三个人都能充分表达自己的意见,则结果必然如下所示: 首先,在V和C中选择,甲、丙喜欢V,乙喜欢C;然后,在C和S中选择,甲、乙喜欢C,丙喜欢S;最后,在V和S中选择,乙、丙喜欢S,甲喜欢V。 这样三个人的最终表决结果如下: V>C,C>S,S>V可见,利用少数服从多数的投票机制,将产生不出一个令所有人满意的结论,这就是著名的“投票悖论”(paradox of voting)。这个投票悖论最早是由康德尔赛(Coudorcet,Marquis de)在l8世纪提出的,因而该悖论又称为“康德尔赛效应”,而利用数学对其进行论证的则是阿罗。 用数学语言来说,即:假设群体S上有m个个体成员,群体中出现的各种事件构成一个集合X,每个个体对每一事件都有自己的态度,即每个人都对集合X有一个偏好关系 > i=1,2,…,m。即可以按自己的偏好为事件排序。定义群体的偏好为:>_5 =P(>_1 ldots,>_m) 其中P是一种由每个个体偏好得出群体偏好的规则。按这个规则从个体排序(偏好)得到群体排序(偏好),而且这个排序符合民主社会的民主决策的各种要求。注意这个排序是自反的,即如果A>B,那么,BB,B>C,则有A>C;并且还是完全的,即要么A>B,要么B>A,二者只有其一而且必有其一。这首先要考察一下民主社会的民主决策的各种要求是什么,阿罗用4个公理(有时表述为5条,把公理1分为两条)表述出这些要求。他用的是数学方法,符号化的公理和数理逻辑的证明方法,为了简单地说明问题,我们采用了自然语言解释。 公理1 个体可以有任何偏好;而且是民主选择——每个社会成员都可以自由地按自己的偏好进行选择(数学上称为原则U—无限制原则: > i,u=1,2,… , m在x上的定义方式无任何限制)。 公理2 不相干的选择是互相独立的;(数学上称为原则I— —独立性原则:对于X中的两个事件X和Y,>_5=P( iY不成立。就是说,每人都有同样明确态度的两件事,社会也应该有同样的态度。) 公理4 没有独裁者——不存在能把个体偏好强加给社会的可能。(数学上称为原则D—— 非独裁原则:不存在某个i,使得PV);同理,在对V和S以及C和S分别进行投票时,可以得到S 以两票(乙丙)对一票(甲)而胜出于V(S>V);C以两票(甲乙)对一票(丙)而胜出于S(C>S)。这样,C>S—S>V— C>V,投票悖论就此宣告消失,唯有C项选择方案得到大多数票而获胜。 森把这个发现加以延伸和拓展,得出了解决投票悖论的三种选择模式:(1)所有人都同意其中一项选择方案并非最佳;(2)所有人都同意其中一项选择方案并非次佳;(3)所有人都同意其中一项选择方案并非最差。 森认为,在上述三种选择模式下,投票悖论不会再出现,取而代之的结果是得大多数票者获胜的规则总是能达到唯一的决定。 一个更完整、更简单也更具一般意义的不可能性定理,是艾利亚斯在2004年发表的。这一定理声称:如果有多于两个可供选择的社会状态,那么,任何社会集结算子,只要满足“偏好逆转”假设和“弱帕累托”假设,就必定是独裁的。特别地,阿罗的社会福利函数和森的社会选择函数,都是社会集结算子的特例,并且偏好逆转假设在阿罗和缪勒各自定义的社会选择框架内分别等价于阿罗的“独立性假设”和缪勒的“单调性假设”,从而阿罗的不可能性定理、森的最小自由与帕累托效率兼容的不可能性定理、缪勒和塞特斯维特的一般不可能性定理,均可视为艾利亚斯一般不可能性定理的特例。艾利亚斯的不可能性定理有怎样的经济学和社会学结论是人们正在研究的问题。 经典案例 阿罗的不可能定理假设有甲、乙、丙三人,分别来自中国、日本和美国,而且是分别多年的好朋友。三人久别重逢,欣喜之余,决定一起吃饭叙旧。但是,不同的文化背景形成了他们不同的饮食习惯,对餐饮的要求各不相同,风格各异:甲:中餐>西餐>日本餐 乙:日本餐>中餐>西餐 丙:西餐>日本餐>中餐 如果用民主的多数表决方式,结果如下所示: 首先,在中餐和西餐中选择,甲、乙喜欢中餐,丙喜欢西餐; 然后,在西餐和日本餐中选择,甲、丙喜欢西餐,乙喜欢日本餐; 最后,在中餐和日本餐中选择,乙、丙喜欢日本餐,甲喜欢中餐。 三个人的最终表决结果如下: 中餐>西餐,西餐>日本餐,日本餐>中餐 所以,利用少数服从多数的投票机制,将产生不出一个令所有人满意的结论,这就是著名的"投票悖论"(paradoxofvoting)。 投票悖论最早是由康德尔赛(MarquisdeCoudorcet)在18世纪提出的,因而该悖论又称为"康德尔赛效应"[③],而利用数学对其进行论证的则是肯尼斯·阿罗。 阿罗认为,有关社会选择的两个公理与民主主义所要求的诸条件不相适应。他所说的公理指以下内容: 公理1:连贯性(connectedness) 在x和y两项选择共存时,下面的某种情况永恒成立: x大于或等于y;y大于或等于x。 公理2:传递性(transitivity) 在有x、y、z三项选择时,会出现这样几种情况: x大于或等于y;y大于或等于z;则x大于或等于z。 阿罗指出,奠定这两个公理的基础的社会福利函数与他所谓的民主主义的诸条件不相称。民主主义的诸条件如下: (1)条件1:个人排列顺序的普通容许区间。 作为个人来讲,对于如何选择自己的选择值序列问题是无关紧要的。例如,在面临x、y、z三项选择时,无论是x>y>z,还是z>y>x,或者是y>z>x,......总而言之,允许个人按照自己意愿排列选择值顺序。 (2)条件2:社会评价与个人评价的正态相关。 假如有五个人来选择x、y,当其中三人为x>y,另外二人为xy,而且,即使出现少数派中的一方改变主意,x>y时,x>y的社会全体的多数表决结果将仍然如故,不会发生改变。 (3)条件3:与无关选择对象无关的独立性。 在x、y、z三项选择值之间,假定选择顺序为x>y>z,那么即使y选择值已不复存在,剩下x和z的x>z的选择关系仍旧不发生改变。 (4)条件4:公民主权 个人的选择顺序与社会结构无关,即社会中的每个人都能按各自的价值观,自由地在备选对象中进行选择。 (5)条件5:非独裁 在全体成员中,当只有特定的个人选择x>y,其余人选择xy。[④] 综上所述,即所有五个条件都理应成为民主社会所具备。阿罗认为,如果同时承认前面两个公理和该五个条件,就会促成投票的悖论效应。这就是阿罗不可能定理。 接下来,笔者举一个简单的例子来说明阿罗所谓两个公理与民主社会的五个条件的矛盾性。 按照阿罗的理论,假设现在有七个人聚在一起准备去吃饭。这七个人对餐饮的偏好顺序如下所示: 1号:中餐>西餐>日本餐 2号 3号日本餐>中餐>西餐 4号 5号 6号西餐>日本餐>中餐 7号 阿罗的不可能定理由上可以看出,就中餐和西餐比较而言,1至4号喜欢中餐,5-7号喜欢西餐,故中餐以四比三的结果夺得优势。再将西餐和日本餐相比较,则1号和5至7号喜欢西餐,2至4号喜欢日本餐,即西餐以四比三的结果夺得优势。如果依照公理2的可递性来看,西餐>日本餐,由于前面中餐>西餐,则中餐>日本餐。但是,若从七个人的选择顺序来看,主张中餐比日本餐好的只有1号,而其他人都认为日本餐比中餐好。问题尚不仅于此,按照可递性,中餐将表现为社会选择结果。在此情况下,只有1号的意见得到通过。这时,如果1号改变选择顺序,那么与其相适应的社会结果将注定不以其他人的意志为转移,而是以1号的选择顺序为转移。 阿罗涉及的这个问题具有很大的代表性。阿罗阐释了采取所谓多数表决的决定规则势必会随之出现独裁现象。我们通常认为多数表决是促成民主主义的决定原则,但在现实中,它却不曾起到这种作用。 就民主主义社会而言,阿罗所谓的基于多数表达原理的投票结果有时会导致投票的悖论效应,其观点颇具有重要意义。阿罗认为,投票的悖论并非经常发生,而具有一定的偶然性。如果这种概率实在微乎其微的话,那么阿罗不可能定理的意义就会黯然失色。对投票悖论产生的概率采取数学手段进行计算的是坎普布尔(C.Campbell)和塔洛克(G.Tullock)。 坎普布尔等人运用蒙特卡尔法来计算投票悖论产生的概率,并且指出,投票者数量或选择值增加越多,产生悖论的可能性就越大。譬如,在投票者为3人,选择值为3点的情况下,产生悖论效应的概率约为5.7%;当投票者增加至15人,选择值增加至11点时,产生悖论效应的概率提高到50%。[⑤]也就是说,两次投票中就有一次悖论现象出现。因而,对于每天都在频繁进行着各种会议和集会的民主主义社会来讲,决不可能对如此之高的比率掉以轻心。 此外,涅米和维斯伯格也大大地推进了坎普布尔等人的计算。他们指出,在投票者超过十人的情况下,以上投票悖论出现的概率基本无变化,而且选择值的多少对悖论概率有相当大的影响。 可见,在这种情景下,利用少数服从多数的投票机制,将产生不出一个令所有人满意的结论。 与中国发展的关系 阿罗的不可能定理自由民主制度的辩护 当年阿罗提出不可能定理,这对于民主人士来说,几乎是当头一瓢冷水。有人声称,阿罗不可能定理对于投票制度的打击类似于能量守恒定律对于永动机的打击,是最根本和彻底的。在诺贝尔奖的授奖词上,瑞典皇家科学院本茨尔教授承认,“这个结论在完全民主的梦想方面是非常令人失望的”。 我们有时在中文文献中看到,有些作者根据阿罗不可能定理说上一番,然后就判定自由民主制度原来也怎么怎么不好,言下之意似乎全世界的各种政治制度,都不过尔尔。其实这是对阿罗不可能定理的极大误解。事实上,阿罗不可能定理只是证明,不存在十全十美的集体选择规则,但是在已有的选择规则中,还是存在着优劣之别的。在理论上通过放宽阿罗不可能定理从而为自由民主制度辩护的大有人在,其中最著名者的证明路径就是邓肯·布莱克单峰偏好定理与安东尼·唐斯的中间投票人定理。 布莱克认为,阿罗不可能定理其中有一个很强的假设,就是偏好的无限制域(unrestricteddomain)。他认为,这在很大程度上不符合现实情况,现实情况是人们许多偏好构成了一个偏好单峰。所谓单峰偏好,就指多数人的偏好都倾向于其中一个备选方案。在这种情况下,多数规则就能够导致一个稳定性的结果,从而克服了投票悖论。布莱克的意义于,他并未否认阿罗不可能定理在逻辑上成立,但在现实中否定了它的可行性。戈登·塔洛克认为,在现实世界中,投票者的个数总是大大超过供投票选择的社会状态的个数的。这时,出现投票悖论的概率是如此之小,以至于在实际上可以不考虑它。 从单峰偏好就可以推导出中间投票人定理。唐斯指出,在一个多数决策的模型中,如果个人偏好都是单峰的,则反映中间投票人意愿的那种政策会最终获胜,因为选择该政策会使一个团体的福利损失最小(Downs,1957)。中间投票人定理与一个有关社会阶层的假设相关,通常认为,中间投票人往往为拥有中间收入或财产的居民,也就是中间阶级或者中产阶级。在一个社会中的大多数为中产阶级的情况下,社会偏好将向中产阶级的意愿靠拢。这将可让多数规则发挥其作用,从而保证了社会的稳定。一个社会成员中产阶级居于多数地位,那么整个社会就越是不可能出现极端的选择,就越不可能出现革命或者反革命。政治就越稳定,社会经济生活也就越有条件理性化,而不是走向极端。中间投票人定理的另一个含义是:任何一个政党或政治家,要想获得极大量的选票,必须使自己的竞选方案与纲领符合中间投票人的意愿。就是说,他要赢得选举的胜利,必须保持中庸。从现实情况看,美国两党竞争便为中间投票人定理做出了绝好注脚。 现在,我们看到,通过对其中一个条件的修正,阿罗不可能定理不再对多数规则的否定,而构成了对多数规则的证明。1998年,阿马蒂亚·森在诺贝尔颁奖典礼上的演说中指出,阿罗不可能定理其实就是自由民主制度辩护的,这才是一语中的(Sen,2002)。对于西方国家的自由民主制度的辩护士来说,理论已经不存在困惑了。现在的问题是,我们如何将阿罗不可能定理与中国——这个坚持自己的民主制度的国家——对证呢? 参考资料 http://wiki.mbalib.com/wiki/%E9%98%BF%E7%BD%97%E7%9A%84%E http://blog.sina.com.cn/s/blog_47fa5a6f010005qf.html http://ks.cn.yahoo.com/question/1407032703490.html
简介 1952年,法国经济学家、诺贝尔经济学奖获得者阿莱作了一个著名的实验: 阿莱悖论对100人测试所设计的赌局: 赌局A:100%的机会得到100万元。 赌局B:10%的机会得到500万元,89%的机会得到100万元,1%的机会什么也得不到。 实验结果:绝大多数人选择A而不是B。即赌局A的期望值(100万元)虽然小于赌局B的期望值(139万元),但是A的效用值大于B的效用值, 即1.00U(1m) > 0.89U(1m) + 0.01U(0) + 0.1U(5m)。 然后阿莱使用新赌局对这些人继续进行测试, 赌局C:11%的机会得到100万元,89%的机会什么也得不到。 赌局D:10%的机会得到500万元,90%的机会什么也得不到。 实验结果:绝大多数人选择D而非C。即赌局C的期望值(11万元)小于赌局D的期望值(50万元),而且C的效用值也小于D的效用值, 即0.89U(0) + 0.11U(1m) 0.10u(5 000 000)+0.89u(1 000 000)+0.0lu(0)或(1-0.89)u(1 000 000)>0.10u(5 000 000) 然而,面临第二对二择一选择题时,大多数人则偏爱D,该选择在期望效用理论里意味着逆向的不等关系: 0.1lu(1 000 000) 0.10u(5,000,000)>0.1lu(1,000,000),或,(1-0.89)>0.1l。请注意,期望理论是预先假定被人们选定的方案一定是具备了某种“最大值”的方案,即,在第一对选择题中,A 的“总价值”>B的“总价值”;在第二对选择题中,D 的“总价值”>C的“总价值”,从而演绎出“次确定性”关系:π(1.0)一π(0.89)>π(0.11)。 实质 阿莱本人对阿莱悖论亦有自己的解释。他在获诺贝尔经济学奖演讲时,阐述了他对以他名字命名的阿莱悖论的看法:“阿莱悖论”只是在外表上显得自相矛盾,它实际上符合了非常深刻的·,22理现实——接近必然时对安全的偏好。 该文对阿莱悖论所作的研究设计是基于对一所谓“齐当别”抉择模型的检验。这一抉择模型认为决策者的认知能力无法胜任最优化模式所需要的精确定量计算,也不能够以“效用”或者“心理距离”的方式表达对选择对象整体估算的结果。因而假定:左右人类风险决策行为的机制不是最大限度地追求某种形式的期望(expectation)值,而是某种形式上辨察选择对象之间是否存在优势性(dominance)关系。借助一表征系统(最好和最坏可能结果维度)来描述涉及了阿莱选择题的备择方案,该模型将人类的抉择行为描述为一种搜寻一备择方案在主观上优势于另一备择方案的过程。即:在方案A(C)在最坏可能结果维度上优越于方案B(D),而方案B(D)在最好可能结果维度上优越于方案A(c)的情况下,为了利用“弱优势”(weak dominance)原则达成决策,人们必须在一维度上将差别较小的两可能结果人为地“齐同”掉,而在另一维度上将“辨别”差别较大的两可能结果作为最终抉择的依据。 阿莱悖论 “齐当别”模型看阿莱悖论的方式与现代派生的理性期望模型很不一样。该模型注意到,若假设人们对金钱的主观价值函数(效用)为非线性的凹型,在第一对选择题中,B方案的“坏结果”(获零元)与 A方案的“肯定结果”(获一百万元)之间的差异显得非常突出;而在第二对选择题中,D方案的“好结果”(获五百万元)与C方案的“好结果 (获一百万元)之间的差异显得非常突出(见图1)。这意味着,在第一对选择题中大部分人的决策是在最坏可能结果维度上进行,在第二对选择题中大部分人的决策是在最好可能结果维度上进行。阿莱悖论的产生,是因为人们的先后两次决策不是固定在同一维度上进行。 认为先后两次决策不是在同一维度上进行,从而导致违背期望效用理论之公理的分析亦可应用于违背不变性(invariance)原则的“亚洲疾病问题。 在著名的“亚洲疾病问题 中,B方案的“零一结果 (最坏可能结果)与A方案的“肯定结果 (200人将生还)之间的差异在正面框架里显得非常突出,而D 方案的“零一结果 (最好可能结果)与C方案的“肯定结果 (400人将死去)之间的差异在负面框架里显得非常突出(见图2)。这意味着,当正面表征时大部分人的决策是在最坏可能结果维度上进行,当负面表征时大部分人的决策是在最好可能结果维度上进行(操纵维度差别而产生的反例见Li )。 阿莱悖论 从图1和图2中可见,改变“共同结果值 和更替“正负框架 均可以改变最好和最坏可能结果维度上的相对差别。因此,如果研究者借此尝试将原问题中的维度差别朝相反方向转换,便有可能产生与原阿莱悖论相反的选择结果。在这种思路的指导下,作者设计了一系列涉及阿莱悖论的实验,如,“登山队问题州引以及“瓦斯爆炸问题 。在Li的登山队问题中,被试所表现出的不一致的冒险趋势也违背了期望效用理论的独立性原则,但是其违背的类型与阿莱悖论完全相左。即大多数被试在第一对选择题中选择风险备择方案,而在第二对选择题中变换其选择。这是因为,在第一对选择题中,B方案的 “坏结果 (救活不了任何人)与A方案的“肯定结果 (肯定救活1人)之间的差异被设计成相对不显著;而在第二对选择题中,B方案的“坏结果 (89%的机会救活不了任何人)与A方案的“坏结果 (67%的机会救活不了任何人)之间的差异却被设计成相对显著。在Li和Adams的瓦斯爆炸问题中,期望效用理论的独立性原则在正面框架中被人遵守但是在负面框架中却被人违背。这是因为,在正框架里所操纵的“共同结果值”变化是为了促使大部分人的两次决策都在最坏可能结果维度上进行,而在负框架里所操纵的“共同结果值 变化则是为了鼓励大部分人的两次决策分别在两个不同可能结果维度上进行 (第一次决策是在次好 可能结果维度上进行;第二次决策是在最坏可能结果维度上进行)。所收集到的数据表明:只有“共同结果值 的变化能够改变不同维度上可能结果的大小差异,阿莱悖论才有可能产生;改变了“共同结果值”而没有改变不同维度上可能结果的大小差异,阿莱悖论则不可能产生。 为进一步验证人们对阿莱选择题的反应确实是受“齐当别 策略的支配,此项研究采用了一种称为 “判断 的任务。它将各备择方案的最好结果相互配对,又将各备择方案的最坏结果相互配对。然后要求被试判断哪一种结果之间的差异最大。被试若判断最好结果之间的差异最大,“齐当别”模式则推测,被试应挑选最好配对中拥有较好结果的方案(B或 D)。反之,被试若判断最坏结果之间的差异最大, “齐当别 模式则推测,被试应避免最坏配对中拥有较坏结果的方案(B或D)。请注意,在第一对选择题中,肯定方案的结果本身既可看成是最好结果(与 B的最好结果相比较时)又可看成是最坏结果(与B的最坏结果相比较时)。因此,人们选择方案A(保守方案),是因为被试在最坏结果之间(“肯定获一百万元”对“0.01的概率获得零元”)刻意避免了方案B 所提供的较坏结果(0.01的概率获得零元);人们选择方案B(冒险方案),是因为被试在最好结果之间 (“肯定获一百万元”对“0.10的概率获得五百万元 ) 精心挑选了方案B所提供的较好结果(0.10的概率获得五百万元)。 实验 (1)实验设计 1)材料 此项实验要求被试次第完成两种任务:选择任务和判断任务。选择任务即阿莱的选择题,呈现给被试的选择题如前部所示。判断任务如下所示:第一对判断题(选出差别最大的配对) F:“肯定获一百万元”对“0.10的概率获得五百万元” G.“肯定获一百万元”对“0.01的概率获得零元” 第二对判断题(选出差另1最大的配对) I:“0.11的概率获得一百万元”对“0.10的概率获得五百万元” J:“0.89的概率获得零元”对“0.90的概率获得零元” 反应顺序为:第一对选择题、第一对判断题、第二对选择题、第二对判断题。 2)实验结果 阿莱式的选择结果意味着,选择类型与共同结果值之间存在着一定的关系。当共同结果的值为 $1,000,000时,人们喜欢肯定备择方案;当共同结果的值减至$0时,人们变换其选择方案。若考虑 “第三变量”(判断类型),便可获得更多的信息,并构成列联表(表1)。 阿莱悖论 如表1所示,在第一次选择和判断中,此项实验有过半数的被试(61%)喜欢风险方案B。其结果与阿莱式的选择结果不尽相符,然而,选择变异可以被判断类型所解释的效应(phi squared)为显著性水平的11%(pu(落选硬币的值)。让人们研究“金钱错觉 ,特别是家境贫困孩子的“金钱错觉 ,从而推导出这能使以上不等式成立的U函数。将客观标准的值换成主观标准的值后,小男孩的行为就变得可以理喻了。换言之,这领域里的研究者总是从预测失败中想到“最大化 的标准可能出了差错,要做的事是再接再厉修改不符实际的“最大化标准,而鲜有人怀疑“最大化 的原则本身会出错。 然而,根据人们的实际选择演绎出非线性的价值函数(如在受益和受损区域分别为凹型和凸型的 s状价值函数v)和非线性的权重函数(如π函数),然后利用演绎出的非线性函数来让人信服修正后的 “最大化 选择模型是有效度的,这种做法并不能证明“最大化 假设本身是正确的。这样做犹如能寻觅到证据来证明一古老的假设— — 地球是扁平的。寻求证据说明被选中的方案是可以被主观函数演算成具有某种“最大值 ,就好比寻求证据说明心理反应 (如,扭曲,错觉,放大等)是物理变化的非线性函数。虽然人们可以不断找出比传统对数函数更适合个体的心理物理函数,说该函数可使人们将地平线在主观上知觉地更加“扁平 ,找到这样的心理物理函数并不构成对“地球是扁平的假设的证明。 此实验收集到的数据表明,由判断类型所揭示的“齐当别 策略能够对不同“共同结果值 条件下的风险决策行为作出较连贯地解释。这些结果连同 “登山队问题 等结果,一道质疑了人类风险决策行为是某种期望值的最大化的说法。也许,不断修正的期望模型最终又能演绎出新的主观价值函数或主观概率函数,将人们的风险决策行为圆满地描述为最大化过程;也许,指导人们作风险决策的原则根本就不是期望法则,有如Simon的“满意法则 (satisficing) ,须修正的期望模型只不过是为掩盖旧错误而犯下的新错误,现在到了后来人考虑摆脱 “期望法则 隆圈的时候了。 回到小男孩的选择问题,在最后一次测验时他如是说:“如果我选了大面值的硬币,你们还会一而再、再而三地试我吗? [1]
简介 埃尔斯伯格悖论1954年,萨维奇(L.J.Savage)由直觉的偏好关系推导出概率测度,从而得到一个由效用和主观概率来线性规范人们行为选择的主观期望效用理论。他认为该理论是用来规范人们行为的,理性人的行为选择应该和它保持一致性。在他的理论中,有一个饱受争议的确凿性原则(The Sure-Thing Principie),它表明行为中间的优先不取决于对两个行为有完全等同结果的状态,只要两个行为在某种情形之外是一致的,那么在这种情形之外发生的变化肯定不会影响此情形下行为人对两个行动的偏爱次序关系。 示例 1961年,埃尔斯伯格(Daniel Ellsberg)在一篇论文中通过两个例子向主观期望效用理论提出了挑战。他的第一个例子是提问式的,表述如下: 在你面前有两个都装有100个红球和黑球的缸I和缸Ⅱ,你被告知缸Ⅱ里面红球的数目是5O个,缸I里面红球的数目是未知的。如果一个红球或者黑球分别从缸I和缸Ⅱ中取出,那么它们分别被标为红 埃尔斯伯格悖论I、黑I、红Ⅱ和黑Ⅱ。现在从这两个缸中随机取出一个球,要求你在球被取出前猜测球的颜色,如果你的猜测正确,那么你就获得0,如果猜测错误,那么什么都得不到。为了测定你的主观偏好次序,你被要求回答下面的问题: (1)你偏爱赌红I的出现,还是黑I,还是对它们的出现没有偏见? (2)你偏爱赌红Ⅱ,还是黑Ⅱ? (3)你偏爱赌红I,还是红Ⅱ? (4)你偏爱赌黑I,还是黑Ⅱ? 埃尔斯伯格发现大多数人对问题1和问题2的回答是没有偏见。但是对问题3的回答是更偏爱于打赌红Ⅱ的出现,对问题4的回答是更偏爱于打赌黑Ⅱ的出现。 他认为,按照萨维奇的理论,假定你赌红Ⅱ,那么作为一个观察者将实验性地推断你是认为红Ⅱ的出现比红I的出现更有可能。同时你打赌于黑Ⅱ,则可推断你认为黑Ⅱ比黑I更有可能发生。但是,人们根据概率的知识知道这是不可能的,因为,如果黑Ⅱ比黑I更有可能出现,那么红I一定比红Ⅱ更有可能出现,所以,不可能从你的选择中推断出概率,也就是说你的行为选择根本不是在概率的启迪性判断下做出的,因此,在不确定情形下,主观概率不能赋值,没有概率测度能被确定。 埃尔斯伯格给出的另外一个例子直接针对确凿性原则,表述如下: 在一个缸里装有30个红球和60个不知道比例的黑球和黄球。现在从缸中随机取出一个球,要求人们对下面两种情形下的四种行为进行选择。 行为I是对红球的一个赌,当一个红球被取出可以得到0,其他颜色的球被取出则什么都得不到; 行为Ⅱ是对黑球的一个赌,当一个黑球被取出可以得到0,其他颜色的球被取出则什么都得不到。 行为Ⅲ是对红球或者黄球的一个赌,当红球和黄球被取出可以分别得到0,黑球被取出则什么都得不到; 行为Ⅳ是对黑球或者黄球的一个赌,当黑球和黄球被取出可以分别得到0,红球被取出则什么都得不到。 可以看到,这两种情形的区别仅仅在于第二种情形多了一个有完全等同结果的状态,即黄球被取出可以得到0。根据确凿性原则,人们对行为I和行为Ⅱ之问的偏好关系应该和对行为Ⅲ和行为Ⅳ之间的偏好关系相一致。就是说,如果在第一种情形下选择了行为I,那么在第二种情形下应该选择行为Ⅲ;如果第一种情形下选择了行为Ⅱ,那么在第二种情形下应该选择行为Ⅳ。 但是,埃尔斯伯格发现大多数人在第一种情形中选择了行为I,同时在第二种情形中选择了行为IV;较少一些人在第一种情形中选择了行为Ⅱ,同时在第二种情形中选择了行为Ⅲ。而这两种选择模式都违背了确凿性原则,因此,人们实际的行为选择明显与主观期望效用理论的结果不相一致。并且,他还得到一个重要的发现。他说:“在重新思考所有他们按照这个原则‘犯错的’决定后,许多人——他们不仅是富有经验的,而且是理智的——都决定他们希望坚持他们的选择。这其中包括先前感觉对这个原则有一个‘首位的信奉’的人,他们发现在这些情形里,他们想要违背了确凿性原则,许多人很惊讶,一些人很沮丧。” 评价 埃尔斯伯格所揭示的问题确实对主观期望效用理论产生了严重的冲击,因为他进行实验的对象不少是统计学家和经济学家,不仅这些人中的大多数,其中包括萨维奇本人都做出了“错误的”选择,而且有不少人在重新思考过后仍然不愿意改变自己的选择,这似乎说明主观期望效用理论并不具有规范性的作用。正如埃尔斯伯格所言:“在上面例子中,比起Ⅱ更愿选择I和比起Ⅲ更愿选择Ⅳ的个体(或者,比起I更愿选择Ⅱ,比起Ⅳ更愿选择Ⅲ)并不简单地在行动,‘好像’他们对正在讨论的事件赋予了数字的或者甚至定性的概率。对他们来说,这正如有别的方法来指导行动。 启示 埃尔斯伯格悖论风险是概率分配已知的情形,而不确定是概率分配不清楚的情形,因此,埃尔斯伯格悖论和阿莱斯悖论的不同在于,它暗示了在风险和不确定情形下的决策应该有所不同。 埃尔斯伯格的例子得到了现代心理学的证实,前景理论(Prospect Theory)就认为决策加权的来源包括风险,人们更喜欢打赌于一个缸,它的里面装了相等数目的红球和黑球,而不喜欢打赌另外一个装了未知数目红球和黑球缸。更通常地,人们的偏好不仅依赖于他们的不确定程度,而且依赖于不确定的来源,这种现象被称为来源相依(Source Dependence)。 特韦尔斯凯(Amos Tversky)认为来源相依有来源偏好和来源敏感性两个方面。来源偏好因为损失减小加权函数,因为赢利增加加权函数,在埃尔斯伯格例子中,人们对于已知概率的缸的偏好优于未知概率的缸正好阐明了这个关系。并且特韦尔斯凯提出“人们对不确定比对风险的敏感较小的调查结果显示了不确定增强了从期望效用的背离⋯⋯最终,人们经常更喜欢打赌于未知概率,而不是打赌于已知概率的观察资料需要对结论重新评估,这个结论通常来自埃尔斯伯格的例子。它显示了人们更喜欢风险而不是不确定,当他们感觉消息不灵通或者是无能力的时候。但是在其他的情形下,人们经常打赌于不确定的来源(比如体育或者天气)而不是风险。 这样一来,埃尔斯伯格所言的人们决策的时候有着别的方法来指导的想法就可以通过前景理论来说明。前景理论认为并不能用完全的理性来规范人们实际的行为,主观期望效用理论的一些理性的假设并不成立,实际上,人们的行为选择要受到心理因素的影响,是受理性和心理因素共同作用的结果。因此,关于人们行为的决策理论只能是描述性的,这不仅可以解释人们实际行为偏离理性预测的原因,而且为行为决策理论的研究指明了新的方向。[1]
【阿基里斯悖论内容】 公元前5世纪,芝诺发表态了著名的阿基里斯和乌龟赛跑悖论:他提出让乌龟在阿基里斯前面 1000米处开始,并且假定阿基里斯的速度是乌龟的10倍。当比赛开始后,若阿基里斯跑了1000米,设所用的时间为t,此时乌龟便领先他100米;当阿基里斯跑完下一个100米时,他所用的时间为t/10,乌龟仍然前于他10米。当阿基里斯跑完下一个10米时,他所用的时间为t/100,乌龟仍然前于他10米……芝诺解说,阿基里斯能够继续逼近乌龟,但决不可能追上它。关于阿基里斯悖论的另一个解释是:阿基里斯的确永远也追不上乌龟。因为当阿基里斯遵循乌龟的轨迹的时候,会不由自主的慢下来,以跟随着乌龟的节奏前进。 阿基里斯 阿基里斯(Achilles)是希腊神话中善跑的英雄。芝诺讲:阿基里斯在赛跑中不可能追上起步稍微领先于他的乌龟,因为当他要到达乌龟出发的那一点,乌龟又向前爬动了。阿基里斯和乌龟的距离可以无限地缩小,但永远追不上乌龟。 有人用物理语言描述这个问题说,在阿基里斯悖论中使用了两种不同的时间度量。一般度量方法是:假设阿基里斯与乌龟在开始时的距离为S,速度分别为V1和V2。当时间T=S/(V1-V2)时,阿基里斯就赶上了乌龟。 但是芝诺的测量方法不同:阿基里斯将逐次到达乌龟在前一次的出发点,这个时间为T'。对于任何T',可能无限缩短,但阿基里斯永远在乌龟的后面。关键是这个T'无法度量T=S/(V1-V2)以后的时间。[1] 【推翻阿基里斯悖论】 其实,我们根据中学所学过的无穷等比递缩数列求和的知识,只需列一个方程就可以轻而易举地推翻芝诺的悖论:阿基里斯在跑了1000(1+0.1+0.01+…………)=1000 (1+1/9)=10000/9米时便可赶上乌龟。人们认为数列1+0.1+0.01+…………是永远也不能穷尽的。这只不过是一个错觉。我们不妨来计算一下阿基里斯能够追上乌龟的时间为 t(1+0.1+0.01+…………)= t (1+1/9)=10t/9芝诺所说的阿基里斯不可能追上乌龟,就隐藏着时间必须小于10t/9这样一个条件。由于阿基里斯和乌龟是在不断地运动的,对时间是没有限制的,时间很容易突破10t/9这样一个条件。一旦突破10t/9这样一个条件,阿基里斯就追上了或超过了乌龟。人们被距离数列1+0.1+0.01+…………好像是永远也不能穷尽的假象迷惑了,没有考虑到时间数列1+0.1+0.01+…………是很容易达到和超过的了。但是不是所有的数列都能达到,所以,我们看问题不能太极端。例如无论多少个点也不能组成直线,对于点的个数来说,我们就永远无法穷尽它。 【悖论定义】 悖论是指一种导致矛盾的命题。悖论(paradox)来自希腊语“para+dokein”,意思是“多想一想”。 如果承认它是真的,经过一系列正确的推理,却又得出它是假的;如果承认它是假的,经过一系列正确的推理,却又得出它是真的。(zh.wikipedia.org/wiki/悖论)把集合分成两类,凡是不以自身作为元素的集合称为正常集,(例如,自然数集N本身不是一个自然数,因此N是正常集。)凡是以自身作为元素的集合称为异常集。(例如,所有的非生物的集合F并非生物,因此F是异常集。)这样,许多日常中常见的悖论(说谎者悖论,理发师悖论,上帝悖论等)都可以归入异常集之中了。另外一种悖论是关于无限的,虽然我们现在基本上都能接受极限的理论,但是要把这个理论向那些不懂的人解释还是十分困难的。比较经典的有:(古希腊数学家芝诺(Zeno of Elea)的阿基里斯悖论)阿基里斯在赛跑中不可能追上起步稍微领先于他的乌龟,因为当他要到达乌龟出发的那一点,乌龟又向前爬动了。阿基里斯和乌龟的距离可以无限地缩小,但永远追不上乌龟。(古希腊数学家芝诺(Zeno of Elea)的二分法悖论)当一个物体行进一段距离到达D,它必须首先到达距离D的二分之一,然后是四分之一、八分之一、十六分之一、以至可以无穷地划分下去。因此,这个物体永远也到达不了D。“1厘米线段内的点与太平洋面上的点一样多”康托尔(1845-1918)成功地证明了:一条直线上的点能够和一个平面上的点一一对应,也能和空间中的点一一对应。由于无限,1厘米长的线段内的点,与太平洋面上的点,以及整个地球内部的点都“一样多”。
目录 1概述 2背景知识 3利弊 4阿拉巴马悖论举例 5参考文献 概述 阿拉巴马悖论(Alabama paradox)是指增加议席也可能反而导致某些名单丧失议席,是一种以“相对公平”为标准的份额分配法中的悖论。 阿拉巴马悖论(Alabamaparadox) 增加议席也可能反而导致某些名单丧失议席,是一种以“相对公平”为标准的份额分配法中的悖论。 名额分配问题(assignmentproblemofthenumberofdeputiestobeelected)政治学中的一个数学问题,“按人口比例分配议员名额”的计算方法的问题,是数学在政治学中的一个应用。它以应用浅显的数学知识得出了深刻的政治结论,却一直未获根本解决,因此而著称于世。 根据美国宪法,美国国会分参议院和众议院,参议院中各州有等额议席,而众议院“议员名额……将根据各州的人口比例分配”。这就是名额分配问题的缘起。美国宪法于1787年获得通过,1788年生效,但从1790年以来的200多年间, 背景知识 最大余额方法是比例代表制投票制度下,一种议席分配的方法。 透过最大余额方法,候选人须以名单参选,每份名单的人数最多可达至相关选区内的议席数目。候选人在名单内按优先次序排列。选民投票给一份名单,而不是个别候选人。投票结束后,把有效选票除以数额(quota)。一份名单每取得数额1倍的票数,便能获分配一个议席。每份名单的候选人按原先订立的顺序当选。 如此类推、将议席分配至每份名单的余额,均比数额为低的时候,则从最大余额者顺序分配余下议席;最大余额方法因而得名。 [1] 最常用的最大余额方法,分别使用3种数额: 黑尔数额(Hare quota):将总有效票数除以议席数目。名称源自英国大律师托马斯·黑尔。在各种数额之中,黑尔数额是历史最悠久、计算最简易、使用最广泛的方法,这是现时香港立法会地区直选议席,台湾立法院不分区议席、以及非洲西南部国家纳米比亚的议会所使用的分配方法。19世纪,美国国会也曾采用这种方法分配选票。 特罗普数额(Droop Quota):总有效票数除以(议席数目+1)。名称源自英国数学家亨利·特罗普。南非国会使用这种方法。 哈根巴赫数额(Imperiali quota):总有效票数除以(议席数目+2)。厄瓜多尔国会选举是少数采用这种数额的选举,因为得最大余额的名单,未必能取得剩余的议席,因为所有议席都被数额完整分配。 利弊 以最大余额方法分配议席不算复杂,一般选民应该能够理解运作方法。使用黑尔数额的最大余额方法,并不偏重得票率较多或较少的名单,好处在于能给出中立、但同时具广泛代表性的选举结果。最大余额方法能包容少数派,有利发展多党派的议会。这种制度也令选民不能投票给个别候选人;从正面的角度看,这代表选民会改以各份参选名单的政纲为投票考虑依据,加强选举的理性基础。不过,各个政党可能会有相应的“配票策略”,例如将同党候选人分拆在不同的名单,好让候选人能通过余额数当选。 阿拉巴马悖论举例 例一 6张参选名单,各张名单得票比率200:500:500:900:1500:1500,要分配25个议席:通过数额分配,名单甲至己分别首先获得0、2、2、4、7、7个议席;再对比各个余额,名单甲、乙、丙分别再各得1席。不过,如果将分配议席数量增加至26个:通过数额分配,名单甲至己分别首先获得1、2、2、4、7、7个议席;但对比各个余额,之前未能增加议席的名单丁、戊、己,分别再各得1席;反而甲、乙、丙则未能通过最大余额分配而获得议席。 例二1 现在以一个增加工资的实例来说明阿拉巴马悖论。 调资方案一。 某合资企业经理决定给二位工程师和一位工人调资; 该三位雇员原月薪分别为4310 元, 4215 元和1000 元。经理的调资计划如下: (1) 每人增资约5%左右; (2) 提薪后三人总月薪为10000元; (3) 调整后每人月薪都应以百元为单位。用Ham ilton法(最大分数法), 即得出下表(单位: 元) 成员 当前工资 拟调工资(+5%) 尾数: 10元 尾数: 100 元 工程师甲 4310 4525.5 4520 4500 工程师乙 4215 4425.7 4430 4400 工人 1000 1050 1050 1100 合计 9525 10001.2 10000 10000 这个方案并不能令人满意。因为实际上两位工程师增资不足5%。而工人实际上却增加了10%。经理决定再造一个方案, 要求增资额为6%左右, 总额为10100元。仍然用了Ham ilton 方法, 我们得下表。 调资方案二: 成员 原工资 拟调工资(+6%) 尾数: 10元 尾数: 100元 工程师甲 4310 4568.6 4570 4600 工程师乙 4215 4467.9 4470 4500 工人 1000 1060 1060 1000 合计 9525 10096.5 10100 10100 现在情况更糟: 增资率提高到6%, 工资总额提高到10100 元, 但工人的工资又从1100元降低到1000元。 数学家后来很快在理论上弄清楚了: 出现这个被称为阿拉巴马悖论的怪圈, 是不可避免的! 这就再一次暗示了整分技巧的复杂性。 参考文献 ↑ 秦侠、宋国强、盛立人.公平性与数学化( III) 公平分配,《运筹与管理》第8卷 第3期
概述 什么是博弈论? 博弈论高级学术著作《博弈圣经》 博弈论的定义 博弈论的定义:Definition of the game theory: 我们把动物利用大自然移动的瘾魂,在决策人期待的空间里,形成相对均衡的语文学理论,称为博弈论。 (摘自《博弈圣经》中《人类未知的蓝色档案》一文)。 The theory of relative balance about the mobile addicts and soul of animals in the nature and in the expectation of decision makers is called the game theory. (quoted from the article “The Blue Files Unknown to Humankind” in Bible of Game Theory) 博弈论的陈旧理论 博弈论(Game Theory),有时也称为对策论,或者赛局理论,应用数学的一个分支, 目前在生物学,经济学,国际关系,计算机科学, 政治学,军事战略和其他很多学科都有广泛的应用。主要研究公式化了的激励结构(游戏或者博弈(Game))间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。 博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。 表面上不同的相互作用可能表现出相似的激励结构(incentive structure),所以他们是同一个游戏的特例。其中一个有名有趣的应用例子是囚徒困境悖论(Prisoner's dilemma)。 具有竞争或对抗性质的行为成为博弈行为。在这类行为中,参加斗争或竞争的各方各自具有不同的目标或利益。为了达到各自的目标和利益,各方必须考虑对手的各种可能的行动方案,并力图选取对自己最为有利或最为合理的方案。比如日常生活中的下棋,打牌等。博弈论就是研究博弈行为中斗争各方是否存在着最合理的行为方案,以及如何找到这个合理的行为方案的数学理论和方法。 生物学家使用博弈理论来理解和预测进化论的某些结果。例如,John Maynard Smith 和George R. Price 在1973年发表于Nature上的论文中提出的“evolutionarily stable strategy”的这个概念就是使用了博弈理论。还可以参见进化博弈理论(evolutionary game theory)和行为生态学(behavioral ecology)。 博弈论也应用于数学的其他分支,如概率,统计和线性规划等。 博弈论的发展 对博弈论的研究可以追溯到19世纪,甚至更早。对于博弈论的研究,开始于策墨洛(Zermelo,1913),波雷尔(Borel,1921)及冯·诺伊曼(von Neumann, 1928),后来由冯·诺伊曼和奥斯卡·摩根斯坦(von Neumann and Morgenstern,1944,1947)(《博弈论与经济行为》)首次对其系统化和形式化(参照Myerson, 1991)。随后约翰·福布斯·纳什(John Forbes Nash Jr., 1950, 1951)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。 直至《博弈圣经》的出现, 《博弈圣经》与原有博弈论书籍最大的不同就在于,独创了国正论、国正双赢理论和粒子行为论,书中博弈取胜的文化理论统一了人类的博弈占优行为。更重要的是,它让博弈理论终于可以在现实生活中具体操作,让普通大众通过研习,成为真正的博弈高手。因此, 《博弈圣经》中的博弈理论在政治、经济、文化、生活、娱乐等社会的各个领域具有可应用性,并且对于个人的工作、生活也有具体的指导意义。此外,塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。今天博弈论已发展成一门较完善的的学科。 我们应用科学发展观的博弈哲学思想,阐明了博弈论、矛盾论、概率论的战术性质。 博弈论是二人对局,一个叫决策人,一个称对抗者。 矛盾论是两个同性质的二人对决。 概率论则是通过二人对局的个数之比得出。 博弈论、矛盾论、概率论各自都是两个相同性质的对决只能提供经验,只有对实体与性质的区分才能称为知识。西方文化大宗教理论都是极其渺小的个体性质的战术属性,决不能处理博弈实体里的战略。在任何博弈实体的系统里,在具体事件中,用矛盾论建立的二人博弈对局都是在悖论中自圆其说,都不能通达博弈实体的事实真相。博弈论、矛盾论、概率论这些文化大宗教理论已经不能解决未来博弈实体里的文明,到了极不正常的历史死亡阶段。因为这些抄来抄去的非物质文化概念,界定模糊,无法定性,无法区分,无法操作,无法验证,不能证明,又不能证伪。它让人没有自在,没有自我,没有哲学,更没有科学。科学不是为哪个阶级服务的,科学是大自然前进的规则,科学又像似监工,《博弈圣经》中说:“科学是专门批判他人的。”任何邪恶和迷信都会后退,科学的任务是如实地让人们认识自然本来的面貌。粒子行为论、国正论、国边常数1.992187是对政府和人民的提醒,也是让怀疑论者百口难辨。博弈基因取胜的理论会引发更多人对战略文化的思考。 分类博弈的分类根据不同的基准也有不同的分类。一般认为,博弈主要可以分为合作博弈和非合作博弈。它们的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议,如果有,就是合作博弈,如果没有,就是非合作博弈。 从行为的时间序列性,博弈论进一步分为两类:静态博弈是指在博弈中,参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。通俗的理解:“囚徒困境”就是同时决策的,属于静态博弈;而棋牌类游戏等决策或行动有先后次序的,属于动态博弈 目前经济学家们现在所谈的博弈论一般是指非合作博弈,由于合作博弈论比非合作博弈论复杂,在理论上的成熟度远远不如非合作博弈论。)。 博弈论还又很多分类,比如:以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈;以表现形式也可以分为一般型(战略型)或者展开型,等等。 博弈论中的国正论 国正论,国正双赢理论、粒子行为论,是博弈论的重要理论,出自著名经济学高级学术著作一书,为博弈论理论打下了坚实的基础。 国正论释义:它是一个实体性质的地域似的区间,具有复杂的结构,用情、理、法、力都不容易分割的一个不知大小的抽象体。从中我们可分出正确和期望得到的那一小部分,与反相对、与负相对,又可以判断事物的道理。世界上的万物、事件的结果,都是不平等的、非绝对对立的两块,大的那部分是国,小的那部分是正。 《博弈圣经》中的国正论 人的行为互相作用,互相影响,高熵赛棋─—就是研究判定人的行为,互相作用时的决策和结果之间的关系,是国是正,没有任何决策能独立于国正大小不同的两块之外,博弈结果的国正论显得更为重要而广泛。 世界上的任何事情,都可以看成是博弈,把世界看成是一个大的博弈场。发明家的粒子行为论、国正论、博弈的正理理论,正在启迪人们,并逐渐地感觉到那是博弈的大发明,并告诉所有的人,去除一切传统的博弈思想,改用新的博弈行为,对待每一个事情,找到一个最好的单方占优的博弈正理的决策立场,可以对未来一切的事物进行因特分配。 理解国正论的发明,再用国正论理解决策人和对抗者,解释现在和未来。用国正论解释不绝对对立的现象十分恰当,当人们涉及到过去,把它看成和现在或未来相关,实际这是混为一谈。整个过去、现在、未来失去了各自的位置,陷入了混沌无序之中,有时候人们把过去当成未来,有时又把现在和二者混起来。一个真切的感觉是它们实现真理的一致性,国正论就是实现它们真理的理论,先进行体验,辨别出或然性真理,再把未来博弈正理推导出来。我们说国正论是来自大自然,国正论必须被当成自然的教令加以接受,我们注意到,越是崇高神圣的东西越不太容易被接受。国正论的国,指的是包含了负的意思,决策人作出赞成的决定,是国(博弈的结果是负),决策人作出反对的决定也是国(博弈的结果也是负),国与正本身就是一个难以理解的分配结果的博弈的词汇,一个人决策,两个以上的人对抗,就有可能会出现双赢,就是大于两个以上的合作者才会出现双赢。 博弈论的意义 《博弈圣经》中《人类未知的蓝色档案》一文中写道:“谁能让现代的博弈行为接近野蛮,谁能让友善与凶残之间的距离大到令人不解,谁就在博弈中取胜。” 博弈论的研究方法和其他许多利用数学工具研究社会经济现象的学科一样,都是从复杂的现象中抽象出基本的元素,对这些元素构成的数学模型进行分析,而后逐步引入对其形势产影响的其他因素,从而分析其结果。 基于不同抽象水平,形成三种博弈表述方式,标准型、扩展型和特征函数型利用这三种表述形式,可以研究形形色色的问题。因此,它被称为“社会科学的数学”从理论上讲,博弈论是研究理性的行动者相互作用的形式理论,而实际上正深入到经济学、政治学、社会学等等,被各门社会科学所应用。 国务院的战略版本 《博弈圣经》中说:"一个民族博弈知识的落后,也会落后其他民族。无论是穷国和富国,还是穷人和富人,都会要求改善博弈的结果。""穷富的区别就在于分享博弈正理的多少。"科学发展观正在利用道德与博弈的版本作为战略;整合人才、知识、科技、创新的一切优势,推进着国家的富强,并向未来发出挑战 。一个国家的高端人群和各界精英如果掌握了更多的博弈知识,掌握了博弈方法论,就会表现出令人难以置信的经济成就。也许在某一时期,他们参与世界博弈的混战,世界经济也会为此颤抖。 博弈论对纳什的嘲讽 我们用高熵赛棋认识粒子行为,就是认识人的行为,它和各单元之间的相互作用就是提示我们认识人和社会的关系,就不是部分之和那样简单。其实,它包含了无数个体单元性质的主题,它们相互嵌套在一起,是实体的概念。科学发展观就是这个博弈实体的概念,《博弈圣经》上说:“实体一元论在数目上的同一性,发生的因果次序不属于个人的部分本性,这种属性是实体的性质。”由此看出,人是代表了实体。如果认识科学发展观是用博弈实体的理论,就可以确定人性与物的对局是决策粒子二特性,也是大自然的平行法则。如果我们用科学发展观的定义,理解科学发展观和博弈实体相关联的许多事物并把它应用到社会中的具体事件上,用四种量具作出的区分,那才是完美的知识论。 由此,我们也看出了三笔糊涂账: 一,中国的孙子兵法:运筹帷幄,审时度势,权衡利弊,知己知彼,至今却没有形成标准化的尺度,也没严格的数据。如果我们用科学发展观的定义度量它们,它是一笔糊涂账。 二,现代人对社会的认识:什么是各部门之间加强沟通、协调与综合平衡,什么是精确思维和模糊思维的对立统一,什么是个人目标与组织目标综合思考,什么是定性定量相结合,什么是相互合作又相互竞争,什么是单极思维与综合思维。我们对每一句话进行追踪,发现它们抽象、空洞,没有具体内容。谁也不知道表述的一大半一小半是什么结构,没有实体,就没有性质,没办法定性就没办法区分,没办法量化就没办法计算。如果我们用科学发展观的定义度量它们,它又是一笔糊涂账。 三,近代科学家的理论:广义相对论和狭义相对论、牛顿的力学和绝对时空观、弯曲时空、坐标对应、平衡对称、四维时空、场属性等这些概念,如果我们用科学发展观的定义度量它们,它是科学家的一笔糊涂账。 无论他们用什么方法,都是在用不同的方式进行排列,也是在进行博弈的重组。几百年来,人类探索博弈取胜之道毫无进展,理论思维极度混乱。今日我们用科学发展观的定义再看博弈论、矛盾论、概率论,还有所谓的经济学名著,无论多么伟大的经济学天才,使用上述的这些理论,都不知道怎么占优,不知道怎么能赢。 既然他们在预测未来上毫无进展,那么在科学发展观的时代,就应该对高熵赛棋研究博弈单方占优的理论有所关注。即使总统竞选也是使用了高熵赛棋二人对局的博弈机制。以往谈囚徒困境和纳什均衡的人都是用一个模糊的概念搬来搬去,坐在办公室里凭空假想,从无知到无聊争论了半个多世纪。博弈论是赌徒理论,是真正赌徒的矛盾对决,用筹码表现输赢与均衡结果的语文学理论那才是真正有价值的经济学理论。看看《博弈圣经》,怎样区分决策人和对抗者的先后次序,为什么对它们进行了不同的称呼,满足了托马斯•谢林多年的困惑,实现了它们的单方占优。更为讽刺的是,一本本博弈论著作,古老的内容千篇一律,里面没有几句精彩的话,没有几个经典的词,更没有定理、定律、定义和法则。至今一个个博弈论专家、矛盾论专家、概率论专家和外行知道得一样多。从《博弈圣经》的出版,人们才知道博弈的二人对局中一个是决策人,一个是对抗者,《博弈圣经》在166节中写道:“那些身穿黑色礼服,年迈的绅士们,为博弈的进步捧走了人类最高的诺贝尔奖,这是人类博弈的最高水平,假如他们进入娱乐场,在百家乐的赌台上搏击,我想他也会像拳击运动员一样被击败在拳台上,这一定是一个事实,他必须接受这个事实,一定会被裁判渎秒。” 以往经济学家为了降低风险,建议投资多元化,“不要把鸡蛋放在一个篮子里”。这种分散投资的经济思想,实在是经济学家对博弈取胜的无奈。我们把科学发展观的理论特征和高熵赛棋的实际相结合,从实际操作的输赢结果中得出结论:一个资深的经济学家在高熵赛棋上的表现比一个智力不全的人还占弱势,这是无情的博弈事实。《博弈圣经》在453节有一段风趣的表述:“我们根本不能完全理解大自然,或许人们不如老鼠在寻找食物时能选择最近的路程,那是大自然的拓扑几何图像的捷径。” 西方死亡的博弈论 非白即黑的矛盾论辩证法已经受到时间、空间和博弈实体特性的极大限制,而博弈论、矛盾论、概率论和西方经济学一样都不是完美的理论,已经不能指导博弈实体向更高文明的发展,更不能指导未来。科学发展观的博弈实体知识论、国正论哲学辩证法、矛盾论经验对决,它们共同的结构可以构筑未来科学、自然哲学博弈实体经济学。 我们应用科学发展观的博弈哲学思想,阐明了博弈论、矛盾论、概率论的战术性质。 博弈论是二人对局,一个叫决策人,一个称对抗者。 矛盾论是两个同性质的二人对决。 概率论则是通过二人对局的个数之比得出。 博弈论、矛盾论、概率论各自都是两个相同性质的对决只能提供经验,只有对实体与性质的区分才能称为知识。西方文化大宗教理论都是极其渺小的个体性质的战术属性,决不能处理博弈实体里的战略。在任何博弈实体的系统里,在具体事件中,用矛盾论建立的二人博弈对局都是在悖论中自圆其说,都不能通达博弈实体的事实真相。博弈论、矛盾论、概率论这些文化大宗教理论已经不能解决未来博弈实体里的文明,到了极不正常的历史死亡阶段。因为这些抄来抄去的非物质文化概念,界定模糊,无法定性,无法区分,无法操作,无法验证,不能证明,又不能证伪。它让人没有自在,没有自我,没有哲学,更没有科学。科学不是为哪个阶级服务的,科学是大自然前进的规则,科学又像似监工,《博弈圣经》中说:“科学是专门批判他人的。”任何邪恶和迷信都会后退,科学的任务是如实地让人们认识自然本来的面貌。粒子行为论、国正论、国边常数1.992187是对政府和人民的提醒,也是让怀疑论者百口难辨。博弈基因取胜的理论会引发更多人对战略文化的思考。 单方占优模型 高熵赛棋这个单方占优的理论模型,把百家乐赌台当棋盘,把赛棋“红方、蓝方”转换成“庄、闲”,一旦特性移植的取胜理论被验证,那些无知又无聊的一维思想,那些忽悠人的博弈论、矛盾论、概率论将被彻底否决。 《货币的威力》一书中说:“哪里有生命,哪里就有事件的开端。哪里有矛盾,哪里就有死亡。哪里有非绝对对对立的国正论,哪里就有粒子行为的碰壁而终结,哪里就有新体制、新结构和新事物的创生。” 21世纪是科学发展观的时代,与此同时各种错误的观念都在转变。未来的专家不必用围棋、象棋和多米诺骨牌表示博弈对局,这些都不是博弈的实战模型。那些在媒体上拿着棋子在棋盘上比来比去做广告的人,没有一个人能讲出什么是战略,什么是战术,什么是决策人和对抗者,他们怎么能单方占优,怎么才能赢。更为滑稽的是,一个博弈论专家、矛盾论专家、概率论专家,竟没有创造一个词,也没发明一句经典的话,更不要说定理、定律、定义和法则,所以没有一个人敢公开说怎么赢。 未来的政治家、军事家不能仅仅喊几句博弈口号或知道一点散落在民间的博弈小常识和几个博弈词汇,也不是讲几个博弈的小故事。如果不知道高熵赛棋具有极其重要的军事战略文化价值,没有真正用高熵赛棋的二人对局对其进行深入地实战性研究,就不知道在二人对局中如何战胜对手,更不知道在未来的大博弈中取胜,对一个国家的各级CEO,那将是一个灾难性的未来。《博弈圣经》上说:“21世纪博弈的大事是精确地测量,科学家可以对未来100年的科学进行预测,没有一个人敢预测博弈的未来,可见难度非同一般。不经过测量的东西是粗糙的、杂乱的、不符合意愿的、难以控制的。”《博弈圣经》阐述的理论和高熵赛棋,这不是虚构的文学故事,也不是官员的形式空话,更不是大学里抄来的论文,这是公开于世的发现,它所有的理论都受到知识产权的法定保护。 成语:(1024连胜法则) 成语:(1024连胜法则)高熵赛棋是一个大发明,它是一个博弈的取胜模型, 总统候选人用它获得竞选宝座,科学家用它有所发现,傻子用它改变智力的结果 麻将店老板得知这一消息,就买了几套高熵赛棋放到店里,结果很少有人玩,该店就决定通过一次竞赛让人们了解高熵赛棋。当竞赛信息发出后,奇怪的是前来报名参赛的人有总统候选人、科学家、还有一些傻子。由于赛期和总统竞选日期冲突,候选人就不来了,科学家担心自己发现的成果会泄漏,科学家也不来了,最后有1024个傻子参加竞赛,他们使用末尾淘汰制,经过八轮淘汰之后,剩下四个傻子连续八次不败,让人无奈的是他们遵照了“1024连胜法则”,其中的一个傻子对麻将店老板说:“博弈不讲智力,只要参与就有机会。” 《博弈圣经》中的映射均衡 《博弈圣经》里《人类未知的蓝色档案》一文中说:“想赢得未来,不是数学家的映射方程,而是映射均衡。”在高熵赛棋上每一次发生的事件分别用红蓝粒子进行记录,可以看成是一个粒子行为的一次涨落,也是自己的智慧作出与大自然竞赛结果的记录。当同色粒子连续出现三次之后就另外加上一个粒子,通过这样一个粒子插值,有可能产生一个基本粒子单元,也就相当于结束了一个事件或一个阶段。这个虚拟的粒子插值组成了一个粒子大分子,这个插值相当于正常机体里的癌细胞,它的增值会使这个健康的大分子染上与它同样的性质,已经失去真实大分子的价值,根据国正论系统的辩证法原理,人们把这个虚拟癌化的大分子看成“国”,把它映射均衡的空间看成一个“正”的稳定区间,这是博弈取胜的空间,在事件发生之前一大半的信息可以被人掌握。 博弈论 人的行为表现自然科学一切创新的文化,借用高熵赛棋这个二人博弈对局的模型认识粒子行为基因的映射均衡原理,它证明了自然界的一切事物不可约化的复杂性,科学家越来越多的努力在这里遭到了莫名奇妙的失败。我们从科学的定义里可以看出,任何一个人在博弈实体中发生的事件都是前所未有的,也不可预测。谁通过观察高熵赛棋上的粒子状态,谁用历史上自然显示出来的粒子规律和经验预测未来,谁将失败。创新的设计和预测没有固定的章法,也没有不变的模式。 经验是个人可复制的历史文明行为。 规律是领袖对未来秩序的文化思考。 合作的过程 博弈论(gametheory)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。 纳什(JohnNash)编制的博弈论经典故事"囚徒的困境",说明了非合作博弈及其均衡解的成立,故称"纳什平衡"。 所有的博弈问题都会遇到三个要素。在囚徒的故事中,两个囚徒是当事人(players)又称参与者;当事人所做的选择策略(strategies)是承认了杀人事实,最后两个人均赢得(payoffs)了中间的宣判结果。如果两个囚徒之中有一个承认杀人,另外一个抵赖,不承认杀人,那么承认者将会得到减刑处理,而抵赖者将会得到最严厉的死刑判决,在纳什故事中两个人都承认了犯罪事实,所以两个囚徒得到的是中间的结果。 “一报还一报”的策略在静态的群体中得到了很好的分数,那么,在一个动态的进化的群体中,这种合作者能否产生、发展、生存下去呢?群体是会向合作的方向进化,还是向不合作的方向进化?如果大家开始都不合作,能否在进化过程中产生合作?为了回答这些疑问,艾氏用生态学的原理来分析合作的进化过程。艾克斯罗德(RobertAxelrod)在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。也就是说,个人可以完全按照自己利益最大化的企图进行决策。在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。 社会实践中有很多合作的问题。比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。 假设对策者所组成的策略群体是一代一代进化下去的,进化的规则包括:一,试错。人们在对待周围环境时,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好就照哪个去做。第二,遗传。一个人如果合作性好,他的后代的合作基因就多。第三,学习。比赛过程就是对策者相互学习的过程,“一报还一报”的策略好,有的人就愿意学。按这样的思路,艾氏设计了一个实验,假设63个对策者中,谁在第一轮中的得分高,他在第二轮的群体中所占比例就越高,而且是他的得分的正函数。这样,群体的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。 实验结果很有趣。“一报还一报”原来在群体中占1/63,经过1000代的进化,结构稳定下来时,它占了24%。另外,有一些程序在进化过程中消失了。其中有一个值得研究的程序,即原来前15名中唯一的那个“不善良的”哈灵顿程序,它的对策方案是,首先合作,当发现对方一直在合作,它就突然来个不合作,如果对方立刻报复它,它就恢复合作,如果对方仍然合作,它就继续背叛。这个程序一开始发展很快,但等到除了“一报还一报”之外的其它程序开始消失时,它就开始下降了。因此,以合作系数来测量,群体是越来越合作的。 进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。“一报还一报”在两个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。它赖以生存的基础是很牢固的,因为它让对方得到了高分。哈灵顿程序就不是这样,它得到高分时,对方必然得到低分。它的成功是建立在别人失败的基础上的,而失败者总是要被淘汰的,当失败者被淘汰之后,这个好占别人便宜的成功者也要被淘汰。 那么,在一个极端自私者所组成的不合作者的群体中,“一报还一报”能否生存呢?艾氏发现,在得分矩阵和未来的折现系数一定的情况下,可以算出,只要群体的 5%或更多成员是“一报还一报”的,这些合作者就能生存,而且,只要他们的得分超过群体的总平均分,这个合作的群体就会越来越大,最后蔓延到整个群体。反之,无论不合作者在一个合作者占多数的群体中有多大比例,不合作者都是不可能自下而上的。这就说明,社会向合作进化的棘轮是不可逆转的,群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞人心的结论,突破了"囚犯困境"的研究困境。 在研究中发现,合作的必要条件是:第一、关系要持续,一次性的或有限次的博弈中,对策者是没有合作动机的;第二、对对方的行为要做出回报,一个永远合作的对策者是不会有人跟他合作的。 艾克斯罗德在《合作的进化》一书结尾提出几个结论。第一、友谊不是合作的必要条件,即使是敌人,只要满足了关系持续,互相回报的条件,也有可能合作。比如,第一次世界大战期间,德英两军在战壕战中遇上了三个月的雨季,双方在这三个月中达成了默契,互相不攻击对方的粮车给养,到大反攻时再你死我活地打。这个例子说明,友谊不是合作的前提。第二、预见性也不是合作的前提,艾氏举出生物界低等动物、植物之间合作的例子来说明这一点。但是,当有预见性的人类了解了合作的规律之后,合作进化的过程就会加快。这时,预见性是有用的,学习也是有用的。 艾克斯罗德的贡献与局限性 博弈论 艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境,达成合作,将这项研究带到了一个全新境界,他在数学上的证明无疑是十分雄辩和令人信服的,而且,他在计算机模拟中得出的一些结论是非常惊人的发现,比如,总分最高的人在每次博弈中都没有拿到最高分。(刘邦和项羽的战争) 艾氏所发现的“一报还一报”策略,从社会学的角度可以看作是一种"互惠式利他",这种行为的动机是个人私利,但它的结果是双方获利,并通过互惠式利他有可能覆盖了范围最广的社会生活,人们通过送礼及回报,形成了一种社会生活的秩序,这种秩序即使在多年隔绝,语言不通的人群之间也是最易理解的东西。比如,哥伦布登上美洲大陆时,与印地安人最初的交往就开始于互赠礼物。有些看似纯粹的利他行为,比如无偿损赠,也通过某些间接方式,比如社会声誉的获得,得到了回报。研究这种行为,将对我们理解社会生活有很重要的意义。 囚徒困境扩展为多人博弈时,就体现了一个更广泛的问题──“社会悖论”,或“资源悖论”。人类共有的资源是有限的,当每个人都试图从有限的资源中多拿一点儿时,就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞,都可以在社会悖论中得以解释,在这些问题中,关键是通过研究,制定游戏规则来控制每个人的行为。 艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应,“投桃报李”、“人不犯我,我不犯人”都体现了“tit for tat”的思想。但这些东西并不是最优的,因为“一报还一报”在充满了随机性的现实社会生活里是有缺陷的。对此,孔子在几千年前就说出了“以德报德,以直报怨”这样精彩的修正策略,所谓“直”,就是公正,以公正来回报对方的背叛,是一种修正了的“一报还一报”,修正的是报复的程度,本来会让你损失5分,现在只让你损失3分,从而以一种公正审判来结束代代相续的报复,形成文明。 但是,艾氏对博弈者的一些假设和结论使其研究不可避免地与现实脱节。首先,《合作的进化》一书暗含着一个重要的假定,即,个体之间的博弈是完全无差异的。现实的博弈中,对策者之间绝对的平等是不可能达到的。一方面,对策者在实际的实力上有差异,双方互相背叛时,可能不是各得1分,而是强者得5分,弱者得0分,这样,弱者的报复就毫无意义。另一方面,即使对局双方确实旗鼓相当,但某一方可能怀有赌徒心理,认定自己更强大,采取背叛的策略能占便宜。艾氏的得分矩阵忽视了这种情形,而这种赌徒心理恰恰在社会上大量引发了零和博弈。因此,程序还可以在此基础上进一步改进。 其次,艾氏认为合作不需预期和信任。这是他受到质疑颇多之处。对策者根据对方前面的战术来制定自己下面的战术,合作要求个体能够识别那些曾经相遇过的个体并且记得与其相互作用的历史,以便作出反应,这些都暗含着"预期"行为。在应付复杂的对策环境时,信任可能是对局双方达成合作的必不可少的环节。但是,预期与信任如何在计算机的程序中体现出来,仍是需要研究的。 最后,重复博弈在现实中是很难完全实现的。一次性博弈的大量存在,引发了很多不合作的行为,而且,对策的一方在遭到对方背叛之后,往往没有机会也没有还手之力去进行报复。比如,资本积累阶段的违约行为,国家之间的核威慑。在这些情况下,社会要使交易能够进行,并且防止不合作行为,必须通过法制手段,以法律的惩罚代替个人之间的"一报还一报",规范社会行为。这是艾克斯罗德的研究对制度学派的一个重要启发。 著名的例子:“智猪博弈”Pigs’payoffs 这个例子讲的是:猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。 那么,两只猪各会采取什么策略?答案是:小猪将选择“搭便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。 如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗?试试看。 改变方案一:减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。 如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。 改变方案二:增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强。 对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效果并不好。 改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费完。 对于游戏设计者,这是一个最好的方案。成本不高,但收获最大。 原版的“智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置,规则的设计者是不愿看见有人搭便车的,政府如此,公司的老板也是如此。而能否完全杜绝“搭便车”现象,就要看游戏规则的核心指标设置是否合适了。 比如,公司的激励制度设计,奖励力度太大,又是持股,又是期权,公司职员个个都成了百万富翁,成本高不说,员工的积极性并不一定很高。这相当于“智猪博弈”增量方案所描述的情形。但是如果奖励力度不大,而且见者有份(不劳动的“小猪”也有),一度十分努力的大猪也不会有动力了----就象“智猪博弈”减量方案一所描述的情形。最好的激励机制设计就象改变方案三----减量加移位的办法,奖励并非人人有份,而是直接针对个人(如业务按比例提成),既节约了成本(对公司而言),又消除了“搭便车”现象,能实现有效的激励。 许多人并未读过“智猪博弈”的故事,但是却在自觉地使用小猪的策略。股市上等待庄家抬轿的散户;等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资;公司里不创造效益但分享成果的人,等等。因此,对于制订各种经济管理的游戏规则的人,必须深谙“智猪博弈”指标改变的个中道理。 考考文献 [1] 经济学高级学术著作《博弈圣经》曹·国正(新加坡) http://www.caoab.com [2]Harold W. K.(editor), 1997, Classics in Game theory, Princeton, NJ:Princeton University Press ISBN 0691011931 [3]Myerson, R., 1991, Game Theory: Analysis of Conflict. Cambridge and London: Harvard University Press.
应用乌鸦悖论利用这个原理,这个悖论就不会出现了。如果有人随机选一个苹果,那么他看到一个红苹果的几率和「乌鸦」的颜色是完全没有关系的。这时分子等于分母,所以分数等于1,所以以上讨论的几率不会改变。所以看见一只红色的苹果不会增加人们对「乌鸦都是黑色的」的信任度。[1] 而如果那人是随叫随到选择一个非黑的物件,那个物件正好是一个红的苹果,那么我们对得到一个分子大于分母的,几乎等于一的假分数。所以在这个情况下,看见一只红苹果确实会极微小地增加我们对「乌鸦都是黑色的」的信任度。 其实,随着一个人看到的不是黑色的东西的增加(并发现其中没有乌鸦),「乌鸦都是黑色的」的几率会趋向于1。问题的综述 几千年以来,无数人观察了许多事务,比如地心引力法则,人们趋于相信其极可能是真理。这种类型的推理可以总结成“归纳法原理”: 如果实例X 被观察到和论断 T 相符合,那么论断 T 正确的概率增加。 亨佩尔给出了归纳法原理的一个例子:“所有乌鸦都是黑色的”论断。我们可以出去观察成千上万只乌鸦,然后发现他们都是黑的。在每一次观察之后,我们对“所有乌鸦都是黑的”的信任度会逐渐提高。归纳法原理在这里看起来合理的。 现在问题出现了。“所有乌鸦都是黑的” 的论断在逻辑上和“所有不是黑的东西不是乌鸦”等价。如果我们观察到一只红苹果,它不是黑的,也不是乌鸦,那么这次观察必会增加我们对“所有不是黑的东西不是乌鸦”的信任度,因此更加确信“所有的乌鸦都是黑的”!这个问题被总结成: 我从未见过紫牛,I never saw a purple cow 但若我见到一头,But if I were to see one 乌鸦皆黑的概率,Would the probability ravens are black 更加可能是一么?Have a better chance to be one? (改写自吉利特·伯吉斯(Gelett Burgess)的诗) 解决提议 解决它和直觉的冲突,哲学家们提出了一些方法。美国逻辑学家纳尔逊·古德曼(Nelson Goodman)建议对我们的乌鸦悖论推理添加一些限制,比如永远不要考虑支持论断“所有P满足Q”且同时也支持“没有P满足Q” 的实例。 其他一些哲学家质疑“等价原理”。也许红苹果能够增加我们对论断“所有不是黑的东西不是乌鸦”的信任度,而不增加我们对 “所有乌鸦都是黑色的”信任。这个提议受到质疑,因为你不能对等价的两个命题有不同的信任度,如果你知道他们都是真的或都是假的。 古德曼,以及其后的威拉德·冯·奥曼·蒯因,使用术语“projectible predicate”来描述这些类似于“乌鸦”和“黑色”的命题, 所有这类命题是支持归纳推理法的;而“非projectible predicate”则为与只相反的后者, 如“非黑”和“非乌鸦”这些命题并不支持归纳推理法。蒯因还提出一个需要证实的猜想:如果任何命题是projectible的;在无限物件组成的全集中,一个projectible的命题的补集永远是非projectible的。 这样一来,虽然“所有乌鸦都是黑的”和“所有不是黑的东西都不是乌鸦”这两个命题所拥有的信任度必须相等,但只有“黑色的乌鸦”才能同时增加两者的信任度,而“非黑色的非乌鸦”并不增加任何一个命题的信任度。 还有些哲学家认为其实这个命题是完全正确的,出错的是我们自己的逻辑。其实观察到一个红色的苹果确实会增加乌鸦都是黑色的可能性!这就相当于:如果有人把宇宙中所有不是黑的物体都给你看,而你发现所有的物体都不是乌鸦,那你就完全可以断定所有乌鸦都是黑的了。这个“悖论”看上去荒谬只是因为宇宙中 “不是黑的”物体远远多于“乌鸦”,所以发现一个“不是黑的”物体只增加了极其微小的对于“乌鸦都是黑的”的信任度,而相对而言,每发现一只黑的乌鸦就是一个有力的证据了。 贝叶斯定理 除了以上的陈述以外,“归纳法原理”还有另一种形式,就是贝叶斯推理。 设 X 为支持论断 T 的一个实例, 而 I 表示我们所有的已知信息。 乌鸦悖论 表示论断 T 成立的几率,已知 X 和 I 都是成立的,可以推得 Pr(T|I)*Pr(X|TI) Pr(T|XI)=---------------------------- Pr(X|I)这里 Pr(T | I) 表示在只有 I 是已知成立的情况下,T 成立的几率;Pr(X | TI) 表示在 T 和 I 都已知成立的情况下,X 成立的几率;而 Pr(X | I) 表示在只有 I 是已知成立的情况下,X 成立的几率. 利用这个原理,这个悖论就不会出现了。如果有人随机选一个苹果,那么他看到一个红苹果的几率和“乌鸦”的颜色是完全没有关系的。这时分子等于分母,所以分数等于1,所以以上讨论的几率不会改变。所以看见一只红色的苹果不会增加人们对“乌鸦都是黑色的”的信任度。 而如果那人是随叫随到选择一个非黑的物件,那个物件正好是一个红的苹果,那么我们对得到一个分子大于分母的,几乎等于一的假分数。所以在这个情况下,看见一只红苹果确实会极微小地增加我们对“乌鸦都是黑色的”的信任度。 其实,随着一个人看到的不是黑色的东西的增加(并发现其中没有乌鸦),“乌鸦都是黑色的”的几率会趋向于1。
概述完全信息博弈:是指每一参与者都拥有所有其他参与者的特征、策略集及得益函数等方面的准确信息的博弈。 关于完全信息博弈的最早结果出现在1950年代,但确切出自何人之手却无从得知,这就是所谓的“佚名定理”(the Folk Theorem)。该定理认为,重复博弈的策略均衡结局与一次性博弈中的可行的个体理性结局恰好相一致,这个结局可被视为把多阶段非合作行为与一次性博弈的合作行为联系在一起。或者可以说,只要行为人有足够的耐心,任何满足个体理性的可行支付都可以通过一个特定的子博弈精炼均衡达到。然而,虽然所有可行的个体理性结局确实代表了合作博弈的解观点,但是它不能够提供相关信息,并且是相当模糊的。奥曼认为该理论本身没有多少新东西,他指出,完全信息的重复博弈论与人们之间相互作用的基本形式的演化是相关的。 完全信息,是针对策略集和赢利(payoffs)集的。如果任何参与人的策略集和支付集合皆为所有参与人共知,此为完全信息。 完美信息,是针对记忆而言的。如果一个参与人在行动时观察到其所处的信息结点是唯一的,那么可称他对其他参与人在他之前的行动有完美的记忆;如果所处的信息结点是不唯一的,则他对其他参与人在他之前的行动就没有完美记忆。 很显然,完全信息不一定完美的;不完全信息必定是不完美的。 区分标准 博弈类型如何区分博弈类型?面对一个博弈问题,首先要识别出它的类型,只有“对症”,才能“下药”。 按照一般的分类方式,可以将(非合作)博弈按照博弈的顺序和信息的情况分为四大类: 1、完全信息静态博弈 2、完全信息动态博弈(又分为完全且完美信息动态博弈和完全但非完美信息动态博弈两小类) 3、非完全信息静态博弈 4、非完全信息动态博弈 问题是: 1、静态博弈和动态博弈的本质区别是什么? 2、信息的完全性与信息的完美性有什么区别? 另外,根据我的理解,把博弈类型以集合图的形式表示如下。如有错误,还请批评指正。 目录 1 完全信息博弈动态、静态分析 2 相关条目 完全信息博弈动态、静态分析 一、完全信息动态博弈 完全信息动态博弈,是指博弈中信息是完全的,即双方都掌握参与者对他参与人的战略空间和战略组合下的支付函数有完全的了解,但行动是有先后顺序的,后动者可以观察到前者的行动,了解前者行动的所有信息,而且一般都会持续一个较长时期。 (一).子博弈精炼纳什均衡 1.子博弈精炼纳什均衡不允许不可置信的威胁的存在。 2.一个子博弈精炼纳什均衡必须是一个纳什均衡,但纳什均衡不一定是子博弈精炼纳什均衡。 (二).重复博弈 1.重复博弈是指同一种结构的博弈反复进行所构成的博弈过程,它属于动态博弈的范畴。 2.如果博弈的次数是无限的,厂商就可以相互合作,摆脱困境。 如果博弈的次数是有限的,厂商之间的合作就不可能。 完全信息博弈 3.“以牙还牙”策略 在定价博弈中,“以牙还牙”策略是指:一家厂商定高价,只要对方继续合作也定高价,那么这家厂商就会一直保持高价;一旦对方定低价,那么该厂商也会定低价,如果对方以后决定合作并再提高价格,该厂商也会提高价格。 序列博弈 序列博弈,是指参与者选择策略有时间先后的博弈形式。它是一种较为典型的动态博弈,而重复博弈则可视为一种特殊的动态博弈形式。 1.序列博弈的一般性特征 一方在决策时,会考虑到另一方的反应行为,并在这种考虑基础上进行自己的当前决策。 通过对下图博弈的分析,可以得知厂商1的最佳策略是选择生产少糖型可乐,厂商2则生产多糖型可乐。 完全信息博弈 2.首先行动优势 1).在序列博弈中,首先作出策略选择和采取行动的博弈方可以占据有利地位,获得较多利益。2).首先行动优势的原因在于它造成了一种既成事实,为使利润最大化,另一方必须根据首先行动一方的策略来选择自己的策略.而且该模型表明信息较多的博弈方不一定能获得较多的得益。 linduyu_82:完全信息指纯策略空间和赢利函数均为博弈各放的共同知识.完美信息则指轮到行动的局中人知道先前的行动的其他局中人采取了什么策略.完全信息可以是完美的,也可以是不完美的. 556521:博弈论的基本概念包括:参与人、行动、信息、战略、支付函数、结果、均衡 其中,参与人、行动、结果合称博弈规则 博弈有不同的种类: 从行动顺序角度: 静态博弈。参与人同时选择行动 动态博弈。参与人的行动有先后顺序 从拥有信息角度: 完全信息博弈。每个参与人对所有其他参与人的特征、战略空间、支付函数有准确的知识 不完全信息博弈。将二角度结合,博弈有四种:[1] 完全信息静态博弈 完全信息动态博弈 不完全信息静态博弈 不完全信息动态博弈 一个博弈需要有五方面内容组成:参与人、行动、信息、结果 P:为局中人,能够独立决策,独立承担责任的个人或组织,以最终实现自身利益最大化为目标。 A:各局中人的所有可能的策略或行动的集合。分为有限博弈和无限博弈,后者表现为连续对策、重复博弈和微分对策等。 S:博弈的进程或次序。分为静态博弈和动态博弈。 完全信息静态博弈完全信息静态博弈中各博弈方同时决策,且所有博弈方对博弈中的各种情况下的策略及其得益都完全了解的。 1.上策:是指对某博弈方来说,不管其他博弈方采取什么策略,他所采取的能给他带来最大得益的策略。 下图博弈中,厂商A和B的上策都是做广告。上策均衡也是两家厂商都选择做广告的策略。 完全信息博弈 2.纳什均衡指的是在给定竞争对手的选择行为后,博弈方选择了它所能选择的最好的策略(或采取了它所能采取的最好的行动)。 相关条目 不完全信息博弈