概述不完全信息博弈:对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的准确信息,在这种情况下进行的博弈就是不完全信息博弈。 目录 1 博弈动态、静态分析 2 相关条目 博弈动态、静态分析 不完全信息动态博弈:精炼贝叶斯均衡 精炼贝叶斯(纳什)均衡是不完全信息动态博弈的均衡概念。 在市场进入博弈中,精炼贝叶斯均衡是:在位企业产品定价较高,潜在企业推断其为高成本,选择进入;在位企业产品定价较低,潜在企业推断其为低成本,选择不进入。 不完全信息静态博弈:贝叶斯均衡 贝叶斯均衡通常被描述为:在给定自己的类型和对手类型的概率分布的情况下,每个参与者的期望效用达到了最大化从而没有参与者愿意改变自己的行为或策略。 [1] 在下图的博弈中假定在位企业属于高成本类型的企业的概率大于0.2,潜在企业选择进入才是最优的。 不完全信息静态博弈中的归纳推理 1.古巴导弹危机 二战后,美国和苏联两个超级大国形成了对峙,组成了两大敌对阵营。1962年苏联偷偷地将导弹运送到古巴对付美国,但却被美国的侦察机发现,于是美国决定对古巴进行军事封锁,美苏之间的战争一触即发。面对美国的反应,苏联面临着是将导弹撤回国还是坚持部署在古巴的选择。而对于美国,则面临着是挑起战争还是容忍苏联的挑衅行为的选择。 在这个博弈中,假设Va,Vb∈{1,-4},如果双方都选择进攻,则会发生一场战争。对每一方而言,如果决策者属于鹰派,则会选择进攻,其支付为1;如果决策者属于鸽派,则可能会选择撤退,其支付为-4。每一方都知道自己属于哪一派,但这一信息是自己的隐私,所以说这是一个不完全信息博弈问题。又因为双方的行动有先后顺序,但是后行动者美国并不知道先行动者苏联所采取的行动,只能通过所掌握的有限信息进行归纳,从而预测出对方可能会采取何种策略,因此它也是一个静态博弈。 在美国对苏联的行动考虑对策时,可以选择的策略有多种,从默许到温和的制裁直至全面对抗,事实上,它选择了最强烈的反应并取得了成功。美国这样推理:如果苏联采取进攻,那么当Va=1时,他的最好反应是进攻;而当Va=-4时的最好反应是撤退。如果苏联选择撤退,那么无论他的私人信息是什么,他的最好反应都是进攻。此外,根据美国情报部门所掌握的信息和对对手苏联决策层的估计,即赫鲁晓夫的强硬姿态背后苏联内部对此各种态度的冲突和综合,苏联的实力、赫鲁晓夫执行其意旨的能力等估计的基础上,美国当局做出了正确的反应。虽然苏联也可以这样推理,但是赫鲁晓夫错误地估计了对方的反应,认为美国会容忍这种后果,而事实相反。所以说,这是一种不完全归纳推理,即从若干个个别性前提推出一个特称结论的推理。 2.海萨尼转换 在假定局中人拥有私人信息的情况下,其他局中人对特定局中人的支付函数类型是不清楚的。如果一些局中人不知道另一些局中人的支付函数,或支付函数不是共同知识,局中人就不知道他在与谁博弈,博弈的规则是没有定义的。因而在1967年以前,博弈论专家认为此时博弈的结构特征是不确定的,无法进行分析。海萨尼提出了一种处理不完全信息博弈的方法,即引入一个虚拟的局中人——“自然”。自然首先行动,它决定每个局中人的特征。每个局中人知道自己的特征,但不知道别的局中人特征。这种方法将不完全信息静态博弈变成一个两阶段动态博弈,第一个阶段是自然N的行动选择,第二阶段是除N外的局中人的静态博弈。这种转换被称为“海萨尼转换”,这个转换把“不完全信息”转变成为完全但不完美信息,从而可以用分析完全信息博弈的方法进行分析。 不完全信息博弈 相关条目 完全信息博弈
目录 1 什么是不完全信息动态博弈 2 相关例子 3 相关条目 什么是不完全信息动态博弈 在动态博弈中,行动有先后次序;在不完全信息条件下,博弈的每一参与人知道其他参与人的有哪几种类型以及各种类型出现的概率,即知道“自然”参与人的不同类型与相应选择之间的关系,但是,参与人并不知道其他的参与人具体属于哪一种类型。由于行动有先后顺序,后行动者可以通过观察先行动者的行为,获得有关先行动者的信息,从而证实或修正自己对先行动者的行动。 在不完全信息动态博弈一开始,某一参与人根据其他参与人的不同类型及其所属类型的概率分布,建立自己的初步判断。当博弈开始后,该参与人就可以根据他所观察到的其他参与人的实际行动,来修正自己的初步判断。并根据这种不断变化的判断,选择自己的策略。 相关例子 以下是几个关于不完全信息动态博弈的例子: 1.黔驴技穷 精炼贝叶斯均衡是完全信息动态博弈的子博弈精炼纳什均衡与不完全信息静态博弈的贝叶斯纳什均衡的结合。贝叶斯方法是概率统计中的一种分析方法。它是指根据所观察到现象的有关特征,并对有关特征的概率分布的主观判断(即先验概率)进行修正的标准方法。中国著名成语故事黔驴技穷,就是贝叶斯方法思想的一个典型表达。 老虎没有见过驴子,因而不知道自己比驴子强还是弱。老虎的战略是:如果自己弱,那就只能躲,如果自己强,那就吃驴子。对于自己并不了解驴子,老虎的做法是不断试探,通过试探,修改自己对驴子的看法。如果驴子表现温顺无能,老虎就认为驴子是美食的概率比较大,起初驴子没有反应,老虎认为驴子不像强敌,胆子越来越大。后来驴子大叫,老虎以为驴子要吃它,吓的逃走,但后来想想,又觉得不一定,于是继续试探,直到驴子踢老虎,老虎才觉得驴子“仅此技耳”,于是采取自己强时的最优行动——吃驴子。 2.信号传递 由于信息不完全,每个人都希望向对方传递对自己有利的信号。比如,在招聘时,应聘者总是显示自己最好的一面。谈判中,企业总是把最能显示自己实力的一面展示出来。公司越来越注意企业形象的塑造。女孩子总是把自己打扮得漂亮。人们总是把最好的衣服穿在外面。等等。问题是,对方不一定相信你所传递的信号是真实的。有的信号,一下子是难以识别真伪的,需要时间。所以,“百年老店”是最好的信号传递方式。 曾经有几家美国的企业联合控告日本公司倾销,美国法院的判决是:控告不成立,因为不可能有哪家公司能够长期采用低于成本的价格。所以,长期采取低价策略的企业传递的信号是:我是低成本的,你成本高,别来。 长期在CCTV黄金时段做广告的厂商传递的信号是:我有实力,企业经营一直不错。出示自己的高学历证书和各种获奖证书的求职者传递的信号是:我是一个优秀的应聘者。有的小公司对业务采取不冷不热的态度,传递的信号是:我不愁没业务做。故意装着要离开的顾客传递的信号是,把价格再降点,否则我走了。初恋时经常找不怎么符合逻辑的借口去找对方但又不说出口,传递的信号是,我对你有意思,你呢?当然指望是对方先说出来。 由于对方不一定相信你传递的信号,而甄别信号需要成本,所以,一定要传递可信(可观测)、并且甄别成本低的信号。 为什么招聘单位看重学历,因为学历容易甄别,而且比起能力的描述来,相对可靠;为什么顾客喜欢买名牌产品,因为名牌是经过很多年才形成的,广告、产品质量、服务质量等因素起了很大的作用,名牌传递的信号就是:质量好,服务好。 教育信号传递模型是分析劳动力市场上工人的教育水平如何传递有关能力的信息的模型。在这个模型里,企业的生产率取决于工人的能力。工人的能力可能高可能低,工人本人知道,雇主不知道;教育本身不改进工人的能力,但却可以传递有关这种能力的信息,原因是,教育要花费成本,而高能力的人的教育成本相对于低能力的人的要低,因为一个笨蛋要比一个聪明人遭受更大的痛苦才能完成必修的课程,拿到文凭。这样,文凭就成为能力的象征,尽管它不一定是能力的源泉。高能力的人要把自己与低能力的人分开,就要选择受更多的教育,企业看到受过教育的人就推断是高能力,支付高工资。如果这个模型是正确的话,我们也许不应该简单地因为所学内容无用就否定一种教育制度,如中国古代社会的科举制度,它或许也具有信号传递的功能。 一种行动要起到某种传递信息的功能,行动者必须为此付出足够的成本,否则,所有其他类型的参与者都会模仿。这也就是说,只有负担成本的行动才是可信的。简单地告诉对方“我是低成本企业”、“我是强者”、“我是好人”、“我是高能力的人”之所以不传递信息,就是因为这类“行动”不花成本,谁都可以效仿。低成本企业要把自己与高成本企业分开从而阻止进入者进入,就得定一个比短期垄断价格低的价格牺牲一部分短期利润;强者要把自己与弱者分开以免遭持强欺弱者的进攻,就要吃比一般情况下多的辣椒;好人要把自己与坏人分开,就得干更多更大的好事;高能力的人要把自己与低能力的人分开,就得接受没有实际价值的教育,如此等等。 这种为传递信息支付的成本是由信息的不完全性导致的。那么,是不是说不完全信息就一定是件坏事呢?不一定。在有限次重复囚徒困境博弈中,不完全信息可以导致合作的后果,而在完全信息下是不可能的,理由是,当信息不完全时,当事人为了获得合作带来的长期利益,不愿过早地暴露自己的本性。说得更通俗一点,在一种长期的关系中,一个人干好事还是坏事常常不取决他在本性上是好人还是坏人,而很大程度上取决于其他人在多大程度上认为他是好人。给定其他人并不知道自己的真实面目,一个坏人也会在相当长的时间内干好事。从这个意义上讲,过早地揭穿坏人的“真面目”也许不是一件好事,因为坏人干好事本身并不一定是件坏事。当然,在博弈的最后阶段,坏人的真实面目总是要暴露的,这就是我们常说的“路遥知马力,日久见人心”。 相关条目 不完全信息静态博弈 完全信息动态博弈 完全信息静态博弈 博弈论
目录 1 概述 2 相关条目 概述 不完全信息静态博弈,是指至少某一个局中人不完全了解另一个局中人的特征,即不知道某一参与人的真实类型,但是知道每一种类型的出现的概率。 古巴导弹危机 二战后,美国和苏联两个超级大国形成了对峙,组成了两大敌对阵营。1962年苏联偷偷地将导弹运送到古巴对付美国,但却被美国的侦察机发现,于是美国决定对古巴进行军事封锁,美苏之间的战争一触即发。面对美国的反应,苏联面临着是将导弹撤回国还是坚持部署在古巴的选择。而对于美国,则面临着是挑起战争还是容忍苏联的挑衅行为的选择。博弈矩阵如下: 美国 进攻撤退 苏联 进攻Va,Vb6,-6 撤退-6,6-3,-3 在这个博弈中,假设Va,Vb∈{1,-4},如果双方都选择进攻,则会发生一场战争。对每一方而言,如果决策者属于鹰派,则会选择进攻,其支付为1;如果决策者属于鸽派,则可能会选择撤退,其支付为-4。每一方都知道自己属于哪一派,但这一信息是自己的隐私,所以说这是一个不完全信息博弈问题。又因为双方的行动有先后顺序,但是后行动者美国并不知道先行动者苏联所采取的行动,只能通过所掌握的有限信息进行归纳,从而预测出对方可能会采取何种策略,因此它也是一个静态博弈。 在美国对苏联的行动考虑对策时,可以选择的策略有多种,从默许到温和的制裁直至全面对抗,事实上,它选择了最强烈的反应并取得了成功。美国这样推理:如果苏联采取进攻,那么当Va=1时,他的最好反应是进攻;而当Va=-4时的最好反应是撤退。如果苏联选择撤退,那么无论他的私人信息是什么,他的最好反应都是进攻。此外,根据美国情报部门所掌握的信息和对对手苏联决策层的估计,即赫鲁晓夫的强硬姿态背后苏联内部对此各种态度的冲突和综合,苏联的实力、赫鲁晓夫执行其意旨的能力等估计的基础上,美国当局做出了正确的反应。虽然苏联也可以这样推理,但是赫鲁晓夫错误地估计了对方的反应,认为美国会容忍这种后果,而事实相反。所以说,这是一种不完全归纳推理,即从若干个个别性前提推出一个特称结论的推理。 [1] 海萨尼转换 在假定局中人拥有私人信息的情况下,其他局中人对特定局中人的支付函数类型是不清楚的。如果一些局中人不知道另一些局中人的支付函数,或支付函数不是共同知识,局中人就不知道他在与谁博弈,博弈的规则是没有定义的。因而在1967年以前,博弈论专家认为此时博弈的结构特征是不确定的,无法进行分析。海萨尼提出了一种处理不完全信息博弈的方法,即引入一个虚拟的局中人——“自然”。自然首先行动,它决定每个局中人的特征。每个局中人知道自己的特征,但不知道别的局中人特征。这种方法将不完全信息静态博弈变成一个两阶段动态博弈,第一个阶段是自然N的行动选择,第二阶段是除N外的局中人的静态博弈。这种转换被称为“海萨尼转换”,这个转换把“不完全信息”转变成为完全但不完美信息,从而可以用分析完全信息博弈的方法进行分析。 相关条目 不完全信息动态博弈 完全信息动态博弈 完全信息静态博弈
概述所谓贝叶斯纳什均衡是指这样一组策略组合:在给定自己的特征和其他局中人特征的概率分布的情况下,每个局中人选择策略使自己的期望支付达到最大化,也就是说,没有人有积极性选择其他策略。 纳什均衡(Nash Equilibrium)和子博弈完美纳什均衡(Subgame perfect Nash equilibrium)所反映的博弈都包括了一个基本假设:即博弈的结构、博弈的规则、所有局中人的策略空间和支付函数(payoffs)都是共同知识(common knowledge)。满足这样一个假设的博弈称为“完全信息博弈”(games of complete information)。但在现实生活中这一假设往往得不到满足。在非合作博弈论中,局中人对博弈的结构以及其他局中人的特征并没有准确的知识的情况叫“不完全信息博弈”(games of incomplete information)。举例在1967年以前,博弈论专家对不完全信息博弈是束手无策的。 Harsanyi(1967—1968)的贡献解决了这个问题,填补了博弈论乃至经济学的一大空白,他也因此而获得了诺贝尔经济奖。John C.Harsanyi引入了一个虚拟的局中人——自然(nature)。与一般的局中人不同,“自然”没有自己的支付和目标函数,即所有结果对它而言是无差异的。自然首先行动,决定局中人的特征。被选择的局中人知道自己的真实特征,而其他局中人并不清楚这个被选择的局中人的真实特征,仅知道各种可能特征的概率分布。另外,被选择的局中人也知道其他局中人心目中的这个分布函数,也就是说,分布函数是一种共同知识(common knowledge)。John C.Harsanyi的这项工作被为“Harsanyi转移”(the Harsanyi transformation),通过这个转换,John C. Harsanyi把“不完全信息博弈”转换成“完全但不完善信息博弈”(complete but imperfect information)。这里“完全但不完美信息” 指的是,自然作出了它的选择,但其他局中人并不知道它人具体选择是什么,仅知道各种选择的概率分布。这样一来,不完全信息博弈就变得可以进行分析了。在这个基础上,John C.Harsanyi定义了贝叶斯纳什均衡(Bayesian-Nash equilibrium)。 应用举例说明 某一市场原来被A企业所垄断。现在B企业考虑是否进入。B企业知道,A企业是否允许它进入,取决于A企业阻挠B企业进入所花费的成本。如果阻挠的成本低,A企业的占优战略是阻挠,博弈有重复剔除的占优战略均衡——A阻挠,B不进入。如果阻挠的成本高,A企业的占优战略是默许B进入,博弈有重复剔除的占优战略均衡――A默许,B进入。B企业所不知道的,是A企业的阻挠成本是高是低。这里,某一参与人本人知道、其他参与人则不知道的信息称为私人信息。某一参与人所拥有的全部私人信息称为他的类型。在上述例子中,阻挠成本就是A的私人信息。高阻挠成本和低阻挠成本则是两种不同的类型。 B所遇到的,是不确定性条件下的选择问题。因为B不仅不知道A的类型(是高还是低),而且不知道不同类型的分布概率。 对于挑战者B来说,原垄断者A在阻挠成本方面,存在着两种可能性:高成本或低成本。B不知道A的阻挠成本究竟是高是低,但他知道A在这两种不同阻挠成本下会作出的选择,以及不同阻挠成本(类型)的分布概率。假定高成本的概率为x,则低成本的概率为(1-x)。如果A的阻挠成本高,A将默许B进入市场;如果A的阻挠成本低,A将阻挠B进入市场。在这两种情况下,B进入的支付函数分别是得到40和失去10。因此,B选择进入所得到的期望利润为40x+(-10)(1-x),选择不进入的期望利润为0。简单的计算表明,当A阻挠成本高的概率大于20%时,挑战者B选择进入得到的期望利润大于选择不进入的期望利润。此时,选择进入是B的最优选择。此时的贝叶斯纳什均衡为,挑战者B选择进入,高成本原垄断者选择默许,低成本原垄断者选择阻挠。[1]
博弈逻辑博弈论研究人类活动中的互动行为,在经济学中得到广泛的运用。在博弈论中,人类的所有活动,只要是互动行为,均可以看成是博弈行动。在此基础上,一种新的逻辑“博弈逻辑”(game logic)得以兴起,它是一种特殊的行动逻辑(action logic)。博弈逻辑是研究“理性的”行动者或参与者在互动的过程中如何选择策略或如何做出行动的逻辑。本文从博弈逻辑的概念与研究对象着手,阐述了博弈逻辑的基本内容、国内外研究现状及博弈逻辑研究存在的问题与发展前景。构成要素1、博弈的参与者players。博弈中的每个独立参与者可称为一个“博弈方”。博弈方可以是个人,也可以是决策团体。有时自然也可以成为博弈方。比如,在风险型博弈和不确定型博弈的一人博弈中,自然就是一个博弈方。 2、博弈方各自可选择的全部策略Strategies或行为Actions的集合。一个策略是一套完整的行动方案,它事先确定一个博弈方在对局过程中出现的一切可能情况下采取什么方法或做法。在不同的博弈中可供博弈方选择的策略或行为的数量很不相同,即使在同一博弈中不同博弈方可选策略或行为也常不同,有时只有有限的几种,而有时又有可能有许多种,甚至无限多种。 3、博弈方的得益Payoff。对应于各博弈方的每一组可能的决策选择,博弈都有一个结果表示各博弈方在该策略下的所得和所失。博弈中的这些可能结果的量化数值,称为各博弈方在相应情况下的“得益”。规定一个博弈必须对得益做出规定,得益可以是正值,也可以是负值,它们是分析博弈模型的标准和基础。 通过上述方法定义了各种博弈行为,由此也就确定了博弈逻辑的研究对象。 基本内容讨价还价博弈树在博弈逻辑中,依据博弈方数量的不同,可以对其进行不同的划分。学术界目前有两种不同的观点。大多数学者的观点是将其划分为二人博弈逻辑和多人博弈逻辑;还有一些学者,将一人博弈逻辑也纳入进来。按照他们的观点,博弈逻辑可划分为一人博弈逻辑、二人博弈逻辑和多人博弈逻辑。本文对这两种观点持有异议,认为一人博弈逻辑中的风险型个人博弈逻辑和不确定型个人博弈逻辑可以纳入进来,而不应当包括确定型个人博弈逻辑。理由如下: 第一,博弈逻辑中至少应存在两个独立的博弈参与者(博弈方)。 第二,在“风险型个人博弈”和“不确定型个人博弈”中,我们可以把自然看作是与个人相对的另一个博弈方,可看作是“一人对自然的博弈”。在这两类博弈中,结果受到自然的影响,个人不能完全支配结果,因为他的选择并不导致能够确定预测的结果。这两类博弈的结果部分地取决于个人的选择,部分地依赖于一个虚构的博弈方(自然)的选择,当然,自然的选择不是自觉的、有意识的。有了自然这个虚构的博弈方,一人对自然的博弈就可以纳入博弈逻辑分析的范围了。 第三,有些学者提出的“确定型个人博弈”,其特点是个人完全支配着行动的结果。而且他的每一行动的结果既不受他人的干预,也不受自然的影响。它是一种完全没有对手的局面——没有选择的相互依赖性,因此不是博弈逻辑所研究的范围。 由此,认为博弈逻辑包含以下几方面的内容: 1、一人博弈逻辑。一人博弈逻辑即以个人和自然分别为博弈方的逻辑,包括风险型个人博弈逻辑和不确定型个人博弈逻辑。风险型个人博弈逻辑中,决策者本人要同自然做斗争,他不能确切地知道会出现哪一种可能的自然状态,但是能够有意义地给自然状态分配概率,即能够确定或推算每一可能状态的频率。比如,抽奖就是一个典型例子,根据奖券总数和得奖数,可以推算出一张奖券得奖的概率。而在不确定型个人博弈逻辑中,可能结果的概率估计没有足够的统计数据或频率可以依据,因此很难给自然状态分配概率。比如一个病人患了疑难病症,医生要在几种治疗方案中选择一种,而这种治疗方法能治好他疾病的概率是很难计算的。一人博弈逻辑是博弈逻辑的基础。 2、二人博弈逻辑。二人博弈逻辑就是两个各自独立决策,但策略和利益具有相互依存关系的博弈方如何合理选择策略的逻辑。根据博弈中的得益情况,二人博弈逻辑又可分为二人零和博弈逻辑和二人变和博弈逻辑。二人零和博弈逻辑研究的是博弈双方得益之和等于零的情况,在这种博弈中,博弈方的利益是完全相反的,没有任何调和的余地。而在二人变和博弈逻辑中,博弈方的利益不是完全相反的,而是部分一致部分矛盾的,这两个博弈方在不同策略组合下各博弈方的利益之和往往是不同的。 3、多人博弈逻辑。多人博弈逻辑也是博弈方在意识到其他博弈方的存在,意识到其他博弈方对自己决策的反应和反作用存在的情况下,为寻求自身最大利益而采取行动的逻辑。多人博弈逻辑有三个或三个以上的博弈方。根据博弈的规则,多人博弈逻辑可分为合作博弈逻辑和非合作博弈逻辑两类。 此外,学术界中对博弈逻辑还有其他的分类,如根据信息结构分为完全信息博弈逻辑和不完全信息博弈逻辑;根据博弈过程可分为静态博弈和动态博弈。这些分类都是很有意义的,可以从不同方面、不同角度切入,从而对博弈逻辑进行更深入的探讨和研究。 主要理论博弈论研究多个理性人在互动过程中如何选择自己的策略。理性的人是使自己的目标或得益最大化的人,在经济活动中理性的人即是使经济目标最大化的人——经济人。理性人如何使得自己的“得益”最大?关键是“推理”。 博弈逻辑中存在着两种研究纲领。第一种研究纲领是结合模态逻辑系统,建立新的博弈逻辑系统。在这方面,日本筑波大学的金子守(Mamoru Kaneko)教授是这方面的权威。近几年,他在国际刊物上发表了大量有关博弈逻辑方面的论文。他不仅在模态逻辑系统的基础上建立了多个博弈逻辑 (game logic)系统,而且,建立了与博弈逻辑密切相关的公共知识逻辑(common knowledge logic)系统。第二种研究纲领是研究博弈活动中的实际“推理问题”,许多博弈论专家在此方面做了大量的工作。 根据博弈论,人们在实际的博弈活动中涉及到两种推理:演绎推理与归纳推理。然而,正如传统逻辑中存在着悖论(演绎悖论和归纳悖论),在博弈逻辑中同样存在着悖论。 中国状况在国内,博弈论的发展相对比较成熟。在理论上相对比较完善,出版了一系列博弈论的专著。有代表性的专著有:张维迎著《博弈论与信息经济学》(上海人民出版社,2000);施锡铨著《博弈论》(上海财经大学出版社 2000);张守一著《现代经济对策论》(高等教育出版社,1998)等。博弈论的应用也日趋广泛,博弈论广泛地应用于企业管理、国际关系、国际贸易、税收等各个领域。主要著作有:雷霖著《现代企业经营决策---博弈方法应用》(清华大学出版社,1999);王国成著《竞争对策:博弈论在企业经营管理中的应用》(企业管理出版社 1997);冯跃威著《石油博弈》(企业管理出版社,2003);刘德铭黄振高编著《对策论及其应用》(国防科技大学出版社1995)等。在中国,一些学者将博弈逻辑主要领域定位在对博弈活动中的实际推理问题进行研究。主要代表人为南京大学哲学系的潘天群教授。他在2003年5月出版了《博弈生存——社会现象的博弈论解读》一书(中央编译出版社)。并于2003年3月在《自然辩证法研究》上发表了《博弈行为中的演绎与归纳推理及其问题》一文,对博弈逻辑进行了相关的论述,指出博弈逻辑是用逻辑的方法研究多主体互动过程中的推理过程,它研究博弈中的推理问题。我对潘教授的观点不完全赞同。博弈逻辑是理性的人在互动过程中如何合理选择策略或采取行动的逻辑。博弈逻辑如果仅限于研究博弈中的推理问题,那么它的研究领域就太窄了,不利于博弈逻辑进一步的发展。因而,我把博弈逻辑的研究对象定位为博弈行为或博弈行动,对博弈行为进行的逻辑分析都可纳入博弈逻辑的研究领域。博弈逻辑通过对博弈行为的分析,把握博弈过程中各博弈方相互制约、相互作用的规律,导出合理的结果并用以说明相应的实际问题。当然,对博弈逻辑的研究和定位需要大量的专家和学者加入进来,对其做进一步的探讨和研究,从而彰显其理论和应用价值。发展前景1、博弈逻辑不仅要研究“完全理性”的博弈行为,也要研究“有限理性”条件下的博弈行为,即博弈方的判断选择能力有缺陷情况下的博弈行为,这也是今后发展的方向之一。目前,博弈逻辑在理论方面还存在一些不足。比如说博弈逻辑中理性人的假设前提,即假定博弈方都是理性的。然而,博弈行为通常包含复杂的相互依存关系,博弈分析往往是很复杂的,人们很少能够一贯地按理性原则行动尽管看上去按特定目标选择最佳行动似乎理所当然但人们在生活中有时由于情感、心理等因素的影响而不去追求“合理的”目标或者目标合适时却无能力选择最佳的策略。因此,如果我们只是在“完全理性”假设下进行博弈分析,显然是不够的,会影响博弈逻辑的适用范围和价值。许多学者已对此提出质疑。对这类问题的考虑和分析引出了博弈逻辑理论研究的许多有价值的课题,拓宽了博弈逻辑的研究领域,使得博弈逻辑在今后有巨大的发展潜力。2、深化不完全信息博弈逻辑研究。经典的博弈逻辑是建立在完全信息的基础之上的,但是在现实中,决策者往往很难做到对自己及竞争对手信息的完全掌握。信息的不充分和不对称通常使人们判断和决策的难度增加,对决策和博弈的结果产生很大的影响,不分析这种情况下的博弈行为,博弈逻辑就会产生很大的局限性。但是,迄今人们对不完全信息环境下的博弈逻辑研究还不够深入。因此,将博弈逻辑与信息经济学相结合,深化研究不完全信息环境下博弈逻辑也是今后研究的重点之一。国外同行已经作了一些有益的探索。3、注重信息失真情况下的博弈逻辑研究。在现实博弈活动中,博弈双方有时对对手进行信息欺骗,博弈方所获取的信息往往是真真假假。而经典博弈逻辑理论是建立在无虚假信息这个假设的基础之上的。因此展开信息失真环境下的博弈逻辑研究亦是今后的发展方向之一。4、随着博弈逻辑理论的不断完善,博弈逻辑将广泛地应用于政治、法律、管理、贸易、金融等各个领域。博弈逻辑研究将在这些应用领域提出新的课题,推动博弈逻辑理论的新发展。博弈逻辑的理论与其应用成果之间将形成相互促进的良性循环。这是今后博弈逻辑进一步发展的巨大动力。这将吸引大量的学者加入到这支研究队伍中,为博弈逻辑的研究注入新的活力。举例分析一个分蛋糕的例子:n个人分一块大蛋糕,每个人都希望能最大化自己的所得,那么怎么分才公平呢?(这里的公平是指每个人都认为自己可以使自己分得的那部分不少于1/n。) 如果n=2,可以使用历史悠久的“我分你选”算法,可以实行公平的分配。当n>=3时,有几种可能的分法。我们讨论一种“修整法”:当第一个人切下一块“属于”他的蛋糕时,这块蛋糕必须由其他n–1个人进行审查,在审查过程中,如果有人觉得这块蛋糕太大,可以对它进行修整,切下的那些放回原处。蛋糕被轮流检查过以后,如果这n-1个人当中没有任何人修整它,这块蛋糕就属于第一个人,如果至少有一个人对它进行了修整,那么这块蛋糕就属于最后一个修整它的人。这种算法能保证蛋糕的公平分配,我们可以通过博弈逻辑这一工具对此加以证明。 参考资料[1] 中国社会科学院 http://www.cass.net.cn/file/2004122028967.html
目录 1 概述 概述 均衡是平衡的意思,在经济学中,均衡意即相关量处于稳定值。在供求关系中,某一商品市场如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能卖出,此时我们就说,该商品的供求达到了均衡。 博弈均衡是指使博弈各方实现各自认为的最大效用,即实现各方对博弈结果的满意,使各方实际得到的效用和满意程度是不同的。在博弈均衡中,所有参与者都不想改变自己的策略的这样一种相对静止的状态。 应用博弈各方的关系不仅体现一种利益上的竞争,更要体现出各方的合作关系。比如,企业间通过收购、兼并等方法进行资产重组,以实现其双赢战略,正是博弈均衡的现实体现。博弈实质上是由动态的竞争(讨价还价)到相对静态的合作”博弈均衡“的一个变动过程,所以博弈均衡不仅是市场竞争的需要,也是企业发展的内在要求。 思想的演化 著名经济学家马歇尔早就说过,经济学有两大研究路径:一是沿着来源于经典牛顿力学的均衡思想;一是沿着来源于生态学的演化思想。纵观经济学的发展历史可以看出这两种思路一直在此起彼伏地斗争着。1890年马歇尔出版了标志着新古典经济学形成的《经济学原理》[1]一书后,均衡思想占据了统治地位,成为经济学家研究的主要方法。运用数学领域的“不动点定理”证明纳什均衡(Nash1951)[2]的存在性,使得纳什成为第一个用不动点定理于经济学研究的经济学家,他因此获得了1994年的诺贝尔经济学奖;此后,经济学家德布鲁(Debru1954)[3]应用“不动点定理”证明了一般均衡的存在而获得了1983年的诺贝尔经济学奖,他们的工作把均衡思想推向了高潮。物理学的中均衡就是不动,其前提条件就是:物理学中的变量多数是可以控制的,并且一般是与时间无关的。但运用均衡思想来研究在时间上不满足可逆性的社会人行为就显得有点牵强附会了,为了迎合均衡思想,经济学家给参与人附加如理性、完全信息等不切实际的假定,使得经济学离现实越来越远了,这正是理性框架下难以得到合理结论的一个主要原因。随着经典博弈理论、生态理论及心理学理论研究的深入发展,特别是心理学家西蒙把其在心理学领域研究的成果直接应用经济分析并因此获得了诺贝尔经济学奖,极大地激励着经济及社会学家从现实人行为出发来解释经济及社会现象,2002年诺贝尔经济学奖授予给丹尼尔·卡内曼标志着经济学的研究对象从传统的“经济人”转向现实的“社会人”,从现实社会人出发的演化经济学、进化博弈理论等获得了迅速发展,从均衡思想的演化来看,越来越多经济学家把注意力转向了进化稳定策略(MaynardSmith,J.andPrice.G.R(1973))[4]与随机稳定状态(FosterandYoung1990)[5]等的研究、从短期均衡转向了长期稳定性研究,所用的均衡概念从纳什均衡到进化稳定均衡再到了随机稳定性,从理想化的世界慢慢地转向了现实世界。 非合作博弈理论中最基本的均衡概念就是纳什均衡,它只能描述均衡点的局部静态性质;进化博弈理论基本均衡概念就是进化稳定策略,它是也是一个静态概念,但可以描述系统的局部动态性质;进化博弈理论另一个重要概念就是随机稳定状态,它是一个动态概念,能够描述系统的全局动态性质。与前两者不同,随机稳定状态并不是不动的,它只能描述系统的一种长期行为,从长期来看,系统在随机因素影响下绝大多数时间都处于某个均衡,下面分别阐述三个概念。 纳什均衡思想及其内涵非合作博弈论研究面对利益冲突的个体互动时,参与人的策略反应。给定利益冲突每一个参与人必须从既定的选择集中作出选择。在博弈论中选择就是策略,选择集就是策略集。每一个参与对选择集中的各个策略都有既定的偏好,所有参与人的选择决定了博弈的结果。 博弈论关心的问题之一是:面对特定博弈,其解是什么?博弈论的最重要的解就是由博弈论理论家Nash(1951)在研究非合作博弈问题时提出来的纳什均衡。所谓纳什均衡策略是一个策略组合,是指在其他参与人选择一定的条件下,每一个参与人都选择获得最大支付的策略,换句话说,纳什均衡状态就是任何单独偏离不会得到改善的一种状态。下面给出纳什均衡的正式定义(张维迎《博弈论与信息经济学》1994,P69)[6]: 定义:有个参与人的战略表示式博弈,策略组合是一个纳什均衡,对每一个参与人,都是给定其他参与人选择时第个参与人的最优选择。 其实在求解纳什均衡时,就是解联立的偏微分方程组。显然,纳什均衡是一个局部最优而非全局最优均衡概念,因此,纳什均衡并不能保证就是支付最高的不动点[1]。由此便引出了帕累托效率均衡:没有所有参与人都得到更高支付的其他选择的均衡就是帕累托效率均衡,用数学语言来描述(Menasché.D.S.et.al.(2005)) 博弈论关心的问题之二是:参与人是如何进行策略选择的,为什么会选择纳什均衡策略?非合作博弈理论假定参与人是完全理性的,在处理动态博弈时,还要求参与人满足序贯理性[2]这一比理性更强的要求。在如此强的假定下,参与人会对世界的任何变化都会作出最优反应,因此,如果存在均衡,那么参与人总会选择均衡策略,但在处理多重要均衡问题时,由于参与人难以推测对方的反应,因此,无法在多重均衡之间进行选择,尽管博弈论理论对此进行了广泛而深入的研究,但正如KenBinmore在给Weibull(1995)[8]的“evolutionarygametheory”一书作的序言中指出:“HoweverdifferentgametheoristsproposedsomanydifferentrationalitydefinitionstheavailablesetofrefinementsofNashequilibriumbecameembarrassinglylarge,EventuallyalmostanyNashequilibriumcouldbejustifiedintermsofsomeoneorother’srefinement”。有关纳什均衡算法可参阅王则柯,李杰(2005)[9]。进化稳定策略思想进化稳定策略这一进化博弈理论的基本均衡概念是由生态学家MaynardSmith,J.andPrice.G.R(1973)在研究生态现象演化时提出来的。原初定义(见张良桥2003)[10]有许多限制条件如对称博弈、孤立的随机冲击、参与人数目无限多等等。尽管许多理论家从不同的方面对此概念进行了拓展,但他们提出的原初概念却能够很好表达出进化稳定策略的含义。下面先给出MaynardSmithandPrice(1973)的原初定义,然后,我们给出一种计算博弈进化稳定策略的方法。 设是矩阵,由于是对称博弈,因此可以用第一个参与人的支付矩阵来描述整个博弈,其中表示策略者与策略者博弈时,策略者所得的支付。概率向量(也就是混合策略),其中。 说策略是进化稳定的,如果满足: 并且,对,若有,那么就要满足: 条件(4)说明了进化稳定策略一定是纳什均衡策略,条件(5)说明弱纳什均衡策略必须要满足的附加条件。显然,在对称博弈中,严格纳什均衡策略一定是进化稳定策略。 直观含义:首先,我们可以看出所有进化策略都是纳什均衡策略,所进化稳定策略集是纳什均衡策略集的子集,非纳什均衡策略就不是进化稳定策略;其次,由定义中的两个条件可以得出,稳定策略者与稳定策略者群体博弈时,突变策略者不会比稳定策略者好;如果突变策略者与稳定策略者一样好,那么,突变者策略与突变策略群体博弈时,就没有稳定策略者与突变策略群体博弈时好。也就是说,稳定策略具有对少数突变者的免疫力,在稳定状态时,突变者是不容易侵入的。进化稳定策略的算法 计算进化稳定策略的方法主要有两大类:一是从动态过程出发,求出系统的平衡点,然后,再根据进化稳定策略的定义进行验证就可以了;另一种方法就是直接用进化稳定策略定义来求。第一种方法涉及到具体的动态过程,并且只要知道动态过程就很容易求出进化稳定策略,本文略(可以参考张良桥2001)[11]。第二种方法就是通过定义来求,下面给出一种简单的处理方法。 根据纳什均衡的定义可以知道,如果策略是博弈的纳什均衡,那么,所有以正概率进入最优混合策略的纯策略都是最优的,参与人在所有这些纯策略所得的支付都是无差异的(见《博弈论与信息经济学》102-103页,张维迎),即有: 表示混合策略中非零概率的纯策略。假定存在且下标为的纯策略满足,令B是矩阵A中对应于非零纯策略的阶子矩阵。且令C为矩阵,其中代表元素为:。那么当且仅当C是负定的,就是进化稳定策略(见JohnHaigh1974)[12]。 证明:假定,并且存在,有,那么很明显有,其中是第个纯策略,即在与稳定策略者群体博弈时,突变策略者得到的支付比稳定策略者还要大,所以策略不是进化稳定策略,所以式(6)是进化稳定策略的必要条件。因此,对应于非零概率的纯策略满足:,对满足条件的策略有(注意): 对任意,当且仅当 有:。综上所述,利用该方法来求进化稳定策略的步骤如下: 首先,令个非零混合策略,然后解个方程:,定义B,C再考察矩阵C的所有特征根是否都为负,若都是负则所得的策略就是进化稳定策略。 如求对称博弈,它有两个进化稳定策略:。 如果某策略组合是严格纳什均衡策略,那么就可以直接得出它就是进化稳定策略,但如果是弱纳什均衡策略,那么就可运用上述的方法来进行判定。由此,可得到求博弈的进化稳定策略步骤:一是求出博弈所有的纳什均衡;二是由支付判断出其中的严格纳什均衡;三对非严格纳什均衡而言就代入上述方程,并判断是否为负定即可以求出博弈中所有进化稳定策略。 2.3随机稳定状态思想及其内涵 MaynardSmith,J.andPrice.G.R(1973)提出的进化稳定策略概念要求突变因素不连续且不重叠,它只能描述在单个随机因素影响下任何偏离均衡状态的行为都会随着时间的演化自动回复到原来的进化稳定状态。现实中,经济系统常常会受到来自突变和其他偶然事件的冲击,这些因素可能会对系统产生不可忽略的影响,FosterandYoung(1990)认为,首先,原初ESS概念把影响系统的因素都看成是一个个孤立的事件,假定一个因素的影响消失以后,再考虑另一个因素对系统的影响,而在现实中系统常常会受到连续的随机冲击。事实上,现实中出现上述情况纯属偶然现象,一个只能处理偶然现象的理论是没有任何存在价值,尽管单个随机因素对动态系统的影响较少,但它们却可能对系统产生累积作用而定量地改变系统的稳定性,使得系统离开进化稳定状态,系统什么时候回复到当初的进化稳定状态,依赖于动态过程的全局结构;其次,原初ESS定义是一个局部概念,因此在考虑随机冲击时就不能作为判断系统稳定性的标准;再次,由于系统的极限行为依赖于初始条件,同时在吸引子集合中只有一部分状态是随机稳定的,且随机稳定状态的选择还依赖于随机过程特定的结构,因此,ESS和没有充分地考虑到随机因素对进化系统影响的吸引子(Attractor)在描述随机系统的稳定性时都不理想。 2.3.1随机稳定状态的定义 一般的进化模型中参与人都是选择那些相对于群体分布的最优反应策略,群体分布随着时间的演化而为不断变化的,这是一种奈特不确定性,并且在这种动态下,系统一定会收敛到协调博弈的严格纳什均衡,偶尔也可能出现极限环的情况,运用进化稳定策略概念依然无法在严格纳什均衡之间作出选择。Young(1990)首次把影响系统的随机因素纳入到进化模型之中并提出了既不同于传统ESS也不同于吸引子(Attractor)的随机稳定性(StochasticStability)概念,把均衡选择问题转变成不同均衡的吸引域宽度比较问题,有最宽吸引域的均衡就是随机稳定状态。随机稳定状态的定义如下: 定义:群体向量是随机稳定的,如果随着随机影响,极限密度对的每一个小邻域都赋有正概率;更准确地说:其中。其中是当时,的极限分布,表示随机因素对系统所产生的影响。 粗略地说,一个状态P是一个随机稳定的,如果在长期中,随着随机冲击因素影响的不断变少,系统几乎一定(nearlycertain)不会离开P的任意少的邻域。随机稳定的群体向量总是存在的,它有如下性质:随着及,它是一个最小闭集。根据上述定义,随机稳定状态与系统所定义的动态有关,如果是支付单调动态并且有不变突变率,随机稳定状态直接由吸引域的宽度确定(参阅Young(1993)[13];MichihiroKandori,GreorgeJ,.Mailath,RafaelRob(KMR)1993[14];GlennEllison2000)[15]。 2.3.2随机稳定状态的算法 随机稳定状态是描述系统长期行为且由概率来定义的。如果系统是连续情形,那么可根据FosterandYoung(1990)通过求系统随机潜力的方法来求随机稳定状态,即有最小随机潜力的状态就是随机稳定状态。而现实中,多数情况都是离散的,下面将根据Freidlin,M.IandWentzell,A.D.(1984)[16]的方法来给出有多个常返状态情形下随机潜力的计算方法。该方法首先要求每个参与人在任何状态任何时候都以相同且不为零的突变率选择其他任何策略,这样就可以保证系统的遍历性,从而存在平稳分布。假定系统有五个状态,并且每两个状态之间的阻抗(左图中箭头上的数字表示从一个状态到另一个状态的阻抗,右图是根据左图计算出来的): 状态之间没有标明数字就说明阻抗是无限大(其中的阻抗是根据突变率的指数来确定的),由上右表可以求出转移概率(因为我们只是为了求各个常返状态的阻抗,没有写出转移概率)。显然:该系统有四个常返状态。,,,,则不同常返状态之间的最小阻抗为(实际已经找到了常返状态之间的最短路径) 四个常返状态对应的随机潜力分别为1536。因此,该动态系统的随机稳定状态就是具有最小随机潜力的状态即为。本例中直接给出各箭头旁边的数字,其目的是为了使问题简化,实际上它表示从一个状态到另一个状态的阻抗,在解决实际问题时,需要具体分析;另外,此例没有深入到突变产生的过程中去,突变率的不同系统的随机稳定状态就不同。[1]
概述变和博弈也称非常和博弈,则是指随着博弈参与者选择的策略不同,各方的得益总和也不同。如在同一个股票市场,面对同样的大盘走势,伴随着投资者的投资策略不同,有可能大部分人赚钱而小部分人亏钱,也有可能小部分人赚而大部分人亏,甚至还有可能所有人都赚或都亏。 变和博弈是最一般的博弈类型,而常和博弈和零和博弈则是它的特例。 条件变和博弈需要两个先决条件:一个是双方能够共谋,另一个是双方能建立彼此信任的机制。如果两个囚徒彼此不能信任,虽然共谋,其结果还是零和博弈,即双方都选择招供。 零和博弈是博弈论的一个概念,属非合作博弈,指参与博弈的各方,在严格竞争下,一方的收益必然意味着另一方的损失,博弈各方的收益和损失相加总和永远为“零”。双方不存在合作的可能。零和博弈的结果是一方吃掉另一方,一方的所得正是另一方的所失,整个社会的利益并不会因此而增加一分。 当你看到两位对弈者时,你就可以说他们正在玩“零和游戏”。因为在大多数情况下,总会有一个赢,一个输,如果我们把获胜计算为得1分,而输棋为-1分,那么,这两人得分之和就是:1+(-1)=0。[1] 这正是“零和游戏”的基本内容:游戏者有输有赢,一方所赢正是另一方所输,游戏的总成绩永远是零。 零和游戏原理之所以广受关注,主要是因为人们发现在社会的方方面面都能发现与“零和游戏”类似的局面,胜利者的光荣后面往往隐藏着失败者的辛酸和苦涩。从个人到国家,从政治到经济,似乎无不验证了世界正是一个巨大的“零和游戏”场。这种理论认为,世界是一个封闭的系统,财富、资源、机遇都是有限的,个别人、个别地区和个别国家财富的增加必然意味着对其他人、其他地区和国家的掠夺,这是一个“邪恶进化论”式的弱肉强食的世界。 但20世纪人类在经历了两次世界大战,经济的高速增长、科技进步、全球化以及日益严重的环境污染之后,“零和游戏”观念正逐渐被“双赢”观念所取代。人们开始认识到“利己”不一定要建立在“损人”的基础上。通过有效合作,皆大欢喜的结局是可能出现的。但从“零和游戏”走向“双赢”,要求各方要有真诚合作的精神和勇气,在合作中不要耍小聪明,不要总想占别人的小便宜,要遵守游戏规则,否则“双赢”的局面就不可能出现,最终吃亏的还是自己。 常和博弈常和博弈是指所有博弈方的得益总和等于非零的常数,参与者的利益根本对立,各自收益之和是一个常数。如若干人分配一份总额既定的财产乃典型的常和博弈。又如排球、乒乓球等体育比赛的每个回合,双方得分之和恒为1。常和博弈的特例是零和博弈,指参与者的利益完全对立,各自收益之和恒为零。如各种方式的赌博、特定指数的炒股,都是一方所得即为他方所失,胜方赢多少,败方输多少。 目录 1 相关条目 2 参考文献 相关条目 零和博弈 常和博弈 参考文献 ↑ 从日常生活看"博弈论".作者:叶德磊
概述Lorenzen和Kuno Lorenz的主要动机是为直觉逻辑找到一种博弈论(他们的术语是“对话式”Dialogische Logik)语义。Blass首先指出在博弈语义和线性逻辑之间的联系。这个路线进一步由Samson Abramsky、Radhakrishnan Jagadeesan、Pasquale Malacaria和独立的由Martin Hyland和Luke Ong发展,对合成性加以特别强调,就是递归的在语法上定义策略。使用博弈语义,上面提及的作者们解决了长期存在的为可计算函数的编程语言定义完全抽象模型的问题。从此,博弈语义成为各种编程语言的完全抽象的语义模型,导致了软件模型检查的软件验证的新的语义制导的方法。 [1]Lorenzen和KunoLorenz的主要动机是为直觉逻辑找到一种博弈论(他们的术语是“对话式”DialogischeLogik)语义。Blass首先指出在博弈语义和线性逻辑之间的联系。这个路线进一步由SamsonAbramsky、RadhakrishnanJagadeesan、PasqualeMalacaria和独立的由MartinHyland和LukeOng发展,对合成性加以特别强调,就是递归的在语法上定义策略。使用博弈语义,上面提及的作者们解决了长期存在的为可计算函数的编程语言定义完全抽象模型的问题。从此,博弈语义成为各种编程语言的完全抽象的语义模型,导致了软件模型检查的软件验证的新的语义制导的方法。量词博弈语义的基础性考虑已经被Jaakko Hintikka和Gabriel Sandu更加强调,特别是为了友好独立逻辑(IF逻辑,更加新近的友好信息逻辑),它是带有分支量词的逻辑。复合性原理被认为对这些逻辑失败,所以Tarski主义的真理定义不能提供合适的语义。 要解决这个问题,量词被给予博弈论意义,全称量词和存在量词表示一个游戏者从这个域做的一个选择。在全称情况下,给游戏者的自然名字是“证伪者”;在存在情况下,是“证实者”。注意一个单一的反例证伪一个全称量化陈述,而一个单一的例子足够证实一个存在量化陈述。Wilfrid Hodges提议了复合语义并证明了它等价于给IF-逻辑的博弈语义。基础性考虑已经推动了其他人的工作,比如Japaridze的可计算性逻辑。 [1]