生活中我們常常出現的打牌、猜拳、下棋、踢球等行為主題選擇策略并相互影響的過程可以稱之為博弈,博弈論則是指研究決策主體的行為發(fā)生直接相互作用時候的決策,以及這種決策的均衡問題。
博弈論通常用來進行決策、均衡等目的。
值得注意的是,博弈模型只適用于行為主體之間的行動決策會相互影響的情況,若制定決策時不考慮其他行為主體的反應或力量,則博弈模型不成立。
舉個例子
??家裝市場上裝修公司之間的競爭
??美國與前蘇聯的軍備競賽
??聯通招募新員工
??一家電力公司在估計了未來 10 年對電力的需求后決定是否購買一套新的發(fā)電機組
博弈有 6 大構成要素:參與人 players、行動 actions、信息 information、策略 strategies、收益 payoffs、均衡 equilibria。接下來通過一個試驗案例來形象地理解這些要素的定義。
舉個例子
假設每個人都被賜予一個相同的企業(yè),生產相同的產品。你要為你的產品定價,每個人都有兩個選擇:
選擇高價,期望以高價維持利潤;
選擇低價,以價格優(yōu)勢得到高利潤。
*每個人只能選擇一種經營方式
可以想象,如果別人選擇高價,而你選擇低價,你會得到比其他人更高的利潤。但如果你們同時選擇低價則都只能得到較低的利潤。若同時選擇高價同時得到較高的利潤。
信息指參與人在博弈中的知識,特別是有關其他參與人(對手)的特征和行動的知識。在上面的案例中所有人都知道的有兩個信息元素(完全信息),生產方式 1 和生產方式 2 的內容。
信息在博弈中非常重要,最大程度影響著參與人策略的制定,其余因素都是通過信息的方式輸入到參與者腦中,并產生決策。
信息主要包括兩個方面:對博弈參與人的了解和對博弈過程的了解,其中后者僅限于動態(tài)博弈(下文會介紹分類)。根據這兩種類型的信息延伸出兩種特殊的概念:
策略是博弈參與人選擇行動的規(guī)則,它決定參與人在什么時候選擇什么行動。俗話說的「人不犯我,我不犯人;人若犯我,我必犯人」、「己所不欲,勿施于人」、「以眼還眼,以牙還牙」等都是指導行動的規(guī)則,即策略。
參與人是指做決策的個體。每個參與人的目標都是通過選擇行動來最大化自身的效用。
參與人 i 的行動或活動,以 ai表示所能做的某一個選擇,例如在上文的試驗中,每個人都可以選擇生產方式 1 和生產方式 2 這兩種行動。其可以采用的所有行動的集合稱為參與人 i 的行動集,表示為:
收益指參與人從博弈中獲得的效用水平,它是所有參與人的戰(zhàn)略或行動的函數,是每個參與人真正關心的東西。每個人的收益都依賴于所有人的行動選擇。
均衡是所有參與人的最優(yōu)戰(zhàn)略或者行動的組合,也就是博弈過程的解。
均衡是博弈論的核心,它的發(fā)展代表了博弈論的發(fā)展,均衡的定義與博弈的分類密切相關。
博弈主要有兩種表述方式,戰(zhàn)略式與擴展式。
戰(zhàn)略式又稱策略式,一般用于參與人同時行動的靜態(tài)博弈,二人情況下就是常見的矩陣式表述,如上文企業(yè)的高低價案例若兩個企業(yè)之間價格博弈用矩陣式可表達為:
擴展式針對參與人行動有先后順序的動態(tài)博弈,常見的是博弈樹表述(參與人個數不限)。仍然以第一個案例為原型,假設兩個企業(yè)的產品要通過打折活動促進銷量,企業(yè) B 根據企業(yè) A 的打折活動情況決定是否打折,他們之間的博弈樹表述如下:
接下來通過博弈的分類深入了解它的概念,如下表所示,根據博弈的行動順序與信息種類可以將它大致分為四類:
完全信息靜態(tài)博弈指每個參與者了解所有對手的特性,且博弈在一個階段完成。
對于完全信息靜態(tài)博弈的解一般都是納什均衡,納什均衡是由所有參與人的最優(yōu)戰(zhàn)略組成的戰(zhàn)略組合。即在給定別人戰(zhàn)略的情況下,沒有單個人有積極性打破這種選擇,從而沒有任何人有積極性打破這種均衡。
經典案例有囚徒困境、智豬博弈等。
囚徒困境
有兩位參與人演奏家與 Tom 面臨被警官抓捕審訊的場景,他們分別有兩種行動策略:坦白與抵賴。根據他們不同的行動策略其收益如下:
兩人都坦白—各判刑 8 年;
演奏家坦白, Tom 抵賴—演奏家釋放, Tom 被判刑 10 年,反之亦然;
兩人都抵賴—各判刑 1 年。
根據以上信息用矩陣式表述如下表:
根據占優(yōu)策略來看,選擇「坦白」對雙方各自的收益都是最佳的。所謂占優(yōu)策略就是不論別人怎么選擇,這個策略都會給你帶來較好的結果,但顯然根據此策略就會陷入囚徒困境的得到(-8,-8)的結果,只有彼此信任合作均衡才能達到兩個人都抵賴的最小損失結果(-1,-1)。
在現實生活的商業(yè)競爭中經常會遇到囚徒困境,例如壟斷企業(yè)的價格選擇。
智豬博弈
食槽在一端,開關按鈕在另一端。每按一次按鈕有 10 個單位豬食進槽,但按鈕者需要付 2 個單位成本。一頭大豬與一頭小豬都有兩種行動策略:按按鈕與等待。根據他們的不同選擇有以下收益:
大豬先到—大豬吃 9 單位,小豬 1 單位;
同時到—大豬吃 7 單位,小豬吃 3 單位;
小豬先到,大豬吃 6 單位,小豬 4 單位。
此博弈的表述如下:
首先從小豬的兩種選擇收益來看,若小豬選擇「按」則它屬于絕對劣勢,因此排除該選項,接著可以看出最佳策略就是大豬「按」小豬「等待」的小豬先到選項。
智豬博弈通常應用在公共產品的供給、新技術或新產品的研發(fā)等現實場景。通俗來講,正常情況下體量較小的公司不會付出太多成本進行新技術的研發(fā)。
情侶博弈
一對情侶安排周末的活動,兩人的愛好不同,男孩喜歡看足球比賽,女孩想去看芭蕾舞。根據不同選擇得出收益如下:
兩人一起看足球賽—男孩效用 2,女孩 1;
兩人一起看芭蕾舞—男孩效用 1,女孩 2;
各自去做自己喜歡的事—效用都是 0。
此博弈的表述如下:
在情侶博弈的對局中,雙方都沒有占優(yōu)策略,他們的最優(yōu)策略依賴于對方的選擇。在這個對局中同時出現了兩個均衡,這種均衡叫做納什均衡。
納什均衡是指在對手的策略是既定的情況下,各個對局者所選擇的策略都是最好的。納什均衡中有兩種特殊情況,分別為占優(yōu)戰(zhàn)略均衡與重復剔除的占優(yōu)均衡。
占優(yōu)戰(zhàn)略均衡
在上文的囚徒困境中提到過,「坦白」對于參與人雙方都是占優(yōu)戰(zhàn)略,因此(坦白,坦白)是囚徒困境博弈中的占優(yōu)戰(zhàn)略均衡。
從數學角度來看,定義 Si*為參與人 i 的嚴格占優(yōu)戰(zhàn)略,S-i為除了 i 外的參與者的策略選擇。如果對所有的 S-i來說Si*是 i 的嚴格最優(yōu)選擇,即
如果對所有的 i 來說 Si*是占優(yōu)戰(zhàn)略,那么
這種情況稱為占優(yōu)戰(zhàn)略均衡(dominant-strategy equilibrium)。
重復剔除的占優(yōu)均衡
在無法直接找出占優(yōu)戰(zhàn)略均衡的情況下,我們可以找出某個參與人的劣戰(zhàn)略,把這個劣戰(zhàn)略剔除,構造一個新的博弈(不包含已剔除的戰(zhàn)略);對新的博弈重復上述過程,直到只剩下唯一的一個戰(zhàn)略組合為止,這個唯一剩下的戰(zhàn)略組合就是這個博弈的均衡解,稱為「重復剔除的占優(yōu)均衡」。
如上文的智豬博弈案例,它就是通過先排除小豬的絕對劣勢選項,進而推斷出最終答案。
同樣用數學角度來看,令Si'和 Si' 是參與人 i 可選擇的兩個戰(zhàn)略,即
如果對任意的其他參與人的戰(zhàn)略組合 S-i,參與人 i 選擇 Si'得到的收益嚴格小于選擇 Si'得到的收益,即
則我們說戰(zhàn)略 Si'嚴格劣于戰(zhàn)略 Si'。
納什均衡
從占優(yōu)戰(zhàn)略均衡到納什均衡是層層遞進的,因此構成納什均衡的戰(zhàn)略一定是重復剔除嚴格劣戰(zhàn)略過程中不能被剔除的戰(zhàn)略。
設有 n 個參與人的戰(zhàn)略式表述博弈
為一個納什均衡。如果對于每個 i 來說 Si*是給定其他參與人選擇
的情況下的 i 個參與人的最優(yōu)戰(zhàn)略,即
純納什均衡可以通過劃線法得到,通過以下例子感受一下:
首先假設 A 選定 R1,則 B 在該行選擇最優(yōu)的收益下劃線,同理分別選定 R2、R3后假設 B 選定 C1,則 A 在該列選擇最優(yōu)的收益下劃線,再同理選定 C2、C3,最終可得出以下矩陣:
最終選擇下方有兩條線的為最優(yōu)策略,即表內的(R1,C1)與(R1,C3)。
混合策略納什均衡
當純納什均衡也無法得出時,不妨試試混合策略納什均衡:給各個策略加上概率!即反應函數方法。
以下列矩陣式為例,假設策略 U 與策略 L 的選擇概率為 πu 與 πl(wèi)。
當
時為最優(yōu)策略函數,那么根據參與人 A 與參與人 B 的分別兩種假設情況帶入可以得出以下函數:
結合兩個函數可得出:
即當
時可得到納什均衡。
據以上多個實例我們可以看出納什均衡是具有多重性的,為了解決它的不唯一提出了許多均衡概念,如風險上策均衡、焦點均衡、防共謀均衡等(僅指靜態(tài)博弈)。
不完全信息專指博弈中參與人對其他參與人與該博弈有關的事前信息了解不充分,而不是博弈中產生的與局中人實際策略選擇有關的信息。
*事前信息指關于在博弈實際開始之前局中人所處地位或者狀態(tài)的信息,這種地位與狀態(tài)對于博弈局勢會產生影響。
博弈中的不完全信息具有多種形式,如參與人對其他參與人(或自己)所掌握的自然資源、人力資源、商業(yè)經驗、決策能力的了解不充分,對其他參與人偏好、品位、可用策略的了解不完全,對處于同一種博弈局勢的局中人的具體數目了解不完全等。
一個總結:參與人對其他參與人的收益函數的不完全了解。
了解完不完整信息接著看「不完全信息靜態(tài)博弈」,它主要包含 5 個要素:
其中每個參與人都有一個類型空間及其在全體類型空間
上的概率分布、與其他參與人無關的策略集、依賴于策略組合和自認類型
的收益函數,只要滿足以上要素就是不完全信息靜態(tài)博弈(貝葉斯靜態(tài)博弈),表示為:
當參與人 i 自身的類型為
時,他選擇策略
的期望收益為:
在不完全信息靜態(tài)博弈中,若
是一個策略組合,且對每一個
和
都有:
則稱策略組合
是一個貝葉斯納什均衡。
酒商與顧客的博弈
一商人到某城鎮(zhèn)去賣酒,該商人可能是誠實的,賣好酒;也可能是不誠實的,賣假酒,酒商有加強宣傳賣高價和只賣低價兩個策略。而該城鎮(zhèn)中的消費者也有兩類,有飲酒嗜好和無此嗜好的,他們有買酒和不買酒兩個策略。
商人不知道來買酒的消費者是否嗜酒,而消費者也不知道商人是否誠實。
此博弈的收益表述如下:
顯然商人的類型有兩種:
其中前者為誠實,后者為不誠實;
消費者類型也有兩種:
其中前者為嗜酒,后者為不嗜酒。
并記商人的策略集為:
其中前者為高價賣酒,后者為低價賣酒;
消費者的策略集為:
其中前者為買酒,后者為不買酒。
根據該城鎮(zhèn)歷年來的記載有如下的情況:
根據貝葉斯法則可得出:
設酒商在類型為 A1時混合策略為
類型為 A2 時混合策略為
消費者在類型為 B1時的混合策略為
類型為B2時的混合策略為
根據收益表可得酒商在類型為 A1時兩種收益矩陣為:
根據上文所述公式可得出期望收益為:
并且需要滿足以下條件:
通過以上不等式可得出:
同理我們得出其它三種情況的不等式組分別為:
最后對這四個不等式組進行聯合求解即可得出貝葉斯納什均衡。其中引入依賴于策略組合和自認類型ti的收益函數的方法被稱為海薩尼轉換。即在風險條件下,參與人 B 雖然不知道參與人 A 的類型,但可以知道不同類型的分布概率,將不確定性條件下的選擇轉換為風險條件下的選擇稱為海薩尼轉換。
參與人的行動有先后順序,而且行動在后者可以觀察到行動在先者的選擇,并據此作出相應的選擇的博弈稱為動態(tài)博弈,也叫「多階段博弈」。
動態(tài)博弈的困難在于,在前一刻最優(yōu)的決策在下一刻可能不再為最優(yōu),因此在求解上發(fā)生很大的困難,下棋就是經典的動態(tài)博弈案例。
動態(tài)博弈根據信息是否完整分為完全信息動態(tài)博弈與不完全信息動態(tài)博弈。
完全信息動態(tài)博弈往往通過逆向歸納法求解得出子博弈精煉納什均衡,逆向歸納法就是從動態(tài)博弈的最后一個階段或最后一個子博弈開始,逐步向前倒推以求解動態(tài)博弈均衡的方法。對于擴展式博弈的策略組合,如果它是原博弈的納什均衡,并且在每一個子博弈上也都構成納什均衡,則它是一個子博弈精煉納什均衡。
不完全信息動態(tài)博弈得出的解稱為精煉貝葉斯均衡,它是完全信息動態(tài)博弈的精煉納什均衡與不完全信息靜態(tài)博弈的貝葉斯均衡的結合體。精煉貝葉斯均衡的要點在于參與人要根據所觀察到的其他參與人的行為來修正自己有關后者的「信念」,即主觀概率,并由此選擇自己的行動策略。修正過程中使用的是貝葉斯規(guī)則,即每個參與人都假定其他參與人選擇的是均衡戰(zhàn)略。