2017年10月19日凌晨,谷歌下屬公司 Deepmind 在《自然》(Nature)刊文,報告了新版、也是終版圍棋程序AlphaGoZero,可以從空白狀態(tài)學(xué)起,在無任何人類輸入的條件下,迅速自學(xué)圍棋,并已經(jīng)以100:0的戰(zhàn)績擊敗老版 AlphaGo,當(dāng)然,也能夠完勝任何人類對手。
柯潔,這位世界圍棋史上最年輕的四冠王,此前輸給阿爾法狗的世界頂級棋手在19號凌晨發(fā)了一條微博,“一個純凈、純粹自我學(xué)習(xí)的Alphago是最強的...對于alphago的自我進步來講...人類太多余了?!?/span>
當(dāng)阿爾法狗第一次戰(zhàn)勝人類圍棋冠軍的時候,一個新的時代來臨了,雖然那時它還要大量的依賴人類已有的圍棋經(jīng)驗。
這次,又一個時代來臨了,新的人工智能系統(tǒng)可以從零學(xué)起,超越人類。
這是一個所有的人和公司,都容易掉隊的時代。
讓我們再回顧一下阿爾法狗的進化歷程:
2016年1月27日,國際頂尖期刊《自然》封面文章報道,谷歌研究者開發(fā)的名為“阿爾法圍棋”(AlphaGo)的人工智能機器人,以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾。
2016年3月9日,韓國首爾,在谷歌發(fā)起的“人機大戰(zhàn)”第一局中,手握14個世界冠軍頭銜的韓國圍棋天王李世石轟然倒下,最終AlphaGo以4:1贏得這場比賽。
2017年年初,AlphaGo Master創(chuàng)造了連續(xù)60場對人類不敗的恐怖戰(zhàn)績,因此圍棋界都希望能夠有一名大神站出來打敗AlphaGo,以證明人類的實力。
2017年5月23日-27日,AlphaGo將與圍棋世界冠軍柯潔等為代表的中國頂尖棋手進行圍棋對弈。最終柯潔負(fù)于AlphaGo。
2017年10月19日,DeepMind今天發(fā)布新版本AlphaGo程序,經(jīng)過三天的訓(xùn)練,該系統(tǒng)能夠擊敗AlphaGo Lee,后者是去年擊敗了韓國選手李世石,勝率是100比0。經(jīng)過大約40天的訓(xùn)練后,AlphaGo Zero完勝AlphaGo Master。
如果說,此前的阿爾狗戰(zhàn)勝李世石跟絕大多數(shù)人沒什么直接關(guān)系,那么,這次阿法狗的新進化跟每個人都有關(guān)系。不是未來有關(guān)系,而是現(xiàn)在就有關(guān)。
我在北大讀博士期間陰差陽錯機緣巧合,做過一個智能“專家系統(tǒng)”項目。專家系統(tǒng)是人工智能的一個領(lǐng)域。這兩天看到阿爾法狗的新聞,忍不住聊聊。
1. 狗大師的學(xué)霸秘訣
戰(zhàn)勝柯潔的阿爾法狗系統(tǒng)稱為AlphaGo Master,也就是“阿爾法狗大師”,簡稱狗大師。
DeepMind公司給這款人工智能起的名字一點兒都沒夸張,因為,最終結(jié)果是狗大師把人類圍棋大師打的一敗涂地。
拋開技術(shù)細(xì)節(jié),狗大師的秘訣其實非常簡單。
第一, 精準(zhǔn)的讀懂棋譜。
讀懂棋譜首先意味著知道基本的游戲規(guī)則,比如在什么情況下一個子會被吃掉(無論是象棋還是圍棋),比如什么算輸,什么算贏。
顯然,這一切都能用數(shù)學(xué)表達,棋盤上的所有東西都是可以數(shù)字化的。
在這個階段,阿爾狗不需要人類任何經(jīng)驗,只要懂得已經(jīng)訂好的規(guī)則。
讀懂棋譜的更進一步是得讀懂以往的棋局。
實際上它不需要讀懂,它只需要把以往的棋局都存儲起來方便調(diào)用就行了。而這對于它來說非常簡單,因為,任何棋局都是可以數(shù)字化的。
所以,狗大師的第一步就是把規(guī)則和以往的棋局?jǐn)?shù)字化。
第二, 會決策。
簡單的說,狗大師得知道,好歹。例如,在同樣的情況下,哪一招更高明。這一點至關(guān)重要,但是對于阿爾狗來說,并不困難。因為一切都是計算,并且最終變成了加減法的計算。
一旦狗大師從以往的棋局中看懂了同樣情境下哪一招更高明,那么它就厲害了。
比如,柯潔在棋盤上放了一顆子。狗大師在以往的棋局里搜索,同樣的情境下,下那個子勝算最大。把最大的找出來就可以了。
所以,說到底,這第二步就是會模仿就行了。
狗大師根本不需要自己想出什么妙招,它需要做的就是拷貝以往人類大師的棋招。在對弈的每一時刻,它只需要找到最有效的干掉對方的招,拿出來用就行了。
實際情形是阿爾法狗有兩個復(fù)雜的決策系統(tǒng):策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)。策略網(wǎng)絡(luò)負(fù)責(zé)預(yù)測對手的下一個子放在哪兒,而價值網(wǎng)絡(luò)負(fù)責(zé)判斷相應(yīng)對手的招數(shù)自己怎么下才能贏。兩者都需要計算大量的可能性,都需要找出最可能的選擇。
第三, 大量模仿
顯然,狗大師能夠找到最有效的干掉對方的招,取決于它的“腦子”里有多少以往的棋局,取決于它到底有多少可供選擇的高招。
顯然,它學(xué)習(xí)的量越大,所學(xué)習(xí)的棋譜質(zhì)量越高,它就越厲害。
顯然,在這一點上,計算機是具有絕對優(yōu)勢的。人類能夠記住多少棋譜還沒有統(tǒng)計過,但肯定是有上限的,而計算機的存儲量沒有上限!
當(dāng)然,下棋是要有時間限制的,落子的速度很重要,而對于計算機而言,這個速度顯然是可以無限提升的。
起初戰(zhàn)勝李世石和柯潔的阿爾狗系統(tǒng)是依賴人類經(jīng)驗的。不但如此,它要學(xué)習(xí)巨量的曾經(jīng)有過的棋譜,做巨大量的計算,在大量可能性中最大概率的預(yù)測對手的下一步,并找出最有可能致勝的招數(shù)。
這就相當(dāng)于一個人要學(xué)一門知識和技能,需要閱讀、鉆研、模仿大量的參考書。這個段位學(xué)習(xí)者的水平高下,取決于研習(xí)速度的快慢、和研習(xí)量的大小。
比如面對同樣的知識領(lǐng)域,研習(xí)過100本書/做過10萬道題目的人,輕松秒殺另外一個只研習(xí)過一本書/做了100道題目的人。當(dāng)然,假設(shè)二者對學(xué)習(xí)都是一樣認(rèn)真的。
說幾個具體的例子。
我的一位學(xué)弟叫童哲,物理競賽保送到北大。他高中的時候,做過40本物理參考書,包含高考級和競賽級的。每本1000題,總共4萬題左右。
你問他憑什么保送北大?憑這個。
我的兄弟大威,也是同班同學(xué),從英語30多分到全班第一,用了兩個月的時間,總共做了1萬多道英語題目(包含詳細(xì)的筆記)。他后來上了清華。
你問他憑什么上清華?憑這個。
比如我,高三平均每天做了20頁學(xué)習(xí)筆記,一年按320天計算,總計6400頁筆記。我憑什么一年逆襲進北大?很容易回答。
所以,對于許多叫囂“題海戰(zhàn)術(shù)不管用”的人來說,不是別有用心,就是……(說出來很難聽,不說了,你懂得)。
當(dāng)一個人沒有什么高級的學(xué)習(xí)方法之前,題海戰(zhàn)術(shù)就是方法。
無論在什么領(lǐng)域,當(dāng)你想不出什么妙招的時候,用“量”壓倒對方,就是妙招。
阿法狗此前戰(zhàn)勝人類冠軍就是這么干的!它的學(xué)習(xí)量可以遠(yuǎn)遠(yuǎn)超過任何人類,它的學(xué)習(xí)速度永遠(yuǎn)可以更快,而且它目標(biāo)明確,永不疲倦,不帶有任何情緒!
中國古人形容一個人的高境界有個說法,“心空似水,意冷于冰,神靜如岳,氣行如泉”。
顯然,狗大師做到了。人類在愁眉苦臉,它在夯吃夯吃的干。由于計算機技術(shù)的發(fā)展,它連夯吃夯吃的聲音的都沒有了,而是不動聲色的干掉了一個個人類大師。
所以,對于絕大多數(shù)行業(yè)和領(lǐng)域,尤其是對于有標(biāo)準(zhǔn)化考試的領(lǐng)域,如果你目標(biāo)明確,能夠定量的、精準(zhǔn)的、大量的模仿,不需要有什么情緒,你就可以不動聲色、悄無聲息的干掉絕大大多數(shù)對手!
這就是學(xué)霸的秘密。
2. 狗小零的學(xué)神秘訣
AlphaGo Zero它的獨門秘籍,是把自己當(dāng)做老師,從一張白紙開始,零基礎(chǔ)學(xué)習(xí),在短短3天內(nèi),成為頂級高手。
“AlphaGo在兩年內(nèi)達到的成績令人震驚?,F(xiàn)在,AlphaGo Zero是我們最強版本,它提升了很多。Zero提高了計算效率,并且沒有使用到任何人類圍棋數(shù)據(jù),”AlphaGo之父、DeepMind聯(lián)合創(chuàng)始人兼CEO 戴密斯·哈薩比斯(Demis Hassabis)說。
AlphaGo此前的版本,結(jié)合了數(shù)百萬人類圍棋專家的棋譜,以及強化學(xué)習(xí)的監(jiān)督學(xué)習(xí)進行了自我訓(xùn)練。在戰(zhàn)勝人類圍棋職業(yè)高手之前,它經(jīng)過了好幾個月的訓(xùn)練,依靠的是多臺機器和48個TPU(谷歌專為加速深層神經(jīng)網(wǎng)絡(luò)運算能力而研發(fā)的芯片)。
AlphaGo Zero的能力則在這個基礎(chǔ)上有了質(zhì)的提升。最大的區(qū)別是,它不再需要人類數(shù)據(jù)。也就是說,它一開始就沒有接觸過人類棋譜。研發(fā)團隊只是讓它自由隨意地在棋盤上下棋,然后進行自我博弈。值得一提的是,AlphaGoZero還只用到了一臺機器和4個TPU,極大地節(jié)省了資源。
“這些技術(shù)細(xì)節(jié)強于此前版本的原因是,我們不再受到人類知識的限制,它可以向圍棋領(lǐng)域里最高的選手——AlphaGo自身學(xué)習(xí)?!?/span> AlphaGo團隊負(fù)責(zé)人大衛(wèi)·席爾瓦(Dave Sliver)說。
據(jù)大衛(wèi)·席爾瓦介紹,AlphaGo Zero使用新的強化學(xué)習(xí)方法,讓自己變成了老師。系統(tǒng)一開始甚至并不知道什么是圍棋,只是從算法開始,進行了自我對弈。
隨著自我博弈的增加,系統(tǒng)提升預(yù)測下一步的能力,最終贏得比賽。更為厲害的是,隨著訓(xùn)練的深入,DeepMind團隊發(fā)現(xiàn),AlphaGo Zero還獨立發(fā)現(xiàn)了游戲規(guī)則,并走出了新策略,為圍棋這項古老游戲帶來了新的見解。
對于DeepMind來說,圍棋并不是AlphaGo的終極奧義,他們的目標(biāo)始終是要利用AlphaGo打造通用的、探索宇宙的終極工具。
顯然,如果沒有意外,未來將出現(xiàn)一個探索宇宙的人工智能大軍!而對于人類來說,還有什么比探索宇宙更具根本性的事情呢?因為,宇宙就是一切。
阿爾法狗新進化最殘酷的地方是,它已經(jīng)不再需要人類以往的圍棋經(jīng)驗!
我們該怎樣理解這個事實?
阿爾法狗的最新超級版稱之為AlphaGo Zero,也就是“阿爾法狗零號”,簡稱“狗小零”。
顯然,狗小零比狗大師厲害太多。厲害在哪里呢?負(fù)責(zé)人說,他們搞出來了一個“自我學(xué)習(xí)算法”。它在自己跟自己下棋的過程中,不斷學(xué)習(xí)進化。這聽起來像是周伯通的雙手互博。打輸了的那只手,就要想辦法贏了另外一只手,于是,兩只手越來越厲害。如此下去,自然越來越容易打敗對手。
自我學(xué)習(xí)算法的實質(zhì)是什么?舉一個大家都知道的例子。
比如做數(shù)學(xué)題,有兩種思維套路。
一種做法是參考書做法。遇到一道題目,首先想自己曾經(jīng)做過的參考書上的類似題目。如果類型一致,一步步套上去,就能搞定。哪怕題目的具體數(shù)字不一樣,都沒關(guān)系。比如這套題是3個蘋果,參考書上的類似題目是4個橙子。
第二種做法是從基本概念、基本定義、基本運算法則出發(fā),甚至是從歸納出來的解題套路(也是算法)出發(fā),無需別人的經(jīng)驗,直接解題!
顯然第二種比第一種更厲害,因為不但知其然而且還知其所以然。第二種類型的人,更有深度,而且學(xué)習(xí)方法的可擴展性強,很容易把一門知識的成功移植到另外一門知識。
阿爾法零號就是第二種類型,也就是所謂的從“第一性原理”出發(fā)解決問題。
那么這些原始的“自我學(xué)習(xí)算法”是誰設(shè)計的呢?是知識工程師!
搞出“自我學(xué)習(xí)算法”是知識密集型的工作。阿爾法狗團隊是全世界最聰明的大腦。他們抽象出學(xué)習(xí)策略,然后將它們轉(zhuǎn)化成算法。
事實上,人類的頂尖高手都有自己的學(xué)習(xí)策略、致勝策略,但是與計算機相比,個體的人進化速度實在太慢了。
再舉個例子。
比如橋水基金是世界上規(guī)模最大的對沖基金,管理著好幾千億美元的資金。橋水的創(chuàng)始人雷.達里奧(Ray Dalio)總結(jié)出了他的解決問題的套路。如下,分為5步。
第一,有明確的目標(biāo)。
第二,識別問題,這些問題不能容忍,因為它們阻礙你實現(xiàn)目標(biāo)。
第三,準(zhǔn)確診斷問題,找到原因。
第四,制定計劃,圍繞你的問題和目標(biāo)而明確地制定任務(wù)。
第五,執(zhí)行這些計劃,即完成這些任務(wù)。
達里奧說,“為了成功,你需要做好所有這些步驟”。他的意思是說,做不好這5步中的任何一步,你都很難成功,甚至根本不可能成功。如果成功意味著達成目標(biāo)的話。
如果你曾深度的思考過你切身經(jīng)歷過的事情,尤其是你曾經(jīng)取得成功的經(jīng)歷,你會發(fā)現(xiàn):
只要你持續(xù)認(rèn)真的做到如上5步,那么你就一定會把一件事情做的越來越好!
這就是所謂“自我學(xué)習(xí)的算法”。一個人如果這么去做,他就能從自己的經(jīng)驗中學(xué)習(xí),把一件事情越做越好。
橋水基金之所以厲害,是因為他的創(chuàng)始人Ray Dalio開發(fā)出了“狗零號”的“自我學(xué)習(xí)算法”,他本人和他的公司都在運行這個系統(tǒng)。
如果反思自己的經(jīng)歷,你會發(fā)現(xiàn),你思維清晰的按照這5個步驟做的經(jīng)歷其實并不多。
反思周圍人的經(jīng)歷,你會發(fā)現(xiàn),人們思維清晰的按照這個5個步驟做的人也不多。
這就是很少的人能夠高效達成目標(biāo)的原因。
但是,人們?yōu)槭裁春茈y實施上述5個步驟呢?
再舉一個例子。
例如我高考的時候所做的筆記,不是一般的筆記,而是稱之為進步本。
這個技術(shù)有三個步驟:
第一, 針對當(dāng)天所學(xué),把做錯之后改正的題目,不會做的弄懂的題目,當(dāng)天新學(xué)到的內(nèi)容,記錄到本子上;
第二, 隨時隨地的復(fù)習(xí)已經(jīng)記錄在本子上的內(nèi)容,如果是題目需要重做,如果是知識需要在大腦中復(fù)現(xiàn);
第三, 做測試題(模擬題),檢驗自己的進步,把做錯的不會做的題目弄懂記錄在進步本上。
我寫了一系列的長文介紹這個方法的來龍去脈,以及產(chǎn)生的效果。
事實上這個方法對于一切標(biāo)準(zhǔn)化考試都有效,是可以快速拿高分的。
有些人的成績突飛猛進,當(dāng)天就有效。
初三少年3周自學(xué)高中三年數(shù)學(xué),高考真題135
而有些人則沒有什么效果。
所有上述現(xiàn)象原因都是復(fù)雜的,但也可以歸結(jié)為一個原因:絕大多數(shù)人都不知道思維需要編程!
各行各業(yè)很厲害的人,都深知思維的法則。
例如剛剛提到的Ray Dalio。例如芒格稱巴菲特為“學(xué)習(xí)機器”,他自己意識一架超級“學(xué)習(xí)機器”。例如硅谷鋼鐵俠馬斯克自己成功的秘密在于善于從“第一性原理”思考。我可以說說的更具體一些。
比如,股神巴菲特在給格雷厄姆的《證券分析》(被成為投資圣經(jīng))寫的序言中寫到,他“讀遍了讀書館里每一本有關(guān)股票交易的書”。
這就是狗大師的秘訣!
巴菲特在給格雷厄姆的另外一本名著《聰明的投資者》寫的序言中寫道:
1950年年初,我閱讀了本書的第一版,那年我19歲。當(dāng)時,我認(rèn)為它是有史以來投資論著中最杰出的一本。時至今日,我仍然認(rèn)為如此。
要想在一生中獲得投資成功,并不需要頂級的智商、超凡的商業(yè)頭腦或內(nèi)幕消息,而是需要一個穩(wěn)妥的知識體系作為決策基礎(chǔ),并且有能力控制自己的情緒,使其不會對這種體系造成侵蝕。
如果你遵從格雷厄姆所倡導(dǎo)的行為和商業(yè)準(zhǔn)則,那么,你將會獲得不錯的投資結(jié)果。這種結(jié)果所反映出的更多成就,要超出你的想象。
巴菲特推崇、深究并遵從的格雷厄姆的“商業(yè)準(zhǔn)則”,本質(zhì)上就是算法,就是思維程序!
說了半天,要成為任何領(lǐng)域的高手,既需要前人的經(jīng)驗、又需要自己總結(jié)套路。這背后的關(guān)鍵是思維編程!
誰都知道,人是有情緒、有情感的。
普遍的人生錯位是該動情的時候不動情,不該動情的時候亂動情。
人生的高級的模式是,用情感提供動力,用精準(zhǔn)無情的思維編程來實現(xiàn)自己的目標(biāo)。
無論阿爾法狗再厲害,人工智能再怎么厲害,人生永恒不變的主題是:勇猛精進!
雷打不動的勇猛精進!
在一切的如意與不如意之中,勇猛精進!
借阿爾法狗進化事件,這里播一個廣告。