在本節中,大家應該對MCTS算法的工作原理擁有更為深入的理解。請別擔心,迄今為止提到的全部內容應該足以支持您順利掌握相關內容。惟一需要注意的是我們如何使用策略概率與估值方法。我們在鋪展過程中將二者結合在一起,從而縮小每次落子時需要探索的具體范圍。Q(s,a)表示估值函數,u(s,a)則代表該位置的已保存概率。下面我將具體作出解釋。
另外需要注意的是,策略網絡是使用監督學習來預測專業棋手落子判斷的。其不僅能夠提供概率最高的落子選項,同時也會提供各個選項的具體概率。這一概率可被存儲在各個落子判斷當中。在這里,DeepMind方面將其稱為“先驗概率”,并利用其選擇有必要進行探索的落子選項。基本上,要決定是否需要對某一特定落子選項進行探索,我們需要考慮以下兩點:首先,通過這步棋,我們有多大概率獲勝?是的,我們已經擁有了能夠回答這個問題的“估值網絡”。第二個問題是,專業棋手有多大概率會考慮這一棋步?(如果專業棋手不太可能考慮這步棋,那么我們為什么要浪費時間進行探索?這部分結論由策略網絡負責提供。)
接下來,讓我們聊聊“混合參數”。如前文所述,為了評估各個盤面位置,我們有兩種選擇:其一,直接利用一直用于評估盤面狀態的估值網絡。第二,我們也可以使用現有策略網絡快速推導對弈情況(假定對方選手也采取符合預測的下法),從而判斷我們是輸還是贏。一般來講,估值函數的效果要比常規鋪展更好。在這里,將二者結合將能夠提供每項預測的權重估值,例如五五開、四六開等等。如果大家以百分比形式對估值X進行處理,則另一項就是(100-X)%。這就是混合參數的意義所在。后文中將對其實際效果進行說明。
在每一次鋪展之后,大家都可以利用在模擬當中獲得的任何信息對搜索樹進行更新,從而進一步提升未來模擬的明智度。在所有模擬結束之后,您從中選擇最佳落子選項即可。
下面來看有趣的結論!
大家應該還記得,RL微調策略神經網絡擁有比SL人力訓練策略神經網絡更好的判斷效果。但在將其添加至AlphaGo的MCTS算法中時,使用人工訓練的神經網絡反過來超越了微調神經網絡。與此同時,在估值函數(可以理解成以無限趨近方式提供完美判斷)方面,利用RL策略進行Foma訓練能夠帶來超越使用SL策略的實際效果。
“執行上述評估需要耗費大量計算資源,我們必須拿出壓箱底的硬貨才能搞定這些該死的程序。”
但DeepMind的言下之意其實是……
“吼吼,跟我們的程序相比,以前的那些圍棋程序簡直就是唐氏兒童級別。”
這里再說回“混合參數(mixing parameter)”。在評估位置時,對估值函數及鋪展二者的重視程度要高于其中任意一者。其余部分是DeepMind方面的深入解釋,可以看到其中昭示了一項有趣的結論!
請再讀一次標有紅色下劃線的句子。相信大家已經能夠理解,這句話基本就是對整個研究項目的全面總結。