阿爾法狗的工作原理及核心技術(shù)

時(shí)間：2020-08-05 11:54:02

關(guān)鍵字： alphago 人工智能阿爾法狗

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 　　阿爾法圍棋（AlphaGo）是第一個(gè)擊敗人類(lèi)職業(yè)圍棋選手、第一個(gè)戰(zhàn)勝?lài)迨澜绻谲姷娜斯ぶ悄艹绦颍晒雀瑁℅oogle）旗下DeepMind公司戴密斯·哈薩比斯領(lǐng)銜的團(tuán)隊(duì)開(kāi)發(fā)。

　　阿爾法圍棋（AlphaGo）是第一個(gè)擊敗人類(lèi)職業(yè)圍棋選手、第一個(gè)戰(zhàn)勝?lài)迨澜绻谲姷娜斯ぶ悄艹绦颍晒雀瑁℅oogle）旗下DeepMind公司戴密斯·哈薩比斯領(lǐng)銜的團(tuán)隊(duì)開(kāi)發(fā)。

　　那么阿爾法狗的工作原理是什么？相關(guān)技術(shù)又有哪些呢？下面讓我們一起來(lái)看看。

　　阿爾法狗工作原理

　　阿爾法圍棋（AlphaGo）為了應(yīng)對(duì)圍棋的復(fù)雜性，結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)。它通過(guò)訓(xùn)練形成一個(gè)策略網(wǎng)絡(luò)（policynetwork），將棋盤(pán)上的局勢(shì)作為輸入信息，并對(duì)所有可行的落子位置生成一個(gè)概率分布。然后，訓(xùn)練出一個(gè)價(jià)值網(wǎng)絡(luò)（valuenetwork）對(duì)自我對(duì)弈進(jìn)行預(yù)測(cè)，以-1（對(duì)手的絕對(duì)勝利）到1（AlphaGo的絕對(duì)勝利）的標(biāo)準(zhǔn)，預(yù)測(cè)所有可行落子位置的結(jié)果。這兩個(gè)網(wǎng)絡(luò)自身都十分強(qiáng)大，而阿爾法圍棋將這兩種網(wǎng)絡(luò)整合進(jìn)基于概率的蒙特卡羅樹(shù)搜索（MCTS）中，實(shí)現(xiàn)了它真正的優(yōu)勢(shì)。新版的阿爾法圍棋產(chǎn)生大量自我對(duì)弈棋局，為下一代版本提供了訓(xùn)練數(shù)據(jù)，此過(guò)程循環(huán)往復(fù)。

　　在獲取棋局信息后，阿爾法圍棋會(huì)根據(jù)策略網(wǎng)絡(luò)（policynetwork）探索哪個(gè)位置同時(shí)具備高潛在價(jià)值和高可能性，進(jìn)而決定最佳落子位置。在分配的搜索時(shí)間結(jié)束時(shí)，模擬過(guò)程中被系統(tǒng)最頻繁考察的位置將成為阿爾法圍棋的最終選擇。在經(jīng)過(guò)先期的全盤(pán)探索和過(guò)程中對(duì)最佳落子的不斷揣摩后，阿爾法圍棋的搜索算法就能在其計(jì)算能力之上加入近似人類(lèi)的直覺(jué)判斷。

　　圍棋棋盤(pán)是19x19路，所以一共是361個(gè)交叉點(diǎn)，每個(gè)交叉點(diǎn)有三種狀態(tài)，可以用1表示黑子，-1表示白字，0表示無(wú)子，考慮到每個(gè)位置還可能有落子的時(shí)間、這個(gè)位置的氣等其他信息，我們可以用一個(gè)361*n維的向量來(lái)表示一個(gè)棋盤(pán)的狀態(tài)。我們把一個(gè)棋盤(pán)狀態(tài)向量記為s。

　　當(dāng)狀態(tài)s下，我們暫時(shí)不考慮無(wú)法落子的地方，可供下一步落子的空間也是361個(gè)。我們把下一步的落子的行動(dòng)也用361維的向量來(lái)表示，記為a。

　　這樣，設(shè)計(jì)一個(gè)圍棋人工智能的程序，就轉(zhuǎn)換成為了，任意給定一個(gè)s狀態(tài)，尋找最好的應(yīng)對(duì)策略a，讓你的程序按照這個(gè)策略走，最后獲得棋盤(pán)上最大的地盤(pán)。

　　阿爾法狗三大核心技術(shù)

　　AlphaGo結(jié)合了3大塊技術(shù)：先進(jìn)的搜索算法、機(jī)器學(xué)習(xí)算法（即強(qiáng)化學(xué)習(xí)），以及深度神經(jīng)網(wǎng)絡(luò)。這三者的關(guān)系大致可以理解為：

　　1、蒙特卡洛樹(shù)搜索（MCTS）是大框架

　　實(shí)質(zhì)上可以看成一種增強(qiáng)學(xué)習(xí)

　　蒙特卡羅樹(shù)搜索（MCTS）會(huì)逐漸的建立一顆不對(duì)稱(chēng)的樹(shù)?？梢苑譃樗牟讲⒎磸?fù)迭代：

　?。?）選擇

　　從根節(jié)點(diǎn)，也就是要做決策的局面R出發(fā)向下選擇一個(gè)最急迫需要被拓展的節(jié)點(diǎn)T；局面R是第一個(gè)被檢查的節(jié)點(diǎn)，被檢查的節(jié)點(diǎn)如果存在一個(gè)沒(méi)有被評(píng)價(jià)過(guò)的招式m，那么被檢查的節(jié)點(diǎn)在執(zhí)行m后得到的新局面就是我們所需要展開(kāi)的T；如果被檢查的局面所有可行的招式已經(jīng)都被評(píng)價(jià)過(guò)了，那么利用ucb公式得到一個(gè)擁有最大ucb值的可行招式，并且對(duì)這個(gè)招式產(chǎn)生的新局面再次進(jìn)行檢查；如果被檢查的局面是一個(gè)游戲已經(jīng)結(jié)束的游戲局面，那么直接執(zhí)行步驟4；通過(guò)反復(fù)的進(jìn)行檢查，最終得到一個(gè)在樹(shù)的最底層的最后一次被檢查的局面c和它的一個(gè)沒(méi)有被評(píng)價(jià)過(guò)的招式m，執(zhí)行步驟2。

　?。?）拓展

　　對(duì)于此時(shí)存在于內(nèi)存中的局面c，添加一個(gè)它的子節(jié)點(diǎn)。這個(gè)子節(jié)點(diǎn)由局面c執(zhí)行招式m而得到，也就是T。

　?。?）模擬

　　從局面T出發(fā)，雙方開(kāi)始隨機(jī)的落子。最終得到一個(gè)結(jié)果（win/lost），以此更新T節(jié)點(diǎn)的勝利率。

　?。?）反向傳播

　　在T模擬結(jié)束之后，它的父節(jié)點(diǎn)c以及其所有的祖先節(jié)點(diǎn)依次更新勝利率。一個(gè)節(jié)點(diǎn)的勝利率為這個(gè)節(jié)點(diǎn)所有的子節(jié)點(diǎn)的平均勝利率。并從T開(kāi)始，一直反向傳播到根節(jié)點(diǎn)R，因此路徑上所有的節(jié)點(diǎn)的勝利率都會(huì)被更新。

　　之后，重新從第一步開(kāi)始，不斷地進(jìn)行迭代。使得添加的局面越來(lái)越多，則對(duì)于R所有的子節(jié)點(diǎn)的勝利率也越來(lái)越準(zhǔn)。最后，選擇勝利率最高的招式。

　　實(shí)際應(yīng)用中，mcts還可以伴隨非常多的改進(jìn)。我描述的這個(gè)算法是mcts這個(gè)算法族中最出名的uct算法，現(xiàn)在大部分著名的ai都在這個(gè)基礎(chǔ)上有了大量的改進(jìn)了。　　2、強(qiáng)化學(xué)習(xí)（RL）是學(xué)習(xí)方法，用來(lái)提升AI的實(shí)力。

　　2、強(qiáng)化學(xué)習(xí) （RL）是學(xué)習(xí)方法，用來(lái)提升AI的實(shí)力

　　強(qiáng)化學(xué)習(xí)是從動(dòng)物學(xué)習(xí)、參數(shù)擾動(dòng)自適應(yīng)控制等理論發(fā)展而來(lái)，其基本原理是：

　　如果Agent的某個(gè)行為策略導(dǎo)致環(huán)境正的獎(jiǎng)賞（強(qiáng)化信號(hào)），那么Agent以后產(chǎn)生這個(gè)行為策略的趨勢(shì)便會(huì)加強(qiáng)。Agent的目標(biāo)是在每個(gè)離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略以使期望的折扣獎(jiǎng)賞和最大。

　　強(qiáng)化學(xué)習(xí)把學(xué)習(xí)看作試探評(píng)價(jià)過(guò)程，Agent選擇一個(gè)動(dòng)作用于環(huán)境，環(huán)境接受該動(dòng)作后狀態(tài)發(fā)生變化，同時(shí)產(chǎn)生一個(gè)強(qiáng)化信號(hào)（獎(jiǎng)或懲）反饋給Agent，Agent根據(jù)強(qiáng)化信號(hào)和環(huán)境當(dāng)前狀態(tài)再選擇下一個(gè)動(dòng)作，選擇的原則是使受到正強(qiáng)化（獎(jiǎng)）的概率增大。選擇的動(dòng)作不僅影響立即強(qiáng)化值，而且影響環(huán)境下一時(shí)刻的狀態(tài)及最終的強(qiáng)化值。

　　強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督學(xué)習(xí)，主要表現(xiàn)在教師信號(hào)上，強(qiáng)化學(xué)習(xí)中由環(huán)境提供的強(qiáng)化信號(hào)是Agent對(duì)所產(chǎn)生動(dòng)作的好壞作一種評(píng)價(jià)（通常為標(biāo)量信號(hào)），而不是告訴Agent如何去產(chǎn)生正確的動(dòng)作。由于外部環(huán)境提供了很少的信息，Agent必須靠自身的經(jīng)歷進(jìn)行學(xué)習(xí)。通過(guò)這種方式，Agent在行動(dòng)一一評(píng)價(jià)的環(huán)境中獲得知識(shí)，改進(jìn)行動(dòng)方案以適應(yīng)環(huán)境。

　　強(qiáng)化學(xué)習(xí)系統(tǒng)學(xué)習(xí)的目標(biāo)是動(dòng)態(tài)地調(diào)整參數(shù)，以達(dá)到強(qiáng)化信號(hào)最大。若已知r/A梯度信息，則可直接可以使用監(jiān)督學(xué)習(xí)算法。因?yàn)閺?qiáng)化信號(hào)r與Agent產(chǎn)生的動(dòng)作A沒(méi)有明確的函數(shù)形式描述，所以梯度信息r/A無(wú)法得到。因此，在強(qiáng)化學(xué)習(xí)系統(tǒng)中，需要某種隨機(jī)單元，使用這種隨機(jī)單元，Agent在可能動(dòng)作空間中進(jìn)行搜索并發(fā)現(xiàn)正確的動(dòng)作。

　　3、深度神經(jīng)網(wǎng)絡(luò)（DNN）是工具，用來(lái)擬合局面評(píng)估函數(shù)和策略函數(shù)

　　深度神經(jīng)網(wǎng)絡(luò)，也被稱(chēng)為深度學(xué)習(xí)，是人工智能領(lǐng)域的重要分支，根據(jù)麥卡錫（人工智能之父）的定義，人工智能是創(chuàng)造像人一樣的智能機(jī)械的科學(xué)工程。

　　通過(guò)比較當(dāng)前網(wǎng)絡(luò)的預(yù)測(cè)值和我們真正想要的目標(biāo)值，再根據(jù)兩者的差異情況來(lái)更新每一層的權(quán)重矩陣（比如，如果網(wǎng)絡(luò)的預(yù)測(cè)值高了，就調(diào)整權(quán)重讓它預(yù)測(cè)低一些，不斷調(diào)整，直到能夠預(yù)測(cè)出目標(biāo)值）。因此就需要先定義“如何比較預(yù)測(cè)值和目標(biāo)值的差異”，這便是損失函數(shù)或目標(biāo)函數(shù)（lossfuncTIonorobjecTIvefuncTIon），用于衡量預(yù)測(cè)值和目標(biāo)值的差異的方程。lossfuncTIon的輸出值（loss）越高表示差異性越大。那神經(jīng)網(wǎng)絡(luò)的訓(xùn)練就變成了盡可能的縮小loss的過(guò)程。

　　所用的方法是梯度下降（Gradientdescent）：通過(guò)使loss值向當(dāng)前點(diǎn)對(duì)應(yīng)梯度的反方向不斷移動(dòng)，來(lái)降低loss。一次移動(dòng)多少是由學(xué)習(xí)速率（learningrate）來(lái)控制的。

　　總結(jié)

　　這三大技術(shù)都不是AlphaGo或者DeepMind團(tuán)隊(duì)首創(chuàng)的技術(shù)。但是強(qiáng)大的團(tuán)隊(duì)將這些結(jié)合在一起，配合Google公司強(qiáng)大的計(jì)算資源，成就了歷史性的飛躍。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀(guān)點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動(dòng)方式相比，共陰恒流驅(qū)動(dòng)在能效有哪些優(yōu)勢(shì)

LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動(dòng)電源

[電源]

工業(yè)電機(jī)驅(qū)動(dòng)電源設(shè)計(jì)：反電動(dòng)勢(shì)抑制與過(guò)流保護(hù)的集成方案

在工業(yè)自動(dòng)化蓬勃發(fā)展的當(dāng)下，工業(yè)電機(jī)作為核心動(dòng)力設(shè)備，其驅(qū)動(dòng)電源的性能直接關(guān)系到整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動(dòng)勢(shì)抑制與過(guò)流保護(hù)是驅(qū)動(dòng)電源設(shè)計(jì)中至關(guān)重要的兩個(gè)環(huán)節(jié)，集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動(dòng)性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機(jī) 驅(qū)動(dòng)電源

[電源]

如何解決 LED 驅(qū)動(dòng)電源的易損壞問(wèn)題

LED 驅(qū)動(dòng)電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個(gè)照明設(shè)備的使用壽命。然而，在實(shí)際應(yīng)用中，LED 驅(qū)動(dòng)電源易損壞的問(wèn)題卻十分常見(jiàn)，不僅增加了維護(hù)成本，還影響了用戶(hù)體驗(yàn)。要解決這一問(wèn)題，需從設(shè)計(jì)、生...

關(guān)鍵字：驅(qū)動(dòng)電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計(jì)中LED驅(qū)動(dòng)電源的公式

根據(jù)LED驅(qū)動(dòng)電源的公式，電感內(nèi)電流波動(dòng)大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計(jì) 驅(qū)動(dòng)電源

[汽車(chē)電子]

EV主驅(qū)IGBT隔離驅(qū)動(dòng)電源方案選擇問(wèn)題探討

電動(dòng)汽車(chē)(EV)作為新能源汽車(chē)的重要代表，正逐漸成為全球汽車(chē)產(chǎn)業(yè)的重要發(fā)展方向。電動(dòng)汽車(chē)的核心技術(shù)之一是電機(jī)驅(qū)動(dòng)控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動(dòng)系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動(dòng)汽車(chē)的動(dòng)力性能和...

關(guān)鍵字：電動(dòng)汽車(chē) 新能源驅(qū)動(dòng)電源

[電源]

合理的驅(qū)動(dòng)電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車(chē)場(chǎng)照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步，高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢(shì)逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動(dòng)電源 LED

[消費(fèi)電子]

AC-DC電源轉(zhuǎn)換拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)

LED通用照明設(shè)計(jì)工程師會(huì)遇到許多挑戰(zhàn)，如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字： LED 驅(qū)動(dòng)電源功率因數(shù)校正

[電源]

針對(duì)于LED照明驅(qū)動(dòng)電源技術(shù)中的電磁干擾其中的三大硬件問(wèn)題措施

在LED照明技術(shù)日益普及的今天，LED驅(qū)動(dòng)電源的電磁干擾(EMI)問(wèn)題成為了一個(gè)不可忽視的挑戰(zhàn)。電磁干擾不僅會(huì)影響LED燈具的正常工作，還可能對(duì)周?chē)娮釉O(shè)備造成不利影響，甚至引發(fā)系統(tǒng)故障。因此，采取有效的硬件措施來(lái)解決L...

關(guān)鍵字： LED照明技術(shù) 電磁干擾驅(qū)動(dòng)電源

[電源]

LED驅(qū)動(dòng)電源的核心部分“開(kāi)關(guān)管”和“變換器”設(shè)計(jì)技巧

開(kāi)關(guān)電源具有效率高的特性,而且開(kāi)關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動(dòng)電源

關(guān)鍵字： LED 驅(qū)動(dòng)電源開(kāi)關(guān)電源

[電源]

最全LED驅(qū)動(dòng)電源及散熱設(shè)計(jì)方案介紹

LED驅(qū)動(dòng)電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動(dòng)LED發(fā)光的電壓轉(zhuǎn)換器，通常情況下：LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字： LED 隧道燈驅(qū)動(dòng)電源