小毛片超清在线免费观看,少妇AAA久久久无码,国语自产拍精品无码网站

[導(dǎo)讀] 我們知道，TD－Learning時序差分是結(jié)合了動態(tài)規(guī)劃DP和蒙特卡洛MC（請參見人工智能（31））方法，并兼具兩種算法的優(yōu)點(diǎn)，是強(qiáng)化學(xué)習(xí)的中心。 TD－learning時序差

我們知道，TD－Learning時序差分是結(jié)合了動態(tài)規(guī)劃DP和蒙特卡洛MC（請參見人工智能（31））方法，并兼具兩種算法的優(yōu)點(diǎn)，是強(qiáng)化學(xué)習(xí)的中心。

TD－learning時序差分大概分了6類。其中，策略行動價值qπ的off－policy時序差分學(xué)習(xí)方法： Q－Learning（單步），Double Q－Learning（單步）。今天重點(diǎn)介紹Q－Learning算法。

Q Learning算法是由Watkins于1989年在其博士論文中提出，是強(qiáng)化學(xué)習(xí)發(fā)展的里程碑，也是目前應(yīng)用最為廣泛的強(qiáng)化學(xué)習(xí)算法。

Q Learning算法概念：

Q Learning算法是一種off－policy的強(qiáng)化學(xué)習(xí)算法，一種典型的與模型無關(guān)的算法，即其Q表的更新不同于選取動作時所遵循的策略，換句化說，Q表在更新的時候計算了下一個狀態(tài)的最大價值，但是取那個最大值的時候所對應(yīng)的行動不依賴于當(dāng)前策略。

Q Learning始終是選擇最優(yōu)價值的行動，在實(shí)際項目中，Q Learning充滿了冒險性，傾向于大膽嘗試。

Q Learning算法下，目標(biāo)是達(dá)到目標(biāo)狀態(tài)（Goal State）并獲取最高收益，一旦到達(dá)目標(biāo)狀態(tài)，最終收益保持不變。因此，目標(biāo)狀態(tài)又稱之為吸收態(tài)。

Q Learning算法下的agent，不知道整體的環(huán)境，知道當(dāng)前狀態(tài)下可以選擇哪些動作。通常，需要構(gòu)建一個即時獎勵矩陣R，用于表示從狀態(tài)s到下一個狀態(tài)s’的動作獎勵值。由即時獎勵矩陣R計算得出指導(dǎo)agent行動的Q矩陣。

Q矩陣是agent的大腦。

Q Learning算法本質(zhì)：

QLearning屬于TD－Learning時序差分學(xué)習(xí)。同樣，該算法結(jié)合了動態(tài)規(guī)劃和蒙特卡羅MC算法，模擬（或者經(jīng)歷）一個情節(jié)，每行動一步（或多步）后，根據(jù)新狀態(tài)的價值，來估計執(zhí)行前的狀態(tài)價值。

下面提到的Q－Learning是單步更新算法。

Q Learning算法描述：

Q－learning是一個突破性的算法。

利用下面公式進(jìn)行off－policy學(xué)習(xí)，即用公式來表示Q－Learning中Q表的更新：

Q（St，At）←Q（St，At）＋α［Rt＋1＋γmax Q（St＋1，a）？Q（St，At）］

其中：

St：當(dāng)前狀態(tài)state

At：從當(dāng)前狀態(tài)下，采取的行動acTIon

St＋1：本次行動所產(chǎn)生的新一輪state

At＋1：次回acTIon

Rt：本次行動的獎勵reward

γ為折扣因子，0＜＝ γ＜1，γ＝0表示立即回報，γ趨于1表示將來回報，γ決定時間的遠(yuǎn)近對回報的影響程度，表示犧牲當(dāng)前收益，換取長遠(yuǎn)收益的程度。將累計回報作為評價策略優(yōu)劣的評估函數(shù)。當(dāng)前的回報值以及以前的回報值都可以得到，但是后續(xù)狀態(tài)的回報很難得到，因此累計回報就難以計算。而Q－learning用Q函數(shù)來代替累計回報作為評估函數(shù)，正好解決這個問題。

α為控制收斂的學(xué)習(xí)率，0＜ α＜1。通過不斷的嘗試搜索空間，Q值會逐步趨近最佳值Q＊。

1）Q－learning單步時序差分學(xué)習(xí)方法算法描述

IniTIalize Q（s，a），s∈S，a∈A（s） arbitrarily， and Q（terminal， ˙）＝0
Repeat （for each episode）：
IniTIalize S
Choose A from S using policy derived from Q （e．g． greedy）
Repeat （for each step of episode）：
Take action A， observe R，S′
Q（S，A）←Q（S，A）＋α［R＋γmaxa Q（S‘，a）Q（S，A）］
S←S′；
Until S is terminal

每個episode是一個training session，且每一輪訓(xùn)練意義就是加強(qiáng)大腦，表現(xiàn)形式是agent的Q矩陣元素更新。當(dāng)Q習(xí)得后，可以用Q矩陣來指引agent的行動。

Q－learning使用了max，會引起一個最大化偏差（Maximization Bias）問題。
可以使用Double Q－learning可以消除這個問題。

2）Double Q－learning單步時序差分學(xué)習(xí)方法算法描述

Initialize Q1（s，a） and Q2（s，a），s∈S，a∈A（s） arbitrarily
Initialize Q1（terminal， ˙）＝Q2（terminal， ˙）＝0
Repeat （for each episode）：
Initialize S
Repeat （for each step of episode）：
Choose A from S using policy derived from Q1 and Q2 （e．g． greedy）
Take action A， observe R，S′
With 0．5 probability：
Q1（S，A）←Q1（S，A）＋α［R＋γQ2（S′，argmax Q1（S′，a））Q1（S，A）］
Else：
Q2（S，A）←Q2（S，A）＋α［R＋γQ1（S′，argmax Q2（S′，a））Q2（S，A）］
S←S′；
Until S is terminal

Double Q Learning算法本質(zhì)上是將計算Q函數(shù)進(jìn)行延遲，并不是得到一條樣本就可以更新價值函數(shù)，而是一定的概率才可以更新。由原來的1條樣本做到影響決策變?yōu)槎鄺l（至少兩條）樣本影響決策。

Q Learning理論基礎(chǔ)：

QLearning理論基礎(chǔ)如下：

1）蒙特卡羅方法

2）動態(tài)規(guī)劃

3）信號系統(tǒng)

4）隨機(jī)逼近

5）優(yōu)化控制

Q Learning算法優(yōu)點(diǎn)：

1）所需的參數(shù)少；

2）不需要環(huán)境的模型；

3）不局限于episode task；

4）可以采用離線的實(shí)現(xiàn)方式；

5）可以保證收斂到 qπ。

Q Learning算法缺點(diǎn)：

1） Q－learning使用了max，會引起一個最大化偏差問題；

2）可能會出現(xiàn)更新速度慢；

3）可能會出現(xiàn)預(yù)見能力不強(qiáng)。

注：使用Double Q－learning可以消除問題1）；使用多步Q －learning可以消除問題2）和3）。

Q Learning算法應(yīng)用：

從應(yīng)用角度看，Q Learning應(yīng)用領(lǐng)域與應(yīng)用前景都是非常廣闊的，目前主要應(yīng)用于動態(tài)系統(tǒng)、機(jī)器人控制、工廠中學(xué)習(xí)最優(yōu)操作工序以及學(xué)習(xí)棋類對弈等領(lǐng)域。

結(jié)語：

Q Learning是一種典型的與模型無關(guān)的算法，它是由Watkins于1989年在其博士論文中提出，是強(qiáng)化學(xué)習(xí)發(fā)展的里程碑，也是目前應(yīng)用最為廣泛的強(qiáng)化學(xué)習(xí)算法。Q Learning始終是選擇最優(yōu)價值的行動，在實(shí)際項目中，Q Learning充滿了冒險性，傾向于大膽嘗試，屬于TD－Learning時序差分學(xué)習(xí)。Q Learning算法已經(jīng)被廣泛應(yīng)用于動態(tài)系統(tǒng)、機(jī)器人控制、工廠中學(xué)習(xí)最優(yōu)操作工序以及學(xué)習(xí)棋類對弈等領(lǐng)域。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動方式相比，共陰恒流驅(qū)動在能效有哪些優(yōu)勢

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動電源

[電源]

工業(yè)電機(jī)驅(qū)動電源設(shè)計：反電動勢抑制與過流保護(hù)的集成方案

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下，工業(yè)電機(jī)作為核心動力設(shè)備，其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動勢抑制與過流保護(hù)是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié)，集成化方案的設(shè)計成為提升電機(jī)驅(qū)動性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機(jī) 驅(qū)動電源

[電源]

如何解決 LED 驅(qū)動電源的易損壞問題

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而，在實(shí)際應(yīng)用中，LED 驅(qū)動電源易損壞的問題卻十分常見，不僅增加了維護(hù)成本，還影響了用戶體驗(yàn)。要解決這一問題，需從設(shè)計、生...

關(guān)鍵字：驅(qū)動電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計中LED驅(qū)動電源的公式

根據(jù)LED驅(qū)動電源的公式，電感內(nèi)電流波動大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計驅(qū)動電源

[汽車電子]

EV主驅(qū)IGBT隔離驅(qū)動電源方案選擇問題探討

電動汽車(EV)作為新能源汽車的重要代表，正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機(jī)驅(qū)動控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字：電動汽車新能源驅(qū)動電源

[電源]

合理的驅(qū)動電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步，高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動電源 LED

[消費(fèi)電子]