摩根大通說要解決人工智能在算法中,如何進(jìn)行電子交易等難題
J.P. Morgan(摩根大通)一直是銀行金融行業(yè)中積極應(yīng)用大數(shù)據(jù)和人工智能技術(shù)的典范和先行者。他們的 NeurIPS 2018 論文《數(shù)據(jù)驅(qū)動的學(xué)習(xí)在電子交易中的特質(zhì)和難題(Idiosyncrasies and challenges of data driven learning in electronic trading)》探討了算法交易中機(jī)器學(xué)習(xí)等技術(shù)的應(yīng)用情況,也分享了摩根大通的最新經(jīng)驗。機(jī)器之心對該論文進(jìn)行了全文編譯,對該論文的介紹也可參閱機(jī)器之能的文章《如何在算法交易中使用 AI?摩根大通發(fā)布新版指南》。
1 引言由養(yǎng)老基金和其它資產(chǎn)管理機(jī)構(gòu)持有的金融工具投資組合會經(jīng)歷周期性的再平衡,有時候這個過程會很劇烈。代理電子交易(agency electronic trading)是大銀行和專業(yè)經(jīng)紀(jì)公司等經(jīng)紀(jì)商所提供的一種服務(wù),可幫助提升這些交易的效率。高效的投資組合轉(zhuǎn)換能幫助客戶節(jié)省很多東西,進(jìn)而又能助益這些投資組合的最終受益人——教師、醫(yī)生、消防員、政府公務(wù)員、工人、對沖基金運(yùn)營人等。
資產(chǎn)交易的全球化、超快速信息技術(shù)的蓬勃以及快如閃電的通信技術(shù)已讓人類無力從事例行的低層決策過程。如今,股票和電子期貨合約的大多數(shù)微觀交易決策都是由算法制定的:它們定義在何處以什么價格交易多少數(shù)量。圖 1 給出了這種算法的一個示例。
根據(jù)自己的總體投資量和執(zhí)行目標(biāo),客戶通常會向執(zhí)行經(jīng)紀(jì)商下達(dá)帶有特定限制條件和偏好的指令。舉幾個例子,客戶可能希望保證他們的投資組合轉(zhuǎn)換中的貨幣中立性,這樣賣出的數(shù)量就大致等于買入的數(shù)量??蛻粢部赡鼙磉_(dá)他們的風(fēng)險偏好并指示被執(zhí)行的證券籃子以一種受控的方式暴露給特定的企業(yè)、國家或行業(yè)。對于單個訂單執(zhí)行,客戶可能希望控制該訂單執(zhí)行影響市場價格的方式(控制市場影響),或控制訂單受市場波動性的影響方式(控制風(fēng)險),或指定一種緊急程度以在市場影響和風(fēng)險之間取得最優(yōu)的平衡。
為了滿足這些多方面的且有時候互相沖突的目標(biāo),電子交易算法會運(yùn)行在多種粒度層級上。市場分析和量化模型可以為每個層級的決策提供信息。傳統(tǒng)上,電子交易算法是科學(xué)的量化模型的一種混合體,能從量化角度表達(dá)世界的運(yùn)作方式以及規(guī)則和啟發(fā)性知識,這些來自于人類交易員和算法用戶的實際經(jīng)驗、觀察和偏好。傳統(tǒng)交易算法以及伴隨它的模型通常會被封裝成數(shù)以萬計行數(shù)的代碼,這些代碼是人工編寫的,難以維護(hù)和修改。為了應(yīng)對不同客戶的目標(biāo)以及金融市場的變化,人工編寫的算法往往會遭遇“特征蔓延(feature creep)”問題,并最終會累積很多用于處理特殊情況的邏輯層、參數(shù)和修改調(diào)整。
金融服務(wù)業(yè)是一個受到嚴(yán)格監(jiān)管的行業(yè)。在某些地區(qū),參與者會面臨非常特定的要求,比如 ESMA(歐洲證券和市場管理局,2014)有“最優(yōu)執(zhí)行(best execution)”的概念。在符合這些要求的同時實現(xiàn)算法交易的效率是很有難度的:不斷變化的市場條件和市場結(jié)構(gòu)、監(jiān)管限制以及客戶的多種目標(biāo)和偏好讓設(shè)計開發(fā)電子交易算法的任務(wù)步履維艱。使用以數(shù)據(jù)為中心的方法、神經(jīng)處理和機(jī)器學(xué)習(xí)帶來了一個很有吸引力的機(jī)會,即有可能通過這些方法簡化電子交易業(yè)務(wù)中應(yīng)用的開發(fā)并提升其效率。
在這篇短論文中,我們試圖搭建學(xué)術(shù)界和金融業(yè)的已有方法之間的橋梁。我們給出了電子交易領(lǐng)域出現(xiàn)的實際難題和特質(zhì),我們希望這能為學(xué)術(shù)研究者帶來一些靈感。
2 量化金融領(lǐng)域中三大類以數(shù)據(jù)為中心的應(yīng)用在這一章節(jié),我們首先會介紹 Peter Norvig 在 Norvig [2011] 中提出的論點并會做進(jìn)一步的延展。下面的三大類方法與該領(lǐng)域連續(xù)三代研究者浪潮緊密相關(guān)。
2.1 數(shù)據(jù)建模方法
這類方法的特點是相信自然(以及金融市場)可被描述成一個黑箱(black box),其中有實際生成觀察數(shù)據(jù)的相對簡單的模型。量化金融的任務(wù)是為這個數(shù)據(jù)生成過程找到一種合理的函數(shù)近似,即一種量化模型,并從數(shù)據(jù)中提取出它的參數(shù)。然后,該模型的輸出會被送入量化決策過程。市場和市場參與者的行為的復(fù)雜性是數(shù)據(jù)建模方法所面臨的主要難題:簡單模型不一定能得到環(huán)境的所有本質(zhì)屬性??梢哉J(rèn)為簡單模型往往會讓人感到錯誤的確定性,并由此容易造成慘重的損失。
2.2 機(jī)器學(xué)習(xí)方法
對于自然和金融市場是否簡單的問題,機(jī)器學(xué)習(xí)方法走向了一條不可知論的道路。我們確實有很好的理由認(rèn)為它們并不簡單:從實踐中看,金融世界更像是達(dá)爾文式的,而非牛頓式的;也就是說在不斷演進(jìn),我們觀察到的包括電子市場中交易在內(nèi)的過程最好被描述為涌現(xiàn)出的行為,而不是生成數(shù)據(jù)的機(jī)器。機(jī)器學(xué)習(xí)方法會使用復(fù)雜且有時含混不清的函數(shù)來建模這些觀察。研究者并不會宣稱這些函數(shù)能揭示其基本過程的本質(zhì)。與在數(shù)據(jù)建模方法中類似,機(jī)器學(xué)習(xí)模型建立后,其輸出會被送入決策過程。復(fù)雜的模型也容易出現(xiàn)故障:模型故障的風(fēng)險會隨模型復(fù)雜度的增長而增大。
2.3 算法決策方法
我們在這里關(guān)注的重點是決策,而不是建模。我們繞過學(xué)習(xí)“世界如何運(yùn)作”的階段,而是直接訓(xùn)練電子經(jīng)紀(jì)人/智能體(agent)來分辨好的決策和壞的決策。這種方法的難題是我們是否有能力理解和解釋算法經(jīng)紀(jì)人的決策、理解它的策略以及確保它能在所有(包括假設(shè)的)環(huán)境中都能有合理的行為。在算法決策方法中,智能體會學(xué)習(xí)到特定的動作是差的,因為它們會導(dǎo)致出現(xiàn)負(fù)面結(jié)果(固有差錯)。但我們?nèi)匀槐仨氉⑷胫岛鸵?guī)則以及約束,以讓智能體不會采取我們認(rèn)為禁止的行為(非法行為),畢竟智能體無法從其環(huán)境和歷史中學(xué)到這些。
在這篇論文中,我們將展示一種強(qiáng)化學(xué)習(xí)的實際應(yīng)用中智能體的約束和獎勵之間的相互作用。我們還將概述特定的難題以及我們使用計算資源解決它們的方法,還將介紹多個行業(yè)與學(xué)術(shù)界中其它團(tuán)隊取得的許多成果。
3 從低維到高維再回到低維3.1 高層面決策
從非常高層面的角度看,很顯然每個訂單都有一個最優(yōu)的執(zhí)行速率或執(zhí)行時間表,也就是說,訂單在市場中以怎樣的速度執(zhí)行或執(zhí)行的持續(xù)時間如何。
首先,幾乎任何規(guī)模的訂單都可以即時執(zhí)行——只要客戶不在意執(zhí)行成本并愿意付費(fèi)。在正常情況下,這種執(zhí)行方式無疑是不合理的、低效的而且有可能成本極其高昂。這樣的執(zhí)行有很高的可能性會影響市場價格。
另一方面,如果父訂單(parent order)通過其子訂單(child order)以無限慢的速度執(zhí)行,則其幾乎不會給市場帶來壓力。這樣的執(zhí)行也是不合理的,因為沒有任何客戶不在意不受干擾的市場價格與該訂單相悖的可能性(買單時上漲,賣單時下跌)。執(zhí)行時間越長,市場價格違背客戶的最佳利益的可能性就會越高,也就是說會有更高的風(fēng)險。
通過簡單考慮這兩種極端情況,很容易就能看出必然存在一個最優(yōu)的執(zhí)行速度或最優(yōu)的執(zhí)行時間安排。我們還能輕松看出客戶的偏好和容忍度也會帶來影響:有效速度是由客戶對市場價格的容忍度和對風(fēng)險的偏好決定的。這種高層面決策案例的不確定性來自高層面的分析和量化模型。
這也表明了一個我們常常會在電子交易以及其它量化金融領(lǐng)域發(fā)現(xiàn)和重新發(fā)現(xiàn)的重要事實:沒有解決方案,只有權(quán)衡取舍。
3.2 低層面決策
一旦找到了大致的最優(yōu)速度或時間表,下一級的決策就是實現(xiàn)這個時間表。為了按照時間表行事,經(jīng)紀(jì)人通常會嘗試與市場的其它部分融合到一起:特立獨(dú)行對自己有害,因為這會揭示出該經(jīng)紀(jì)人的意圖。經(jīng)紀(jì)人會在規(guī)模和價格上模仿其他參與者的訂單來創(chuàng)建市場訂單。
正是在這里,我們發(fā)現(xiàn)了維度爆炸的問題。
描述限價訂單簿(limit order book)的市場狀態(tài)是一種維度可變且維度很高的問題。每個價格層級都有一些來自不同市場參與者的不同規(guī)模的訂單隊列。這些隊列可能任意長,也可能為空。在任意特定時間,最重要的價格層級是對應(yīng)當(dāng)前主要買價和賣價的層級。但是,在更深的層級以及投機(jī)性的距離很遠(yuǎn)的層級也會存在顯著的訂單量。隨著交易發(fā)生以及訂單的接收和撤銷,訂單簿一直處于變化之中。觀察中的任何市場狀態(tài)都有可能演化成其它市場狀態(tài),而這些市場狀態(tài)的數(shù)量近乎無限多。
在這樣的環(huán)境中,即使只考慮訂單時間、價格、規(guī)模和持續(xù)時間的最基本層級,可行決策集也會非常龐大和密集。經(jīng)紀(jì)人必須決定以怎樣的價格和數(shù)量下單,而且如有需要,還會以不同的價格下多個訂單或者在我們已有訂單的地方以不同價格增加額外下單。如果一個訂單的價格不是市場價格,那么該訂單會一直留在訂單簿中,直到市場價格觸及訂單價格(如果能觸及到的話)。其動作空間必須是動態(tài)且復(fù)雜的,因為為了改善價格,按深度下單是必需的;而且訂單會根據(jù)訂單簿中的價格-時間優(yōu)先級逐漸履行。根據(jù)可行的執(zhí)行時機(jī),最終的情況可能很復(fù)雜——可能存在多個合適的交易時機(jī)和訂單類型。
一局國際象棋大約要下 40 步。一局圍棋大約是 200 步。如果一個中頻電子交易算法每秒鐘重新考慮一次其選擇,那么就相當(dāng)于每小時 3600 步。對于國際象棋或圍棋,每一步都是操控一個符合條件的棋子,并且要操作的也只有棋子。
對于電子交易,每個動作都是操作子訂單的集合:它由具有不同特征(價格、規(guī)模、訂單類型等)的多個并發(fā)訂單構(gòu)成。比如,一個動作可能會同時提交一個被動買單和一個攻擊性買單。其中的被動子訂單會以指定的價格留存在訂單簿中,由此能為其他市場參與者提供流動性。提供流動性可能最終會在交易發(fā)生時通過獲得價差(spread)來獲利:相對于在同一交易中獲取流動性的參與者,能以更好的價格完成交易。而攻擊性子訂單可用于取得參與一次價格變動的機(jī)會。兩者可構(gòu)成一個動作。最終得到的動作空間會非常大,而且會隨組合的特征數(shù)量而指數(shù)增長。
我們還不完全清楚如何定義每個動作的有效性。有人認(rèn)為,對于電子交易智能體,決策的有效性和最優(yōu)性可體現(xiàn)在檢測和把握機(jī)會(“好”交易)以及避開陷阱(“壞”交易)上。這種細(xì)粒度的定義的問題不僅在于很多機(jī)會的持續(xù)時間很短,而且可能都只存在微秒級的尺度上。更重要的是,事實上只有在交易執(zhí)行(或避開)之后,我們才能確定該交易究竟是好是壞。
這樣的后果是局部最優(yōu)性不一定能轉(zhuǎn)化成全局最優(yōu)性:現(xiàn)在被認(rèn)為是糟糕的交易到那天結(jié)束時可能會被證明是一個出色的交易。在這種情況下,我們感興趣的既有探索和重新定義“什么是機(jī)會”,而且還有定義“如何采取行動”。我們將電子交易的這一獨(dú)特方面稱為“非局部最優(yōu)性(non-local opTImality)”。
對于電子交易智能體而言,還有一個可能的目標(biāo)(但并不一定是特有的或最好的),即要能與市場的其他部分融合到一起。如果需要這一目標(biāo),可以使用一個獎勵函數(shù)來實現(xiàn)相對于交易量加權(quán)的平均價格的最優(yōu)執(zhí)行價格。這一策略必須找到一個平衡,以兼顧交易過快和價格變動造成的市場影響以及因交易過慢而遭受外部因素影響價格的市場風(fēng)險。這一問題的一大重要部分是以某種方式整合狀態(tài)信息和動作空間,使之適用于擬合模型以及使用機(jī)器學(xué)習(xí)方法。這涉及到歸總市場狀態(tài),其中可能包括巨大的可變且常變的維度和訂單狀態(tài),而且父訂單和子訂單都會被納入模型輸入中。然后從可變數(shù)量的動作中選出一個作為響應(yīng)。
3.3 之前的工作
這一領(lǐng)域之前的研究工作覆蓋了很廣的范圍,但基本上都針對的是這一問題的單個方面。某些研究包括在小維度環(huán)境中為強(qiáng)化學(xué)習(xí)進(jìn)行預(yù)先設(shè)置,另一些則考慮以一種簡明且固定維度的方式來表征數(shù)據(jù)。Akbarzadeh et al. [2018] 則研究了通過執(zhí)行在線學(xué)習(xí)來驅(qū)動算法。但是,因為只能下市場訂單,其性能很受限。
Nevmyvaka et al. [2006] 定義了一整個強(qiáng)化學(xué)習(xí)問題,但受到了動作空間的嚴(yán)格限制——只承認(rèn)單個訂單,新訂單會取消掉舊訂單。Zhang et al. [2018] 將限價訂單簿總結(jié)成了 40 維的向量,其中包含來自價差任一側(cè)的 10 個價格層級的價格和交易量信息。這些信息基于前一天的交易進(jìn)行了歸一化,并被用于預(yù)測市場波動。Doering et al. [2017] 更進(jìn)一步,設(shè)計了 4 個包含訂單簿、交易、新訂單和訂單取消情況的矩陣,代價是維度增大了 4 倍且要使用非常稀疏的數(shù)據(jù)。
未來的研究方向主要面向基于強(qiáng)化學(xué)習(xí)方法的交易智能體的繼續(xù)研究和開發(fā)。這方面的核心是有效的降維方法,以便整合盡可能多的有關(guān)當(dāng)前市場和已有訂單狀態(tài)的信息,這兩者都需要對高度可變的維度數(shù)據(jù)進(jìn)行固定維度的表征。現(xiàn)有的方法是通過假設(shè)存在固定數(shù)量的特定價格的未完成子訂單來簡化訂單管理流程;相比于人類交易員可采用的動作,這類方法有太大的局限性。
3.4 簡要描述我們的方法
我們現(xiàn)在正在運(yùn)行我們的基于強(qiáng)化學(xué)習(xí)的限價下單引擎。我們成功使用一個有限定的動作空間訓(xùn)練了一個策略。為了解決前面描述的問題,我們使用了利用領(lǐng)域知識的分層學(xué)習(xí)和多智能體訓(xùn)練。我們在多個局部短期目標(biāo)上訓(xùn)練了局部策略(比如如何提交攻擊性訂單與如何提交被動訂單),這些局部短期目標(biāo)在獎勵、步驟和時間范圍特征上各有不同。然后我們將這些局部策略組合起來,然后更長期的策略是學(xué)習(xí)如何組合這些局部策略。
我們還相信逆向強(qiáng)化學(xué)習(xí)很有發(fā)展?jié)摿Γ豪萌祟惡退惴ú呗栽诮鹑谑袌錾系男袨榈拇笠?guī)模歷史來構(gòu)建局部獎勵是一個很活躍的研究領(lǐng)域。
4 在開發(fā)電子交易 AI 方面超越策略學(xué)習(xí)4.1 策略學(xué)習(xí)算法
強(qiáng)化學(xué)習(xí)的核心目標(biāo)是最大化總和獎勵,這類似于真實的商業(yè)目標(biāo)。根據(jù)該目標(biāo)優(yōu)化一個參數(shù)化動作策略的策略學(xué)習(xí)算法一直都是強(qiáng)化學(xué)習(xí)研究領(lǐng)域內(nèi)一個研究焦點。近期已有一些研究將著名的策略學(xué)習(xí)算法用到了電子交易業(yè)務(wù)上 [Akbarzadeh et al., 2018] [Nevmyvaka et al., 2006]。我們將介紹除了策略學(xué)習(xí)算法的能力之外的強(qiáng)化學(xué)習(xí)的其它方面。
4.2 分層決策
AI 在電子交易中的真實應(yīng)用通常都有較長的時間范圍。客戶訂單需要很多分鐘甚至幾個小時(有時需要數(shù)天)才能成交,而智能體需要每幾秒一次甚至更快速地做出決策。這種時間范圍問題極大地限制了智能體的采樣頻率,使其遠(yuǎn)低于完全整合所有可用的市場動態(tài)信息所需的頻率。
此外,智能體做決策的時間并不均勻。它做決策不根據(jù)時間,而是響應(yīng)自己的動作的影響以及環(huán)境的顯著變化。
因此,強(qiáng)化學(xué)習(xí)中的時間抽象就變成了應(yīng)對長時間范圍和時間不均勻性的關(guān)鍵問題。在這里將其比作是跳幀可能并不合適——即只每隔一些時間步驟做一次決策。Semi-MDP(sMDP/半馬爾可夫決策過程)一直以來都是用于發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)智能體的時間抽象行為的突出場景 Sutton et al., 1999]。但是,針對何時采取行動以及做何種決定訓(xùn)練單個策略仍然具有很低的樣本效率。將 sMDP 與分層強(qiáng)化學(xué)習(xí)(HRL)結(jié)合到一起是一種可能的解決方案。在 HRL 方法中,決策模型由具有不同決策頻率(從元策略到原始策略)的策略層構(gòu)成。
我們的電子交易智能體構(gòu)建方案主要基于 Kulkarni 對基于規(guī)則的深度 HRL 的解釋 [Kulkarni et al., 2016],因為我們能夠制定出合理的規(guī)則來構(gòu)建基于領(lǐng)域經(jīng)驗的元策略。我們也注意到了端到端(無規(guī)則)分層強(qiáng)化學(xué)習(xí)的進(jìn)展,其中元策略的時間抽象屬性源自原始策略的行為或目標(biāo)的聚類 [Bacon et al., 2017][Fox et al., 2017][Vezhnevets et al., 2017]。
但是,AI 智能體使用時間抽象的能力方面的核心問題仍未得到解決:智能體在總體目標(biāo)的背景中對子目標(biāo)和內(nèi)在獎勵的解釋、時間抽象在收斂時的崩潰、在需要重度探索的環(huán)境中的樣本效率和深度的層次結(jié)構(gòu)。
4.3 算法、監(jiān)管和計算難題
電子交易智能體運(yùn)行在復(fù)雜的、不斷演進(jìn)且快速變化的環(huán)境中。復(fù)雜度得到提升的智能體能得到更好的決策和效果,這是個加分項,但這也可能影響智能體的計算性能,并最終讓其無法實際部署。
另一個限制經(jīng)紀(jì)商電子交易智能體的復(fù)雜度的約束是對理解、預(yù)測和解釋其決策的需求——從最高層面的決策到最低層面的決策都需要。
某些地區(qū)要求交易算法的行為是可預(yù)測的、可控制的和可解釋的:這些智能體必須不能擾亂所謂的“有序的市場條件”,智能體的運(yùn)營者必須要能解釋其智能體如何能為其客戶得到最佳的可能結(jié)果。
分層方法在這里很有幫助:人們觀察到智能體的決策可以被分成不同的組別,這些組別所需的采樣頻率和粒度都不相同。我們在前面已經(jīng)提到,分層式架構(gòu)和 HRL 讓我們有可能分隔智能體模塊之間的職責(zé)。我們?nèi)匀豢梢栽谒鼈兏髯灾惺褂蒙窠?jīng)處理和強(qiáng)化學(xué)習(xí),同時我們也會有能力管理智能體的整體復(fù)雜度,我們也能更好地理解智能體的行為以及如此行為的原因。
5 分層強(qiáng)化學(xué)習(xí)方案5.1 在需要重度模擬的學(xué)習(xí)任務(wù)上對元策略進(jìn)行基于搜索的優(yōu)化
訓(xùn)練強(qiáng)化學(xué)習(xí)智能體需要很多情節(jié)展開,而由于智能體與其環(huán)境之間的反饋循環(huán),其中每一段情節(jié)展開都不能并行?;谔荻鹊闹悄荏w訓(xùn)練會遇到大量經(jīng)歷對(experience pairs)占滿內(nèi)存的情況,而這些經(jīng)歷對往往很冗余且充滿噪聲。除非學(xué)習(xí)算法有強(qiáng)大的離策略,否則優(yōu)良的行為會在訓(xùn)練過程中被遺忘,同時涉及到一個變動目標(biāo)的梯度優(yōu)化又很難確保成功。因為這個原因,雖然近期在策略學(xué)習(xí)算法方面出現(xiàn)了一些進(jìn)展,但使用參數(shù)搜索算法實現(xiàn)無梯度優(yōu)化仍然是一個實用的選擇。
通過完全控制情節(jié)效用(episodic uTIlity),應(yīng)用超參數(shù)優(yōu)化技術(shù)來訓(xùn)練參數(shù)化的智能體,我們已經(jīng)贏得了顯著的時間效率 [Osborne et al., 2009][Bergstra et al., 2011],這也提升了整體的執(zhí)行表現(xiàn),同時無需應(yīng)對獎勵的設(shè)計問題。這里我們也強(qiáng)調(diào)一下參數(shù)搜索算法的學(xué)習(xí)效率。
計算的局限性限制了對全序列優(yōu)化方法的使用。我們緩解這一問題的方法是探索在每次試驗中使用具有更少采樣情節(jié)的確定性更低的優(yōu)化,但以并行的方式運(yùn)行它。無關(guān)路徑的早停是在兩者之間的很好妥協(xié)。但是,我們希望使用一種貝葉斯的早停方法繼續(xù)這方面的開發(fā)。
5.2 用于低層面決策過程的可擴(kuò)展深度強(qiáng)化學(xué)習(xí)
前面我們提到了一些我們在開發(fā)電子交易智能體方面所面臨的難題:環(huán)境是部分可觀察的、細(xì)粒度的市場動態(tài)、智能體的觀察及其整體業(yè)務(wù)目標(biāo)之間存在可能的時間范圍的不可通約性(incommensurability)、巨大的狀態(tài)空間、有延遲且可能錯開的獎勵。
和每個市場參與者一樣,我們的智能體也會改變它們運(yùn)作其中的環(huán)境。我們在一個結(jié)構(gòu)化的模擬環(huán)境中訓(xùn)練了我們的智能體,該環(huán)境試圖重現(xiàn)真實市場的某些屬性,但目前還無法重現(xiàn)其所有屬性。尤其需要指出的是,我們想要構(gòu)建的是一個能夠模擬真實市場對智能體行為的響應(yīng)的環(huán)境。
初步證明,這需要一種支持可擴(kuò)展模擬和可擴(kuò)展強(qiáng)化學(xué)習(xí)算法的架構(gòu)。Gorila 架構(gòu) [Nair et al., 2015] 表明 DQN 算法 [Mnih et al., 2013] 可以大規(guī)模部署,實現(xiàn)更優(yōu)的結(jié)果。對于 A3C [Mnih et al., 2016],IMPALA 算法 [Espeholt et al., 2018] 最近也取得了相似的成績。一般而言,人們有興趣研究其它強(qiáng)化學(xué)習(xí)算法方案能否以及如何得到擴(kuò)展以利用大規(guī)模集群計算,從而得到更好的執(zhí)行策略。對于想要利用可用的計算資源針對自己的用例使用特定算法的從業(yè)者而言,基于證據(jù)的引導(dǎo)會非常有用。
開源強(qiáng)化學(xué)習(xí)框架的出現(xiàn)是一個激動人心的進(jìn)展,其中包括 OpenAI baselines [Dhariwal et al., 2017]、ELF [TIan et al., 2017]、Horizon [Gauci et al., 2018]、dopamine [Bellemare et al., 2018]、 TRFL [Deepmind, 2018] 和 Ray RLlib [Moritz et al., 2017]。這些框架和工具讓更多人都能用上當(dāng)前最先進(jìn)的強(qiáng)化學(xué)習(xí)算法。但是,前面提到的強(qiáng)化學(xué)習(xí)框架都還很早期,遠(yuǎn)不夠成熟,還沒有達(dá)到 Google TensorFlow、PyTorch 或 Caffe 等常用的深度學(xué)習(xí)庫那樣的“生產(chǎn)可用”的程度。如果圍繞強(qiáng)化學(xué)習(xí)框架有類似深度學(xué)習(xí)領(lǐng)域那樣的強(qiáng)大生態(tài)系統(tǒng)和社區(qū),那將會極大地促進(jìn)強(qiáng)化學(xué)習(xí)方法的更廣泛應(yīng)用。
我們發(fā)現(xiàn) Ray RLlib 非常有用。這是基于分布式強(qiáng)化學(xué)習(xí)思想從頭構(gòu)建起來的。它基于一種堅實的基礎(chǔ)設(shè)施,其利用了任務(wù)并行以及行為者(actor)模型 [Agha and Hewitt, 1987] 編程模式,這種編程范式已被證明在設(shè)計高效的大規(guī)模分布式計算系統(tǒng)方面非常成功 [Armstrong, 2010]。
強(qiáng)化學(xué)習(xí)實驗可能非常耗時,而且往往需要完成一系列子實驗,有時候還會因錯誤而中斷。Ray 的設(shè)計 [Moritz et al., 2017] 還解決了容錯問題。一般來說,強(qiáng)化學(xué)習(xí)實驗必需一些多功能和高效的工具來提升生產(chǎn)力,比如易用且低開銷的監(jiān)控和分析強(qiáng)化學(xué)習(xí)訓(xùn)練的工具。
從計算性能的角度看,強(qiáng)化學(xué)習(xí)算法的另一大難題是基于可用的計算資源為任務(wù)選擇合適的實現(xiàn)方式,從而確保算法有最快的全局收斂速度。以最優(yōu)的方式利用多核 CPU、GPU 和 TPU 等資源是很困難的。Ray 通過其資源感知型調(diào)度器而部分地解決了這一問題。它允許用戶以代碼注釋方式聲明資源需求,比如 CPU、GPU 或自定義資源的數(shù)量。這能在高層面上調(diào)整任務(wù)的計算性能,而無需用戶理解或干預(yù)任務(wù)調(diào)度。
6 經(jīng)典強(qiáng)化學(xué)習(xí)理論的不足和結(jié)果的不確定性大多數(shù)標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)應(yīng)用都假設(shè)智能體的獎勵是確定性的。但與這個假設(shè)相反,在電子交易智能體的運(yùn)作環(huán)境中,結(jié)果通常具有內(nèi)在的不確定性。人們傾向于將這種不確定性聲明為“噪聲”,來自一個隱含的數(shù)據(jù)生成過程,這確實也是默認(rèn)的近似方法。在數(shù)據(jù)驅(qū)動機(jī)器學(xué)習(xí)方法和算法方法中,結(jié)果的不確定性不是“噪聲”,這就是它的工作方式。我們不能簡單地就將市場的不確定性排除在外,因為它有重要的用途。
正如我們在本論文其它章節(jié)談到的,電子交易的結(jié)果的值是多維度的,且這些維度往往是不可通約的。在監(jiān)管建議和限制以及客戶的指示面前,我們還需要一種穩(wěn)健的方法來整合軟性限制和禁止行為的層次結(jié)構(gòu)。
結(jié)果的固有不確定性和獎勵的豐富多維度結(jié)構(gòu)給標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)理論帶來了挑戰(zhàn);在標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)理論中,智能體學(xué)習(xí)能得到平均更好的標(biāo)量值結(jié)果的動作。在金融領(lǐng)域,我們也很重視總體結(jié)果,但我們還重視結(jié)果分布的細(xì)節(jié)。我們需要一種能將這兩者結(jié)合起來的方法。
已有研究者提出了一種對標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法的輕度擴(kuò)展:整合了用于評估多維度和不確定結(jié)果的價值的效用函數(shù)。和在投資組合構(gòu)建等其它金融應(yīng)用中一樣,智能體會在一種確定性等效的意義上學(xué)習(xí)優(yōu)良的動作:不確定的結(jié)果和它們聚合的總體結(jié)果通過取結(jié)果的效用函數(shù)在它們的未來分布上的期望來進(jìn)行排序。
考慮一個例子:一個有限過程(為了讓我們忽略折扣因子)有一個標(biāo)量的不確定的獎勵,而該過程的全局獎勵是局部獎勵的總和。這個案例反映了一種經(jīng)典的電子交易設(shè)置:為了在交易資產(chǎn)的每股基礎(chǔ)上得到最好的可能結(jié)果。獎勵的整體總和仍然是不確定的。這種標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)公式的確定性等效(CE)的修正如下(參見 Bühler et al. [2018] 和 Mihatsch and Neuneier [2002]):
其中 U 和是效用函數(shù)及其倒數(shù),E 表示期望,CE 表示確定性等效:是在狀態(tài) s_i 的策略 π 動作,是其不確定的獎勵。
相比于傳統(tǒng)的強(qiáng)化學(xué)習(xí),效用函數(shù)和確定性等效的動作排序的使用能帶來更加豐富的智能體結(jié)構(gòu):在 CERL 中,智能體需要一種基于其風(fēng)險偏好和限制(但很初級)的特性,還需要由其整體業(yè)務(wù)目標(biāo)確定的目標(biāo)。如果客戶反對風(fēng)險,則一個動作的增大的結(jié)果不確定性會降低其確定性等效的獎勵。這帶來的結(jié)果是折扣因子 γ 的出現(xiàn)。經(jīng)典強(qiáng)化學(xué)習(xí)通常將其用作是無限或近乎無限過程的一個外部參數(shù)。在 CERL 中,它則是自然衍生出來的,是在我們展望未來時擴(kuò)大結(jié)果分布(等效于風(fēng)險增大)所得到的結(jié)果。
7 總結(jié)
仍有很多問題有待解決。我們希望它們能為難題的解決提供一些新角度:
是否存在一種用于考慮多維度獎勵的嚴(yán)格方法?
如何將不確定持續(xù)時間的概念整合進(jìn) MDP 范式中?
如何解決結(jié)果/獎勵不確定的問題?
如何為在市場中運(yùn)作的智能體創(chuàng)建接近真實的訓(xùn)練環(huán)境?一種可能的解決方案是開發(fā)全規(guī)模的人工環(huán)境,能夠根據(jù)多個異構(gòu)智能體的基于規(guī)則的行為,接近真實地將市場重現(xiàn)為涌現(xiàn)出的現(xiàn)象。模擬的多智能體市場既有實用價值,也有學(xué)術(shù)價值。
如何嚴(yán)格地將有沖突的/互補(bǔ)的局部和全局獎勵結(jié)合到一起?
除了使用領(lǐng)域知識來分割不同時間尺度的過程和使用分層訓(xùn)練,是否有設(shè)計在多個時間尺度運(yùn)作的智能體的嚴(yán)格方法?
可擴(kuò)展性:在電子交易中,在相似但最終不同的環(huán)境中訓(xùn)練許多智能體在計算上似乎是高效的,而不是訓(xùn)練一個用于處理所有環(huán)境的智能體。是否有一種方法能讓智能體針對不同的環(huán)境進(jìn)行訓(xùn)練,以讓它們從彼此的技能中受益?除了測試它們的功能之外,是否有辦法知曉兩個訓(xùn)練后的智能體在本質(zhì)上是否相似?
不管是在經(jīng)典強(qiáng)化學(xué)習(xí)中,還是在 CERL 中,都沒有以貝爾曼方程為基礎(chǔ),并且最終似乎僅適用于全局獎勵是局部獎勵的連續(xù)聚合的過程??梢蚤_發(fā)出一種整合了上述特征的更通用的序列決策方法嗎?
是否存在一種平衡的且系統(tǒng)性的方法,其一方面允許強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體解決越來越復(fù)雜的問題,另一方面又仍能保持我們理解它們的行為以及解釋它們的動作的能力?





