如何利用深度學(xué)習(xí)加速癌癥研究
盡管近幾十年來在檢測和治療方面取得了穩(wěn)步進(jìn)展,癌癥仍然是美國的第二大死亡原因,每年約有50萬人因癌癥去世。為了更好地認(rèn)識和對抗癌癥,醫(yī)學(xué)研究者們開始借助癌癥登記程序開展研究。這一全國性的組織網(wǎng)絡(luò)可系統(tǒng)收集與美國癌癥診斷、治療和發(fā)病史相關(guān)的人口統(tǒng)計數(shù)據(jù)和臨床信息。監(jiān)測工作由國家癌癥研究所(NCI)和疾病控制預(yù)防中心共同協(xié)作完成,目標(biāo)是使研究人員和臨床醫(yī)生能夠監(jiān)測全國、各州各地方的癌癥病例。
這些數(shù)據(jù)大部分摘自電子文本臨床報告。這些報告必須由人工整理,因此需要?dú)v時很久才能被用于研究。例如,一份詳細(xì)描述癌性組織的癌癥病理報告在被錄入登記系統(tǒng)之前必須先由多位專家審核。隨著每年數(shù)百萬份新報告的不斷產(chǎn)生,信息負(fù)擔(dān)不斷加重。
美國能源部(DOE)橡樹嶺國家實驗室(ORNL)健康數(shù)據(jù)科學(xué)研究所主任Georgia Tourassi表示:“手動模型是不可擴(kuò)展的。我們需要開發(fā)新的工具,使其能夠自動完成信息提取過程,真正實現(xiàn)美國癌癥監(jiān)測的現(xiàn)代化。”
自2014年以來,Tourassi團(tuán)隊一直在專注于開發(fā)一款能快速識別癌癥報告中有價值的信息的軟件,這種能力不僅可以節(jié)省時間,還可能揭示癌癥研究中被忽視的一些方法。在嘗試使用傳統(tǒng)的自然語言處理軟件試驗后,該團(tuán)隊利用深度學(xué)習(xí)技術(shù)獲得了最新進(jìn)展,深度學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),能夠利用算法、大數(shù)據(jù)和圖形處理器的計算能力來模擬人類的學(xué)習(xí)和智力。
借助于橡樹嶺計算機(jī)科學(xué)聯(lián)合研究所(Oak Ridge Leadership Computing Facility)的超級計算機(jī)TItan,Tourassi團(tuán)隊?wèi)?yīng)用深度學(xué)習(xí)技術(shù)從癌癥病理報告中提取到了有用的信息。通過使用適當(dāng)?shù)臄?shù)據(jù)集,該團(tuán)隊獲得的初步成果證明了深度學(xué)習(xí)在癌癥監(jiān)測中的潛力。
自動數(shù)據(jù)工具的不斷發(fā)展與成熟是美國“癌癥登月計劃”(Cancer Moonshot iniTIaTIve)的目標(biāo)之一,將使醫(yī)學(xué)研究人員和政策制定者對美國癌癥人群的具體現(xiàn)狀獲得空前認(rèn)識,而過去的病例數(shù)據(jù)僅僅來自不到癌癥患者總?cè)丝?%的臨床試驗患者。
Tourassi說:“我們目前是根據(jù)很小比例的癌癥患者的治療效果做出判斷,而他們不能代表整個患者群體。我們的工作顯示了深度學(xué)習(xí)的潛力,它可以判斷癌癥治療和診斷方法的有效性,并讓癌癥患者更好地了解這些方法的現(xiàn)實效果。
開發(fā)一款不僅能夠理解詞義還能理解詞語之間上下文關(guān)系的軟件并非易事,人類需要通過多年的訓(xùn)練來發(fā)展這些技能。對于特定任務(wù),深度學(xué)習(xí)技術(shù)能夠?qū)⒃撨^程壓縮到幾個小時。
通??赏ㄟ^訓(xùn)練神經(jīng)網(wǎng)絡(luò)來實現(xiàn)語境創(chuàng)建。該神經(jīng)網(wǎng)絡(luò)是一個加權(quán)計算網(wǎng)絡(luò),能就如何正確執(zhí)行任務(wù)提出明智的建議,如識別圖像或處理語言命令,輸入到神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)和選擇性反饋信息為軟件提供了決策依據(jù)。程序員很難弄清這一算法決策過程。Tourassi稱,有了深度學(xué)習(xí)技術(shù),用戶只需要把文件內(nèi)容導(dǎo)入,然后就能得到結(jié)果。它更像一個黑盒子,但這正是其吸引人之處。
圖形處理器可通過同時快速執(zhí)行多個深度學(xué)習(xí)計算進(jìn)程來加速軟件的學(xué)習(xí)過程。在最近兩項研究中,Tourassi團(tuán)隊使用了加速器調(diào)整多個算法,并將結(jié)果與傳統(tǒng)方法進(jìn)行比較。通過使用國家癌癥研究所的SEER項目提供的1976份病理學(xué)報告組成的數(shù)據(jù)集,Tourassi團(tuán)隊訓(xùn)練了一種深度學(xué)習(xí)算法,用來執(zhí)行兩種密切相關(guān)的信息提取任務(wù)。在第一項任務(wù)中,算法通過掃描每份報告的內(nèi)容確定腫瘤的首發(fā)部位。在第二項任務(wù)中,算法識別的是腫瘤部位的偏側(cè)性或腫瘤位于身體的哪一側(cè)。
該團(tuán)隊建立了一個能夠發(fā)現(xiàn)上述兩項任務(wù)間共同點(diǎn)的神經(jīng)網(wǎng)絡(luò),并稱之為多任務(wù)學(xué)習(xí),他們發(fā)現(xiàn)該算法的表現(xiàn)明顯優(yōu)于其他方法。Tourassi說:“這樣的發(fā)現(xiàn)是有意義的,因為了解相關(guān)任務(wù)的相互關(guān)系的目的正是為了執(zhí)行更難的任務(wù)。人類可以勝任這種類型的學(xué)習(xí),因為我們理解詞語之間的語境關(guān)系,這正是我們試圖通過深度學(xué)習(xí)實現(xiàn)的目標(biāo)?!?/p>
Tourassi團(tuán)隊開展的另一項研究使用了946份關(guān)于乳腺癌和肺癌的SEER報告應(yīng)對更復(fù)雜的挑戰(zhàn):使用深度學(xué)習(xí)將癌癥的來源與相應(yīng)的拓?fù)浯a進(jìn)行匹配。該分類比癌癥的首發(fā)位置或偏側(cè)性更具特異性,有12種可能的答案。
為了解決上述問題,該團(tuán)隊建立了一個卷積神經(jīng)網(wǎng)絡(luò)并使用各種語料訓(xùn)練。輸入的文本包括一般領(lǐng)域(如Google搜索的結(jié)果)、特定領(lǐng)域(如醫(yī)學(xué)文獻(xiàn))和高度專業(yè)化領(lǐng)域的資料(如癌癥病理報告),然后算法基于這些輸入信息創(chuàng)建一個數(shù)學(xué)模型,用以描繪單詞之間的聯(lián)系,其中包括不相關(guān)的文本之間共有的詞匯。
通過將這種方法與傳統(tǒng)的分類器(如矢量空間模型)進(jìn)行比較,研究小組發(fā)現(xiàn),隨著網(wǎng)絡(luò)中納入了更多與癌癥相關(guān)的文本,算法性能變得越來越好。這些初步結(jié)果將有助于Tourassi團(tuán)隊進(jìn)一步擴(kuò)展深度學(xué)習(xí)算法,從而能夠處理更大的數(shù)據(jù)集并減少人為干預(yù)。
2016年,美國能源部將Tourassi團(tuán)隊的癌癥監(jiān)測項目列入了“百億億次級計算項目”,該團(tuán)隊在利用深度學(xué)習(xí)進(jìn)行癌癥研究方面已經(jīng)取得了巨大進(jìn)展,希望在未來能夠取得更多的研究成果。





