日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 智能硬件 > 人工智能AI
[導讀] 如果希望了解機器學習,或者已經決定投身機器學習,你會第一時間找到各種教材進行充電,同時在心中默認:書里講的是牛人大神的畢生智慧,是正確無誤的行動指南,認真學習就能獲得快速提升。但實際情況是,你很

如果希望了解機器學習,或者已經決定投身機器學習,你會第一時間找到各種教材進行充電,同時在心中默認:書里講的是牛人大神的畢生智慧,是正確無誤的行動指南,認真學習就能獲得快速提升。但實際情況是,你很可能已經在走彎路。

科技發(fā)展很快,數(shù)據在指數(shù)級增長,環(huán)境也在指數(shù)級改變,因此很多時候教科書會跟不上時代的發(fā)展。有時,即便是寫教科書的人,也不見得都明白結論背后的“所以然”,因此有些結論就會落后于時代。針對這個問題,第四范式創(chuàng)始人、首席執(zhí)行官戴文淵近日就在公司內部分享上,向大家介紹了機器學習教材中的七個經典問題。戴文淵是ACM世界冠軍(2005年),“遷移學習”全球領軍人物,在遷移學習領域單篇論文引用數(shù)至今仍排名世界第三。曾任百度鳳巢策略的技術負責人、華為諾亞方舟實驗室主任科學家。

本文根據演講實錄整理,略有刪減。

有時我們會發(fā)現(xiàn),在實際工作中,應該怎么做和教科書講的結論相矛盾,這時候要怎么辦呢?難道教科書中的結論出錯了?事實上,有時確實如此。所以今天我就想和大家分享一下機器學習教材中的一些經典問題,希望對大家今后的工作和學習有所幫助。

問題一:神經網絡不宜超過3層

這是最有名錯誤判斷,現(xiàn)在的教科書幾乎已經不再有這樣的結論,但如果看15年、20年前的機器學習教科書,會有一個很有趣的結論:神經網絡不能超過三層。這和我們現(xiàn)在說的深度學習是矛盾的,深度學習現(xiàn)在大家比拼的不是神經網絡能不能超過三層,而是能不能做出一百層、一千層或者更多。

那為什么之前的教科書上會寫神經網絡不能超過三層,這就要從神經網絡的歷史說起。五十年代有位科學家叫Marvin Minksy,他是一位生物學家,數(shù)學又很好,所以他在研究神經元的時候就在想能不能用數(shù)學模型去刻畫生物的神經元,因此就設計了感知機。感知機就像一個神經細胞,它能像神經細胞一樣連起來,形成神經網絡,就像大腦的神經網絡。其實在60年代開始的時候,是有很深的神經網絡,但當時經過大量實驗發(fā)現(xiàn),不超過三層的神經網絡效果不錯,于是大概到80年代時就得出結論:神經網絡不宜超過三層。

那為什么現(xiàn)在這條結論又被推翻了呢?實際上這條結論是有前提條件的,即在數(shù)據量不大的情況下,神經網絡不宜超過三層。而從2005年開始,大家發(fā)現(xiàn)隨著數(shù)據增加,深度神經網絡的表現(xiàn)良好,所以慢慢走向深度學習。其實這里真正正確的原理是Valiant引理,它可以理解為“模型復雜度(例如專家系統(tǒng)的規(guī)則數(shù)量)要和數(shù)據量成正比”。數(shù)據量越大,模型就越復雜。上個世紀因為數(shù)據量小,所以神經網絡的層數(shù)不能太深,現(xiàn)在數(shù)據量大,所以神經網絡的層數(shù)就要做深。這也解釋了為什么當時教科書會有這樣的結論,而現(xiàn)在隨著深度學習的流行,大家已經不再會認為這句話是對的。

問題二:決策樹不能超過五層

如果有同學看教科書上介紹決策樹,會有一個說法就是決策樹要減枝,決策樹如果不減枝效果不好。還有教科書會告訴決策樹不能超過五層,超過五層的決策樹效果不好。這個結論和神經網絡結論一樣,神經網絡不能超過三層也是因為當時數(shù)據量不大,決策樹不能超過五層也是因為上個世紀數(shù)據量不夠大,二叉樹決策樹如果深度是N的話,復雜度大概是2的N次方,所以不超過五層復雜度也就是三十多。如果數(shù)據量達到一百萬的時候,決策樹能達到十幾二十層的規(guī)模,如果數(shù)據量到了一百億的時候決策樹可能要到三十幾層。

現(xiàn)在,我們強調更深的決策樹,這可能和教科書講的相矛盾。矛盾的原因是現(xiàn)在整個場景下數(shù)據量變大,所以要做更深的決策樹。當然,我們也不一定在所有的場景里都有很大數(shù)據量,如果遇到了數(shù)據量小的場景,我們也要知道決策樹是要做淺的。最根本來說,就是看有多少數(shù)據,能寫出多復雜的模型。

問題三:特征選擇不能超過一千個

有些教科書會單獨開個章節(jié)來講特征選擇,告訴我們在拿到數(shù)據后,要先刪除一些不重要的特征,甚至有的教科書注明,特征數(shù)不能超過一千,否則模型效果不好。但其實這個結論也是有前提條件的,如果數(shù)據量少,是不能夠充分支撐很多特征,但如果數(shù)據量大,結論就會不一樣。這也就是為什么我們做LogisTIcRegression會有幾十億個特征,而不是限制在幾百個特征。

過去傳統(tǒng)數(shù)據分析軟件,如SAS,之所以只有幾百個特征,是因為它誕生于上世紀七十年代,它面臨的問題是在具體場景下沒有太多可用數(shù)據,可能只有幾百上千個樣本。因此,在設計系統(tǒng)時,就只需要針對幾百個特征設計,不需要幾十億個特征,因為上千個樣本無法支撐幾十億特征。但現(xiàn)在,隨著數(shù)據量增加,特征量也需要增加。所以我認為,在大數(shù)據環(huán)境下,整個機器學習教科書里關于特征選擇的章節(jié)已經落后于時代,需要根據新的形式重新撰寫;當然在小數(shù)據場景下,它仍然具有價值。

問題四:集成學習獲得最好學習效果

第四個叫做集成學習,這個技術在各種數(shù)據挖掘比賽中特別有用,比如近些年KDD CUP的冠軍幾乎都是采用集成學習。什么是集成學習?它不是做一個模型,而是做很多(例如一千個)不一樣的模型,讓每個模型投票,投票的結果就是最終的結果。如果不考慮資源限制情況,這種模式是效果最好的。這也是為什么KDDCUP選手們都選擇集成學習的方式,為了追求最后效果,不在乎投入多少,在這種條件下,集成學習就是最好的方式。

但在現(xiàn)實中,企業(yè)做機器學習追求的不是用無限的資源做盡可能好的效果,而是如何充分利用有限資源,獲得最好效果。假設企業(yè)只有兩臺機器,如何用這兩臺機器獲得最好的效果呢?如果采用集成學習,用兩臺機器跑五個模型,就要把兩臺機器分成五份,每個模型只能用0.4臺機器去跑,因此跑的數(shù)據量就有限。那如果換種方式,不用集成學習,就用一個模型去跑,就能跑5倍的數(shù)據。通常5倍的數(shù)據量能比集成學習有更好的效果。在工業(yè)界比較少會應用集成學習,主要是因為工業(yè)界絕大多數(shù)的場景都是資源受限,資源受限時最好的方式是想辦法放進去更多的數(shù)據。集成學習因為跑更多的模型導致只能放更少的數(shù)據,通常這種效果都會變差。

問題五:正樣本和負樣本均衡采樣到1:1

第五個叫做均衡采樣,絕大多數(shù)的教科書都會講到。它是指如果我們訓練一個模型,正樣本和負樣本很不平均,比如在正樣本和負樣本1:100的情況下,就需要對正、負樣本做均衡采樣,把它變成1:1的比例,這樣才是最好的。但其實這個結論不一定對,因為統(tǒng)計學習里最根本的一條原理就是訓練場景和測試場景的分布要一樣,所以這個結論只在一個場景下成立,那就是使用模型的場景中正、負樣本是1:1,那這個結論就是對的。

正確的做法是,應用場景是1:100,那訓練集合最好也是1:100。均衡采樣不一定都是對的,多數(shù)情況下不采樣反而才是正確的。因為大多時候,我們直接把訓練集合和測試集合做隨機拆分,或者按照時間拆分,二者的分布就是一致的,那個時候不采樣是最好的。當然有時候,我們也會發(fā)現(xiàn)做負樣本采樣會有更好的效果,比如范式在為某股份制銀行卡中心做交易反欺詐時,就做了負樣本采樣,那是因為當我們把所有樣本都放進去后,發(fā)現(xiàn)計算資源不夠,所以只能做采樣。正樣本與負樣本大概是1:1000或者1:10000,如果對正樣本做采樣,損失信息量會比較大,所以我們選擇對負樣本采樣,比如做1:1000的采樣,再把負樣本以1000的加權加回去。在資源受限時這么做,會盡可能降低信息量的損失。但如果僅僅是為了把它做均衡而做負樣本采樣,通常是不對的。和前面幾個問題不同,負樣本采樣并不是因環(huán)境改變而結論變化,事實上就不應該做負樣本采樣。

問題六:交叉驗證是最好的測試方法

下一個問題叫做交叉驗證,是指假設要將一份數(shù)據拆分成訓練集和測試集,這個時候怎么評估出它的誤差?交叉驗證是把集合拆成五份,取四份做訓練集、一份做測試集,并且每次選擇不同的那一份做測試級,最后測出五個結果再做平均,這被認為是最好的測試方法。

交叉驗證確實是一個還不錯的驗證的方法,但在現(xiàn)實應用場景下,它往往不是最合適的一種方式。因為通常來說,我們用機器學習做的事情是預測,絕大多數(shù)情況下我們是用現(xiàn)在或者過去的數(shù)據做一個模型來預測未來。而拿過去的訓練預測未來的最好測試方法不是交叉驗證,因為交叉驗證是按照交易或者按人拆分的。最合適的是方法其實是按照時間拆分,比如評估的時候選取一個時間點,用在這個時間點之前的數(shù)據做訓練,預測在這個時間點之后的,這是最接近真實應用場景的評估結果。

交叉驗證可能只適用于和時間屬性不相關的場景,比如人臉識別,但我們面臨更多的應用場景,無論是風險、營銷或者反欺詐,都是在用過去的數(shù)據訓練后預測未來,最合適這樣場景的評估方法不是交叉驗證,而是按照時間去拆分。

問題七:過擬合一定不好

最后一個叫過擬合,這也是一個討論特別多的話題。以前,通常我們會說如果模型做的太復雜了就會過擬合,如PPT右邊所示,而最好的方式應該是圖中中間的狀態(tài)——擬合的剛剛好,圖中左邊的模型underfitTIng,沒有訓練完全。但現(xiàn)在來看,大多數(shù)的實際場景都是在拿過去預測未來,過擬合不一定是不好的,還是要看具體場景。如果這個場景是過去見過的情況比較多,新的情況比較少的時候,過擬合反倒是好的。

打個比方,如果期末考試題就是平時的作業(yè),那我們把平時的作業(yè)都背一遍就是最好的方式,而這就是過擬合。如果期末考試不考平時作業(yè),全是新題,那么這個時候就不能只背平時的作業(yè),還要充分理解這門課的知識,掌握如何推理解題的技巧。所以過擬合好壞與否,完全取決于場景。如果應用場景依靠死記硬背就能搞定,那過擬合反倒是好的。實際上在我們的設計里面,很多時候我們會傾向于往過擬合靠一點,可能做新題會差一點,但是對于死記硬背的送分題會做的非常好。在拿過去預測未來的應用場景下,有的時候過擬合不一定不好,要根據實際情況來看。

今天與大家分享了教科書中的幾個經典問題。其實在實際工業(yè)應用中,我們不會完全按照教科書中的方式去實踐。我們也會設計很深的模型、很深的決策樹、很多的特征、會過擬合一點,我們更強調按時間拆分,不強調均衡采樣。面對教科書中的結論,我們需要學會的是根據實際場景做出相應靈活判斷。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: 驅動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設備,其驅動電源的性能直接關系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅動電源設計中至關重要的兩個環(huán)節(jié),集成化方案的設計成為提升電機驅動性能的關鍵。

關鍵字: 工業(yè)電機 驅動電源

LED 驅動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設備的使用壽命。然而,在實際應用中,LED 驅動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設計、生...

關鍵字: 驅動電源 照明系統(tǒng) 散熱

根據LED驅動電源的公式,電感內電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關鍵字: LED 設計 驅動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產業(yè)的重要發(fā)展方向。電動汽車的核心技術之一是電機驅動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅動系統(tǒng)中的關鍵元件,其性能直接影響到電動汽車的動力性能和...

關鍵字: 電動汽車 新能源 驅動電源

在現(xiàn)代城市建設中,街道及停車場照明作為基礎設施的重要組成部分,其質量和效率直接關系到城市的公共安全、居民生活質量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關鍵字: 發(fā)光二極管 驅動電源 LED

LED通用照明設計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關鍵字: LED 驅動電源 功率因數(shù)校正

在LED照明技術日益普及的今天,LED驅動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關鍵字: LED照明技術 電磁干擾 驅動電源

開關電源具有效率高的特性,而且開關電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅動電源

關鍵字: LED 驅動電源 開關電源

LED驅動電源是把電源供應轉換為特定的電壓電流以驅動LED發(fā)光的電壓轉換器,通常情況下:LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: LED 隧道燈 驅動電源
關閉