自然語言處理的優(yōu)點(diǎn)有哪些_自然語言處理的5大優(yōu)勢(shì)
自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實(shí)現(xiàn)自然語言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分。
自然語言處理(NLP)是計(jì)算機(jī)科學(xué),人工智能,語言學(xué)關(guān)注計(jì)算機(jī)和人類(自然)語言之間的相互作用的領(lǐng)域。
總結(jié)自然語言處理發(fā)展的曲折歷史可以看出,基于規(guī)則的理性主義方法和基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法各有千秋,因此,我們應(yīng)當(dāng)用科學(xué)的態(tài)度來分析它們的優(yōu)點(diǎn)和缺點(diǎn)。
我們認(rèn)為,基于規(guī)則的理性主義方法的優(yōu)點(diǎn)是:* 基于規(guī)則的理性主義方法中的規(guī)則主要是語言學(xué)規(guī)則,這些規(guī)則的形式描述能力和形式生成能力都很強(qiáng),在自然語言處理中有很好的應(yīng)用價(jià)值。
* 基于規(guī)則的理性主義方法可以有效地處理句法分析中的長(zhǎng)距離依存關(guān)系(long-distance dependencies)等困難問題,如句子中長(zhǎng)距離的主語和謂語動(dòng)詞之間的一致關(guān)系(subject-verb agreement)問題,wh 移位(wh-movement)問題。
* 基于規(guī)則的理性主義方法通常都是明白易懂的,表達(dá)得很清晰,描述得很明確,很多語言事實(shí)都可以使用語言模型的結(jié)構(gòu)和組成成分直接地、明顯地表示出來。
* 基于規(guī)則的理性主義方法在本質(zhì)上是沒有方向性的,使用這樣的方法研制出來的語言模型,既可以應(yīng)用于分析,也可以應(yīng)用于生成,這樣,同樣的一個(gè)語言模型就可以雙向使用。
* 基于規(guī)則的理性主義方法可以在語言知識(shí)的各個(gè)平面上使用,可以在語言的不同維度上得到多維的應(yīng)用。這種方法不僅可以在語音和形態(tài)的研究中使用,而且,在句法、語義、語用、篇章的分析中也大顯身手。
* 基于規(guī)則的理性主義方法與計(jì)算機(jī)科學(xué)中提出的一些高效算法是兼容的,例如,計(jì)算機(jī)算法分析中使用Earley 算法(1970 年提出)和Marcus 算法(1978 年提出)都可以作為基于規(guī)則的理性主義方法在自然語言處理中得到有效的使用。
基于規(guī)則的理性主義方法的缺點(diǎn)是:* 基于規(guī)則的理性主義方法研制的語言模型一般都比較脆弱,魯棒性很差,一些與語言模型稍微偏離的非本質(zhì)性的錯(cuò)誤,往往會(huì)使得整個(gè)的語言模型無法正常地工作,甚至導(dǎo)致嚴(yán)重的后果。不過,近來已經(jīng)研制出一些魯棒的、靈活的剖析技術(shù),這些技術(shù)能夠使基于規(guī)則的剖析系統(tǒng)在剖析失敗中得到恢復(fù)。
* 使用基于規(guī)則的理性主義方法來研制自然語言處理系統(tǒng)的時(shí)候,往往需要語言學(xué)家、語音學(xué)家和各種專家的配合工作,進(jìn)行知識(shí)密集的研究,研究工作的強(qiáng)度很大;基于規(guī)則的語言模型不能通過機(jī)器學(xué)習(xí)的方法自動(dòng)地獲得,也無法使用計(jì)算機(jī)自動(dòng)地進(jìn)行泛化。
* 使用基于規(guī)則的理性主義方法設(shè)計(jì)的自然語言處理系統(tǒng)的針對(duì)性都比較強(qiáng),很難進(jìn)行進(jìn)一步的升級(jí)。例如,斯羅肯(Slocum)在1981 年曾經(jīng)指出,LIFER 自然語言知識(shí)處理系統(tǒng)在經(jīng)過兩年的研發(fā)之后,已經(jīng)變得非常之復(fù)雜和龐大,以至于這個(gè)系統(tǒng)原來的設(shè)計(jì)人很難再對(duì)它進(jìn)行一點(diǎn)點(diǎn)的改動(dòng)。對(duì)于這個(gè)系統(tǒng)的稍微改動(dòng)將會(huì)引起整個(gè)連續(xù)的“水波效應(yīng)”(ripple effect),以至于“牽一發(fā)而動(dòng)全身”,而這樣的副作用是無法避免和消除的。
* 基于規(guī)則的理性主義方法在實(shí)際的使用場(chǎng)合其表現(xiàn)往往不如基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法那樣好。因?yàn)榛诮y(tǒng)計(jì)的經(jīng)驗(yàn)主義方法可以根據(jù)實(shí)際訓(xùn)練數(shù)據(jù)的情況不斷地優(yōu)化,而基于規(guī)則的理性主義方法很難根據(jù)實(shí)際的數(shù)據(jù)進(jìn)行調(diào)整。基于規(guī)則的方法很難模擬語言中局部的約束關(guān)系,例如,單詞的優(yōu)先關(guān)系對(duì)于詞類標(biāo)注是非常有用的,但是基于規(guī)則的理性主義方法很難模擬這種優(yōu)先關(guān)系。
不過,盡管基于規(guī)則的理性主義方法有這樣的或那樣的不足,這種方法終究是自然語言處理中研究得最為深入的技術(shù),它仍然是非常有價(jià)值和非常強(qiáng)有力的技術(shù),我們決不能忽視這種方法。事實(shí)證明,基于規(guī)則的理性主義方法的算法具有普適性,不會(huì)由于語種的不同而失去效應(yīng),這些算法不僅適用于英語、法語、德語等西方語言,也適用于漢語、日語、韓國(guó)語等東方語言。在一些領(lǐng)域針對(duì)性很強(qiáng)的應(yīng)用中,在一些需要豐富的語言學(xué)知識(shí)支持的系統(tǒng)中,特別是在需要處理長(zhǎng)距離依存關(guān)系的自然語言處理系統(tǒng)中,基于規(guī)則的理性主義方法是必不可少的。
我們認(rèn)為,基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的優(yōu)點(diǎn)是:
* 使用基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法來訓(xùn)練語言數(shù)據(jù),從訓(xùn)練的語言數(shù)據(jù)中自動(dòng)地或半自動(dòng)地獲取語言的統(tǒng)計(jì)知識(shí),可以有效地建立語言的統(tǒng)計(jì)模型。這種方法在文字和語音的自動(dòng)處理中效果良好,在句法自動(dòng)分析和詞義排歧中也初露鋒芒。
* 基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的效果在很大的程度上依賴于訓(xùn)練語言數(shù)據(jù)的規(guī)模,訓(xùn)練的語言數(shù)據(jù)越多,基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的效果就越好。在統(tǒng)計(jì)機(jī)器翻譯中,語料庫(kù)的規(guī)模,特別是用來訓(xùn)練語言模型的目標(biāo)語言語料庫(kù)的規(guī)模,對(duì)于系統(tǒng)性能的提高,起著舉足輕重的作用。因此,可以通過擴(kuò)大語料庫(kù)規(guī)模的辦法來不斷提高自然語言處理系統(tǒng)的性能。
* 基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法很容易與基于規(guī)則的理性主義方法結(jié)合起來,從而處理語言中形形色色的約束條件問題,使自然語言處理系統(tǒng)的效果不斷地得到改善。
* 基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法很適合用來模擬那些有細(xì)微差別的、不精確的、模糊的概念(如“很少、很多、若干”等),而這些概念,在傳統(tǒng)語言學(xué)中需要使用模糊邏輯(fuzzy logic)才能處理。
基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的缺點(diǎn)是:* 使用基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法研制的自然語言處理系統(tǒng),其運(yùn)行時(shí)間是與統(tǒng)計(jì)模式中所包含的符號(hào)類別的多少成比例線性地增長(zhǎng)的,不論在訓(xùn)練模型的分類中還是在測(cè)試模型的分類中,情況都是如此。因此,如果統(tǒng)計(jì)模式中的符號(hào)類別數(shù)量增加,系統(tǒng)的運(yùn)行效率會(huì)明顯地降低。
* 在當(dāng)前語料庫(kù)技術(shù)的條件下,要使用基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法為某個(gè)特殊的應(yīng)用領(lǐng)域獲取訓(xùn)練數(shù)據(jù),還是一件費(fèi)時(shí)費(fèi)力的工作,而且很難避免出錯(cuò)。基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的效果與語料庫(kù)的規(guī)模、代表性、正確性以及加工深度都有密切的關(guān)系,可以說,用來訓(xùn)練數(shù)據(jù)的語料庫(kù)的質(zhì)量在很大的程度上決定了基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的效果。
* 基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法很容易出現(xiàn)數(shù)據(jù)稀疏的問題,隨著訓(xùn)練語料庫(kù)規(guī)模的增大,數(shù)據(jù)稀疏的問題會(huì)越來越嚴(yán)重,這個(gè)問題需要使用各種平滑(smoothing)技術(shù)來解決。





