二十世紀(jì)留給二十一世紀(jì)可靠性工程熱點問題[轉(zhuǎn)]
一、對可靠性定義再認(rèn)識
可靠性通常被定義為:“產(chǎn)品在規(guī)定的條件下和規(guī)定的時間內(nèi),完成規(guī)定功能的能力”或定義為:“在規(guī)定的條件下和規(guī)定時間內(nèi)所允許的故障數(shù)。”數(shù)學(xué)表達(dá)式為平均故障間隔時間(MTBF)。這就認(rèn)為隨機(jī)故障是不可避免的,也是可以接受的。這就導(dǎo)致由于設(shè)計原因引起的故障只要在允許數(shù)之內(nèi),往往不能追溯到最終根源。由于制造過程導(dǎo)致的故障,只要仍低于許可的故障數(shù)也就不被追究。為此,在國際上早在1995年對這傳統(tǒng)的可靠性定義提出了質(zhì)疑,在歐洲開始用無維修使用期(MFOP)取代原先的MTBF,故障率浴盆曲線分布規(guī)律也就被打破。由此,摒棄隨機(jī)失效無法避免的舊觀念。因此,當(dāng)前國際上興起的在可靠工程中推行失效物理方法的新潮流,設(shè)計出不存在隨機(jī)失效的產(chǎn)品并非沒有可能。同時,從故障修理轉(zhuǎn)換到計劃預(yù)防維修。這就需要產(chǎn)品研發(fā)設(shè)計人員必須清楚產(chǎn)品將會怎樣發(fā)生故障,一般何時發(fā)生故障。?
要做到《無維修使用期》必須作好如下兩項工作:?
1、改變可靠性設(shè)計思路?
以自下而上的可靠性設(shè)計方法,取代采用MTBF進(jìn)行自上而下分配方法。當(dāng)產(chǎn)品系統(tǒng)構(gòu)思和設(shè)計完成之后,單元的設(shè)計師們應(yīng)在設(shè)計前充分了解單元,模塊的環(huán)境條件,可能發(fā)生故障的關(guān)鍵部及故障模式、機(jī)理、在設(shè)計時重點加以解決,且自下而上可能存在的可靠性問題都得到徹底解決,不僅可以將系統(tǒng)可靠性建立在踏實的基礎(chǔ)上,而且可以確保系統(tǒng)的可靠性指標(biāo)留有充分的余地。同時避免因設(shè)計后期發(fā)現(xiàn)問題再進(jìn)行更改設(shè)計,不僅費時,且效果不好,重點可采取如下設(shè)計措施:?
采用狀態(tài)監(jiān)控,故障診斷和故障預(yù)測設(shè)計;?
引入容錯和冗余設(shè)計?
可重構(gòu)性設(shè)計?
動態(tài)設(shè)計?
故障軟化設(shè)計?
環(huán)境防護(hù)設(shè)計?
冗余設(shè)計?
在任務(wù)能力不受影響下,留出可接受的降級水平設(shè)計等。
2、改變可靠性工程工作方法?
為了達(dá)到產(chǎn)品無維修使用周期,必須把人力、精力集中于產(chǎn)品研發(fā)早期階段,只有從項目開始第一天就強(qiáng)調(diào)可靠性,才能真正落實自下而上的可靠性設(shè)計方法。早期明了產(chǎn)品的核心單元和薄弱環(huán)節(jié),開展失效物理方法工作,采取有效糾正與預(yù)防措施,才能做到“無維修使用期”。為此,應(yīng)做如下工作:?
失效物理分析、研究與應(yīng)用?
開展可靠性研制試驗,及早暴露設(shè)計缺陷,采取有效糾正措施。?
開展高加速應(yīng)力試驗(HAST),暴露產(chǎn)品薄弱環(huán)節(jié)予以糾正?
嚴(yán)格設(shè)計評審制度,消除設(shè)計隱患?
制訂合理預(yù)防維修計劃并予以實施。?
二、關(guān)于可靠性指標(biāo)體系及其驗證 ?
當(dāng)前電子產(chǎn)品普遍用平均故障間隔時間MTBF來表征。MTBF是產(chǎn)品基本可靠性指標(biāo)。在可靠性預(yù)計時,以串聯(lián)模型為基礎(chǔ),但用戶最關(guān)心的是任務(wù)可靠性,即平均致命故障間隔時間MTBCF,在軍品合同中都簽的是MTBF,在進(jìn)行可靠性指標(biāo)驗證試驗時,都是以MTBF為依據(jù)。這出現(xiàn)了對故障的認(rèn)識問題,一般都把可靠性驗證試驗中產(chǎn)品的存在狀態(tài)簡化為“二元狀態(tài)”處理,即認(rèn)為產(chǎn)品要么能完成規(guī)定功能,視為成功;要么不能完成規(guī)定功能,視為故障,非此即彼。故障統(tǒng)計也比較簡單,要么為0,要么為1,對故障既不分類,也不加權(quán),這在工程實施顯然存在問題。大量事實證明,產(chǎn)品的不同故障造成的影響也不同。有的后果嚴(yán)重,損失很大(如雷達(dá)產(chǎn)品發(fā)射機(jī)的磁控管或行波管等),有的后果輕微(如指示燈失效,顯示器畫面瞬時抖動等),損失很小。如果把這些后果嚴(yán)重程度不同的故障,等同看待,客觀上是不合理的,與實際情況也是不相符的。在產(chǎn)品可靠性驗證與評價中,在確認(rèn)故障,采用什么方法對故障數(shù)據(jù)進(jìn)行處理,直接關(guān)系到產(chǎn)品的生存和發(fā)展。如果這個問題處理不當(dāng),就有可能把本來具有發(fā)展?jié)摿Φ慕言O(shè)計,冗余設(shè)計扼殺在研制早期。因此,早在70年代美國在地面產(chǎn)品廣泛地采用故障加權(quán),但由于這種方法存在著主觀的隨意性和評估結(jié)果,不確定性,并且在理論上還存在一些具體問題難以解釋。所以,在1980年美軍標(biāo)準(zhǔn)MIL-STD-785B頒布后,故障加權(quán)處理方法被取締,雖然785B標(biāo)準(zhǔn)取締了故障加權(quán)問題,但對產(chǎn)品可靠性驗證中出現(xiàn)的故障“二元狀態(tài)”處理不合理和存在問題如何解決?所以,以美國陸軍為首的一些部門和專家研究所得的驗證方案,就是把產(chǎn)品可靠性指標(biāo)細(xì)化分解。分別驗證,如把地面武器裝備任務(wù)狀態(tài)區(qū)分以下五種加以考核。?
能圓滿完成任務(wù)(Missionworthy)?
在規(guī)定時間內(nèi)排除故障后能完成任務(wù)(Missionworthy)?
能完成任務(wù),但性能降低(Missionworthy impaired)?
不能完成任務(wù)(Non-missionworthy)?
不能完成任務(wù),失去機(jī)動能力(Non-mission-worthy) ?
把可靠性指標(biāo)分解,表面看來是合理的,但又如何將這些指標(biāo)進(jìn)行分配和預(yù)計及如何進(jìn)行可靠性設(shè)計,問題并非有些文章說的那么簡單,所以美軍于1986年10月17日發(fā)布的MIL-STD-7810《工程研制鑒定和生產(chǎn)可靠性試驗》正式文本中,首次提出在可靠性驗證中按后果嚴(yán)重程度把發(fā)生故障區(qū)分為:致命故障,嚴(yán)重故障和輕度故障三類,這就意味著根據(jù)故障嚴(yán)重程度可以進(jìn)行加權(quán)處理,美軍MI坦克就是這樣做的。?
我們國家有標(biāo)準(zhǔn)可查的就有近20種門類產(chǎn)品對故障進(jìn)行加權(quán)處理,在軍品方方面面《地面雷達(dá)可靠性試驗方法》率先提出,在民品原郵電部的YD282-1982《郵電通信設(shè)備可靠性通用試驗方法》,率先提出故障加權(quán)問題,盡管有些門類產(chǎn)品明文中沒有提出故障加權(quán)問題,但在實際試驗中也在進(jìn)行故障加權(quán)方案,只不過各自故障加權(quán)權(quán)數(shù)不同而已。目前對故障加權(quán)有爭議,該如何對待此問題這是二十世紀(jì)留給二十一世紀(jì)應(yīng)盡快解決的問題。?
三、改變傳統(tǒng)只重視硬件可靠性設(shè)計思路 加強(qiáng)軟件可靠性設(shè)計 ?
隨著社會日益信息化,社會的日常運行越來越依賴于軟件的電子系統(tǒng),當(dāng)前電子系統(tǒng)(或設(shè)備)軟件功能較硬件功能占系統(tǒng)功能比例越來越高,通訊產(chǎn)品可占50%以上。但目前人們只重視硬件可靠性,而對軟件可靠性很“漠然”,雖然軟件故障頻繁發(fā)生,危害很大,但在開展可靠性工程工作時,對軟件可靠性提及甚少,原因有二:一是開展軟件可靠性工作較晚。在國際上雖然在二十世紀(jì)六十年代后期就已開始,但軟件可靠性工程概念在八十年代末提出,時至今日軟件的有關(guān)技術(shù)還不夠成熟,還有許多問題有待研究,在我國八十年代才有極小數(shù)專家從事分散、零星的研究,進(jìn)入九十年代軟件可靠性工程一詞才出現(xiàn),目前正處于軟件可靠性理論研究向工程應(yīng)用過渡時期,二十一世紀(jì)要解決的是如何像硬件可靠性技術(shù)一樣,軟件可靠性工程技術(shù)在產(chǎn)品研發(fā)中被廣泛應(yīng)用。二是軟件可靠性技術(shù)較為復(fù)雜,研究和應(yīng)用難度較大,其中有如下幾個方面:?
A.可靠性模型非指數(shù)分布,一般屬于正態(tài)分布或威布爾分布,可靠性數(shù)字模型建立難度很大;?
B.可靠性指標(biāo)確定多樣化;?
C.標(biāo)的實現(xiàn)、測試、評估和驗證、模式不確定性;?
D.電子設(shè)備的軟件可靠性很難與硬件可靠性剝離。有些軟件故障是由硬件設(shè)計缺隱和故障所引發(fā)的。?
開展軟件可靠性工程主要有以下工作:?
A.建立可靠性模型;?
B.確定系統(tǒng)軟件可靠性指標(biāo);?
C.進(jìn)行軟件可靠性指標(biāo)分配;?
D.進(jìn)行可靠性指標(biāo)預(yù)計;?
E.軟件可靠性設(shè)計;?
防錯設(shè)計?
容錯設(shè)計?
標(biāo)錯設(shè)計?
糾錯設(shè)計?
故障恢復(fù)設(shè)計等?
F軟件可靠性分析:?
軟件失效模式影響分析(SFMEA)?
軟件故障樹分析(SFTA)?
Pertri網(wǎng)分析法?
G軟件可靠性驗證。軟件可靠性一般都是通過軟件可靠性測試,評估已達(dá)到軟件可靠性水平,來加以驗證。國內(nèi)外有些專家認(rèn)為由于軟件故障過程的隨機(jī)性和軟件驗收測試期間不對軟件進(jìn)行修改,因此可以認(rèn)為軟件可靠性服從指數(shù)分布,在這情況下,就可參考GJB899《可靠性鑒定與驗收試驗》來確定軟件可靠性驗收準(zhǔn)則。
?
四、改變傳統(tǒng)的電子產(chǎn)品結(jié)構(gòu)設(shè)計觀念 實施集成化結(jié)構(gòu)設(shè)計 ?
傳統(tǒng)的電子產(chǎn)品結(jié)構(gòu)設(shè)計,按標(biāo)準(zhǔn)進(jìn)行結(jié)構(gòu)設(shè)計,能將模塊或插件緊密的裝進(jìn)框架內(nèi),能緩沖減振即可,但伴隨科學(xué)技術(shù)發(fā)展,這是遠(yuǎn)遠(yuǎn)不夠的。為了提高產(chǎn)品可靠性,結(jié)構(gòu)設(shè)計應(yīng)改變這種傳統(tǒng)的結(jié)構(gòu)設(shè)計觀念和做法,而應(yīng)實施集成化結(jié)構(gòu)設(shè)計,所謂集成化結(jié)構(gòu)設(shè)計如上公式所示:?
電子產(chǎn)品結(jié)構(gòu)設(shè)計=機(jī)械件可靠性設(shè)計+熱設(shè)計+EMC設(shè)計+維修性設(shè)計+三防設(shè)計上述諸設(shè)計因素中,不是簡單的相加,因為它們既有統(tǒng)一一面,也有矛盾一面,需要進(jìn)行權(quán)衡優(yōu)化設(shè)計。?
上述諸設(shè)計因素中,機(jī)械件可靠性設(shè)計難度最大,國內(nèi)外還都在進(jìn)行探索,機(jī)械件可靠性設(shè)計的基本途徑概括為:?
A.無故障設(shè)計與耐久性設(shè)計相結(jié)合?
B.系統(tǒng)可靠性設(shè)計與零部件可靠性設(shè)計相結(jié)合?
C.傳統(tǒng)設(shè)計與可靠性設(shè)計相結(jié)合?
D.定性設(shè)計與定量設(shè)計相結(jié)合?
E.機(jī)械件可靠性設(shè)計與成本設(shè)計相結(jié)合?
F.機(jī)械件可靠性設(shè)計與電路可靠性設(shè)計相結(jié)合?
研究機(jī)械件可靠性,必須把握其特殊性,緊密結(jié)合工程實際,有針對性地研究機(jī)械可靠性的分析方法與設(shè)計方法。?
五、開拓質(zhì)量與可靠性管理新思路推行IPPD管理 ?
我于1995年末,在美國考察時曾拜訪了世界著名的質(zhì)量管理專家——朱蘭博士,當(dāng)談及質(zhì)量管理新趨勢時,他縱觀世界經(jīng)濟(jì)發(fā)展史斷言:“二十世紀(jì)是一個生產(chǎn)的世紀(jì)……二十一世紀(jì)將是一個質(zhì)量的世紀(jì)……集團(tuán)公司將在質(zhì)量的波濤中經(jīng)受考驗,人們將在質(zhì)量大堤下生活……世界和美國在質(zhì)量管理上都在變革,質(zhì)量管理不再是單個煙囪”。這些話言簡意深,值得我們深思,最近我翻看了一下美國國防部研制試驗、系統(tǒng)工程與評價局系統(tǒng)工程副局長Mark schaeffer在空間與國防工業(yè)質(zhì)量討論會上的講話《美國質(zhì)量管理的過去,現(xiàn)在與未來》他總結(jié)美國質(zhì)量管理的三個階段:
(1)早期階段,推行質(zhì)量檢驗;
(2)80年代,質(zhì)量重點轉(zhuǎn)移,推行TQM(Totac Quality Management);
(3)90年代;重點抓產(chǎn)品研發(fā)設(shè)計,推行IPPD。講話中還談到:“今天的質(zhì)量是面向預(yù)防和過程驅(qū)動,從而使質(zhì)量的全部職責(zé)由質(zhì)量專業(yè)人員轉(zhuǎn)移到機(jī)構(gòu)中的每一個人。質(zhì)量不再是“單個煙囪”式的學(xué)科。而質(zhì)量必須是工程,制造軟件編程和產(chǎn)品維護(hù)的一個綜合要素。質(zhì)量必須是商務(wù)活動的組成部份。推行IPPD的實施強(qiáng)調(diào)并行工作和協(xié)作精神,從產(chǎn)品設(shè)計開始,來自設(shè)計、制造、試驗、使用和保障等各方面的人員(包括可靠性及維修性人員)組成多學(xué)科的綜合產(chǎn)品組(IPT),協(xié)同工作,所有人員都要了解產(chǎn)品的總目標(biāo)和技術(shù)要求,統(tǒng)一考慮并共同解決各學(xué)科問題。這種管理方法確保R&M&S(包括測試性、保障性和安全性),從設(shè)計一開始就與傳統(tǒng)的性能一起設(shè)計到產(chǎn)品中去,避免出現(xiàn)“兩張皮”的問題。?
IPPD的實施強(qiáng)調(diào)用戶參與,以確保用戶的要求,從產(chǎn)品設(shè)計開始,用戶代表便作為IPT的成員參與設(shè)計,使每一個IPT成員都充分了解用戶的要求,特別是用戶對R&M&S的要求,把用戶要求轉(zhuǎn)換成產(chǎn)品設(shè)計和過程的技術(shù)要求。并把這些要求設(shè)計到產(chǎn)品中。美商獨資企業(yè)旭電(蘇州)科技有限公司,他們成功的推行IPPD管理,成立了客戶專屬團(tuán)隊CFT(相當(dāng)于IPT)。他們都有一個項目經(jīng)理作為召集人,由來自質(zhì)量、制造、工程、測試、業(yè)務(wù)、物料等不同部門的全職為CFT服務(wù)的人員組成。他們的共同目標(biāo)是使客戶滿意,達(dá)到公司目標(biāo)。?
IPPD管理是質(zhì)量觀從傳統(tǒng)質(zhì)量觀向現(xiàn)代質(zhì)量觀轉(zhuǎn)變的結(jié)晶。傳統(tǒng)質(zhì)量觀單純追求技術(shù)性能,著眼于缺陷糾正,在管理上以“產(chǎn)品符合生產(chǎn)圖低和工藝規(guī)程要求”,實施“檢驗”手段來保證產(chǎn)品質(zhì)量,俗稱“事后把關(guān)”?,F(xiàn)代質(zhì)量觀追求產(chǎn)品“長期保持良好性能”和“最佳壽命周期費用”,著眼于缺陷的預(yù)防。在管理上實施“三全管理”,即:全過程、全員、全方位(性能、可靠性、維修性、經(jīng)濟(jì)性、安全性、保障性等)。由于世界各國尤其是經(jīng)濟(jì)發(fā)達(dá)國家早已完成這種質(zhì)量觀轉(zhuǎn)變,因而紛紛推行IPPD管理,如美國、英國、法國、日本等國,我國一些外資企業(yè)也開展了這項工作。?
要作好IPPD管理,必須作好如下工作:?
A.在產(chǎn)品研發(fā)一開始就要樹立將質(zhì)量與可靠性設(shè)計到產(chǎn)品中去的思想,在分案設(shè)計時就應(yīng)組織IPT小組。?
B.解決如何把技術(shù)性、可靠性、維修性、測試性、保障性、經(jīng)濟(jì)性、安全性等統(tǒng)一權(quán)衡優(yōu)化,并行設(shè)計到產(chǎn)品中去的技術(shù)問題。?
C.開展網(wǎng)絡(luò)化管理,加強(qiáng)可靠性與質(zhì)量監(jiān)控工作。?
D.使IPT有效工作,必須加強(qiáng)團(tuán)隊合作精神,更重要的是“溝通”,“溝通”的核心問題是如何將數(shù)據(jù)轉(zhuǎn)換成有用的信息,使IPT小組更好工作。
?
六、開辟可靠性管理新模式 實施網(wǎng)絡(luò)化管理 ?
可靠性管理是可靠性工程組成部分,占有很重要地位,有人曾講;“產(chǎn)品可靠性是設(shè)計出來的、制造出來的和管理出來的……”??煽啃怨芾硎前殡S著可靠性工程發(fā)展而發(fā)展,縱觀可靠性工程發(fā)展史不難看出可靠性管理的發(fā)展歷程。美國是可靠性工程興起最早和發(fā)展最快的國家之一,具有代表性。?
50年代是美國可靠性興起和形成年代。為了解決軍用電子設(shè)備和復(fù)雜導(dǎo)彈系統(tǒng)的可靠性問題,開展了可靠性技術(shù)研究,成立了軍用電子設(shè)備可靠性咨詢組(AGREE),開展了全面的可靠性發(fā)展計劃,但可靠性管理還未提到議事日程。(編者注,我國在當(dāng)時蘇聯(lián)的幫助下也在57年建成“可靠性與環(huán)境試驗研究所”即現(xiàn)在的廣州電子五所)。?
60年代是美國可靠性工程全面發(fā)展的階段,也是美國武器系統(tǒng)研制全面貫徹可靠性大綱的年代。
在這10年中對重點武器裝備系統(tǒng)開始了可靠性管理,形成了一套可靠性設(shè)計、試驗和管理標(biāo)準(zhǔn),如MIL-HDBK-217、MIL-STD-781和MIL-STD-785等。在工業(yè)界和各企業(yè)中對重點工程和重點可靠性工作項目實施“單點”管理。?
70年代是美國可靠性發(fā)展步入成熟階段。主要特點是建立集中統(tǒng)一的可靠性管理機(jī)構(gòu),負(fù)責(zé)組織協(xié)調(diào)國防部范圍內(nèi)的可靠性政策、標(biāo)準(zhǔn)、手冊和重大研究課題等,成立全國數(shù)據(jù)網(wǎng)。工業(yè)部門和各企業(yè)也紛紛成立可靠性管理組織機(jī)構(gòu)。從產(chǎn)品可靠性指標(biāo)分配、預(yù)計、可靠性設(shè)計、可靠性分析、可靠性試驗、數(shù)據(jù)交換等進(jìn)行系統(tǒng)化管理,形成了系統(tǒng)性“線條”式管理,將“單點”管理系統(tǒng)串聯(lián)起來。?
80年代以來美國可靠性工程向著更深、更廣的方向發(fā)展。在管理上,加強(qiáng)集中統(tǒng)一管理,強(qiáng)調(diào)可靠性及維修性管理制度化,在技術(shù)上深入開展軟件可靠性、機(jī)械可靠性,全面推廣計算機(jī)輔助設(shè)計(CAD)技術(shù)在可靠性工程中應(yīng)用,積極采用模塊化、綜合化、容錯設(shè)計、光導(dǎo)纖維和超高速集成電路等新技術(shù)來全面提高現(xiàn)代武器系統(tǒng)的可靠性。1985年美國空軍推行了“可靠性及維修性2000年行動計劃”(R&M2000)更進(jìn)一步加強(qiáng)可靠性管理和制度化。為了保證可靠性、維修性、保障性及武器裝備作戰(zhàn)能力,使武器裝備達(dá)到戰(zhàn)備完好性、使用可用性及任務(wù)成功性,在管理上大力推行“矩陣式”管理,縱向到位,橫向到邊。?
90年代美國由于以經(jīng)費為獨立變量,廢除大量的軍用標(biāo)準(zhǔn),大力推行健壯設(shè)計和并行工程及IPPD管理。因此,用“網(wǎng)絡(luò)化”管理取代“矩陣式”管理。首先在美國海軍及其相關(guān)工業(yè)部門廣泛推廣“網(wǎng)絡(luò)化”管理。通過大量標(biāo)準(zhǔn)、規(guī)范引入和支持,為“網(wǎng)絡(luò)化”管理提供依據(jù)和指導(dǎo),實施程序化、規(guī)范化、系統(tǒng)化的“網(wǎng)絡(luò)化”管理,詳見圖1、圖2?!熬W(wǎng)絡(luò)化”管理的要點是:A.實施并行工程。在產(chǎn)品研發(fā)過程中要全過程、全因素、全方位(技術(shù)性、可靠性、維修性、保障性、安全性、經(jīng)濟(jì)性等)并行進(jìn)行。B.加強(qiáng)過程監(jiān)控。尤其在產(chǎn)品研發(fā)過程中的可靠性判決點上即網(wǎng)絡(luò)結(jié)點上,進(jìn)行嚴(yán)格評審。C.加強(qiáng)信息傳遞與管理。網(wǎng)絡(luò)化管理能夠有效運轉(zhuǎn)關(guān)鍵在于信息的溝通和快速傳遞。D.實施制度化和規(guī)范化管理。在產(chǎn)品研發(fā)前就應(yīng)制訂詳盡、嚴(yán)密網(wǎng)絡(luò)化管理制度與程序,并對每一工作項目和接口及判決點都要有科學(xué)的管理規(guī)范,盡量避免人為的干預(yù)。?
根據(jù)我長期從事可靠性工程工作經(jīng)驗和研究成果,按我國國情和產(chǎn)品特點,擬訂出某電子設(shè)備研制和生產(chǎn)的網(wǎng)絡(luò)化管理,并已實施。?
本文僅對電子系統(tǒng)或整機(jī)的可靠性工程提出拙見,對于電子元器件可靠性工程,還未提及。





