引 言
眾所周知,大數據平臺是以海量數據存儲為基礎,通過分布式實時計算引擎、在線數據分析以及離線批處理引擎提供數據的計算分析,通過大數據和人工智能技術,幫助用戶實現海量數據分析的任務 [1]。隨著工業(yè)互聯網的完善,工業(yè)大數據作為一種大數據的應用生態(tài),得到了廣泛重視。然而, 在工業(yè)互聯網環(huán)境下,如何從用戶角度出發(fā),設計出技術細節(jié)透明、交互操作簡單、高效的工業(yè)大數據平臺及其上層應用,成為工業(yè)大數據開發(fā)和應用中的關鍵問題。本質上,工業(yè)大數據是指在工業(yè)領域中,圍繞整個工業(yè)產品全生命周期所產生的各類數據以及相關技術和應用的總稱,分為企業(yè)信息化數據、工業(yè)物聯網數據和外部跨界數據等幾類,涵蓋工業(yè)產品研發(fā)過程中的設計資料、產品生產過程中的監(jiān)控與管理、產品銷售與服務過程的經營和維護數據,具有數據量大、類型豐富、實時性強等特點。工業(yè)大數據在產品研發(fā)、故障診斷與預測、供應鏈優(yōu)化和產品營銷等環(huán)節(jié)能夠極大地促進傳統制造向智能制造轉型,降低成本,提高產品質量,顯著增強工業(yè)企業(yè)的競爭力。
工信部于 2017年發(fā)表了《工業(yè)大數據白皮書》,明確了工業(yè)大數據的相關技術、應用以及發(fā)展路線,描述了工業(yè)大數據發(fā)展的整體輪廓,并制定了工業(yè)大數據的發(fā)展規(guī)劃與建設路線??梢钥闯?,無論是白皮書,還是《中國制造 2025》規(guī)劃,數據是靈魂,工業(yè)互聯網是基礎,大數據技術是關鍵。然而,工業(yè)大數據目前并沒有形成標準統一的體系結構,其理論體系也并不完善。文獻 [2-3]對工業(yè)大數據的技術體系及其實施路徑進行了分析,詳細闡述了工業(yè)大數據的體系結構。文獻 [4] 對制造執(zhí)行系統進行了介紹,并將其作為制造企業(yè)大數據的聚集分發(fā)中心,分析了其頂層設計,論述了工業(yè)大數據的功能,總結了工業(yè)大數據的建設和具體應用??傮w來說,我國工業(yè)大數據的研究和應用處于初級階段,企業(yè)內外部對數據利用不足,對工業(yè)大數據的應用缺乏積累。對此,本文探討了將大數據技術與工業(yè)生產場景進行整合的問題,就如何建設和應用工業(yè)大數據系統問題進行了討論,分析了工業(yè)大數據的體系結構,對更好地挖掘和利用工業(yè)大數據具有一定的理論和實際意義。
1 工業(yè)大數據的基本功能
工業(yè)大數據是配置和利用大數據這一資源的平臺及其應用系統,其功能主要表現在如下幾方面 :
(1) 促進工業(yè)大數據應用。構建工業(yè)大數據平臺來推動數據的融合和應用,有利于通過工業(yè)大數據來分析和預測市場需求,整合產業(yè)鏈和價值鏈,為用戶提供定制化產品和服務,實現工業(yè)生產模式和服務體系的創(chuàng)新。
(2) 挖掘工業(yè)大數據的潛在價值,實現工業(yè)大數據增值,促進工業(yè)大數據的應用。
(3) 工業(yè)大數據應用服務平臺通過對企業(yè)生產過程的優(yōu)化,引導企業(yè)認識和利用數據,逐步培養(yǎng)企業(yè)的數據利用意識,不但能夠促使企業(yè)深入挖掘自身積累的工業(yè)數據,而且可以充分利用其它企業(yè)的大數據來推進企業(yè)自身發(fā)展,增強企業(yè)應用大數據的動力。通過大數據采集、存儲、分析、交易過程中的一系列專業(yè)化服務,將有效拓展大數據產業(yè)的市場容量,有利于培育出一批專業(yè)化的大數據開發(fā)和服務公司, 吸引第三方數據服務商向工業(yè)大數據領域聚焦,更好地體現出工業(yè)大數據的應用價值。
(4) 工業(yè)大數據應用服務平臺還可以通過數據交易衍生出圍繞工業(yè)大數據的金融產品,實現“企業(yè) + 金融 + 數據” 的融合。
(5) 提升工業(yè)大數據配置效率。很多企業(yè)由于規(guī)模、資金、人才等方面的原因,缺乏充分利用大數據的技術手段和交易平臺,導致對自身擁有的數據采集、存儲、分析等處于較低水平。工業(yè)大數據平臺能夠通過提供數據采集、清洗、確權、產品開發(fā)等服務,使數據得以資產化,讓其價值得到充分體現。
工業(yè)大數據平臺包含數據采集、存儲、加工、處理、分析等方面的功能,在很多應用場合中,還設置了數據分析及控制系統,以充分發(fā)揮大數據在預測、控制方面的作用,更好實現以大數據技術提高工藝精度或良品率的目的,其典型結構如圖 1 所示 [3]。
決策與控制子系統采用數據挖掘、預測分析手段實現對生產的精確控制,是上層決策和控制的技術基礎,是實現智能制造的核心部分。數據建模聚焦于為工藝、設備、用戶等建立分析模型,設計并部署不同的應用系統,挖掘出特定的模式和知識,最終生成決策指令,實現生產流程的優(yōu)化與產品生產的智能化。一般來講,工業(yè)大數據的來源涵蓋了生產、銷售、管理、市場等方面的數據,應根據數據來源的不同, 在組建工業(yè)互聯網的基礎上,設計合適的數據采集與交換系統。目前,由于已經有了較為成熟的數據采集與數據預處理及存儲技術,工業(yè)大數據的主要技術難點在于如何準確采集數據,準確處理結構化、半結構化數據,如何設計和實現成熟的挖掘算法,這是工業(yè)大數據走向成熟、實現其應用價值的關鍵。此外,與企業(yè)已有的 ERP 系統進行互聯,充分整合和利用現有各類系統的數據,也是工業(yè)大數據平臺的一個重要功能。
3 工業(yè)大數據的基本技術架構分析
工業(yè)大數據技術架構涉及底層數據采集、預處理和存儲、建模、決策等各類技術組件的開發(fā)和應用,從功能角度可以將這些技術組件分為三類,即采集、存儲及分析利用。一些文獻和某些應用案例中提出的四層技術架構的功能實現可以由這三種技術組合得到 [5-7]。一般情況下,工業(yè)大數據系統在設計時要重點考慮數據采集及其準確性保證、數據存儲和實時性展示、數據挖掘能力及數據的應用(控制、預測)等。其中最核心的是如何建模,如何在生產質量控制、工藝流程優(yōu)化等方面應用這些數據。這需要融合建模、數據挖掘、流程管理等方面的處理模塊。本質上,設計并實現數據分析模塊,更好地利用數據挖掘技術發(fā)揮工業(yè)大數據在智能制造中的優(yōu)勢,是目前工業(yè)大數據應用研究中面臨的關鍵問題。
3.1 數據采集
隨著工業(yè)制造中各個工藝流程的精細化與制程的高密度 化,所產生的數據將呈指數級增長。面對如此龐大與異構的 數據資源,其整合和應用問題十分突出。企業(yè)必須有一套完 整的數據采集、匯聚與應用策略,設計通用可靠的數據采集 機制來滿足各方面的數據采集需求。本質上,數據采集的完 整性、準確性,決定了工業(yè)大數據能否真實可靠地發(fā)揮作用。因此,在設計和部署數據采集系統時,建議著重考慮以下要求 :
(1) 實用性和通用性。由于技術的更新換代越來越頻繁,需要進行科學的版本管理,并定期更新接口,建議使用統一的數據交換規(guī)格來適應接口頻繁更新的情況,增強系統的自我調整和優(yōu)化能力 ;
(2) 數據來源的廣泛性。企業(yè)要針對各類不同的數據來源,如生產、銷售、質控等數據,采用不同的傳感器和接口技術,支持盡可能多的數據源端 ;
(3) 擴展性。數據采集系統應能很好地適應設備的增加,合理地控制和管理工藝系統升級,其性能瓶頸能通過橫向擴展的方式解決。
3.2 數據準確性
采集過程中須確保數據準確、完整地送達處理層與儲存層,這是工業(yè)大數據平臺的一項重要工作。同時,為避免增加工業(yè)物聯網建設的復雜度,在不斷擴充各類設備的情況下, 采集技術不應增加基礎建設的負擔,數據來源的準確性應由工業(yè)大數據平臺本身進行驗證。從工業(yè)數據的來源進行分類,主要包括管理系統、生產系統、外部數據等數據來源。此外, 從數據采集的全面性看,不僅要涵蓋基礎的結構化交易數據, 還將逐步包括半結構化的用戶行為數據,網狀的社交關系數據,文本或音視頻類型的用戶意見和反饋數據,這些數據的準確性應在系統中由專門的模塊驗證。具體來講,數據的準確性可以通過工業(yè)大數據平臺進行循環(huán)驗證 :
(1) 現有傳感器采集的周期性數據 ;
(2) 企業(yè)管理系統數據涵蓋工業(yè)產品中設計資料、價值鏈管理、售后服務等方面 ;
(3) 與生產經營相關的業(yè)務數據主要來源于企業(yè)內部的信息化系統 ;
(4) 企業(yè)工藝設備數據來源于企業(yè)自動化控制程度相對較高的 DCS,PLC 等系統的感知數據 ;
(5) 企業(yè)外部數據主要來源于互聯網行業(yè)、市場和競爭對手等。
3.3 數據存儲及展示
通常情況下,工業(yè)大數據系統應根據應用場景采用不同的存儲方案,并滿足以下要求 :
(1) 實時性。采集的數據在進行預處理后應結合實時顯示技術展示出產品生產的狀態(tài),對于這類數據應使用在線機器學習或數據挖掘技術進行深入挖掘和分析,尋找潛在規(guī)律, 加以處理和利用 ;
(2) 數據的高效利用。適應海量數據的探索和挖掘分析,能夠有效對生產線中的異常進行分析和預測,進而優(yōu)化參數、降低生產和管理成本,盡可能消除人為誤判的可能性,進而達到智能化生產和管理的目標 ;
(3) 數據多樣化。工業(yè)大數據系統不但能處理各類結構化數據,也應能支持各類非結構化數據,并充分利用在線分析、分布式存儲等技術 ;
(4) 海量存儲能力。考慮到工業(yè)大數據的數據源較廣,存儲周期較長,其存儲能力至少應達到 P 級。
3.4 數據挖掘能力
工業(yè)大數據的主要目標是采集并利用生產、銷售、管理等方面的數據,加以建模和處理后,使之能夠適應高層的決策與控制。這要求在系統上部署機器學習、數據挖掘等模塊,使之具備完善的學習、分類、挖掘等功能。如基于開源Spark 框架上的算法庫 MLlib 和 Graph X 等學習模塊,Tensor Flow,Caffe 等深度學習模塊,Weka,Matlab 等計算和挖掘平臺,其處理模式一般也應具備在線和離線兩種類型。
4 結 語
隨著大數據技術與應用的日益廣泛,其在制造企業(yè)信息化過程中越來越重要,數據平臺已是制造企業(yè)工業(yè)大數據的聚集和應用中心。企業(yè)信息化水平在很大程度上將取決于大數據平臺體系是否完善有效,是否能有效挖掘和應用企業(yè)工業(yè)大數據。隨著“中國制造 2025”計劃的不斷推進,企業(yè)的生產經營將越來越依賴大數據技術。本文對工業(yè)大數據的體系結構進行了分析,介紹了其典型結構,為企業(yè)應用工業(yè)大數據提供了一定參考。