大數(shù)據(jù)的這些用途也行會超乎你的想象!
2011年,時任商業(yè)智能開發(fā)商Pentaho公司首席技術(shù)官的James Dixon創(chuàng)造了“數(shù)據(jù)湖”這一術(shù)語。他將數(shù)據(jù)湖與當(dāng)時流行的數(shù)據(jù)集市的典型信息孤島進行了對比:如果將數(shù)據(jù)集市視為銷售瓶裝水的商店(經(jīng)過清潔和包裝處理以便于飲用),那么數(shù)據(jù)湖就是處于更自然狀態(tài)的大片水體。數(shù)據(jù)湖的內(nèi)容從一個源頭流入,填滿湖泊。采用數(shù)據(jù)湖,用戶可以來檢查、潛入或采集樣本。
從那時起,數(shù)據(jù)湖技術(shù)不斷發(fā)展,現(xiàn)在正在與數(shù)據(jù)倉庫爭奪大數(shù)據(jù)存儲和分析的市場份額。各種工具和產(chǎn)品支持數(shù)據(jù)湖中更快的SQL查詢,而全球三個主要云計算提供商都提供了數(shù)據(jù)湖存儲和分析。甚至還推出了將治理、安全性和分析與成本更低的存儲結(jié)合起來的數(shù)據(jù)湖屋的概念。本文將深入探討數(shù)據(jù)湖是什么、如何使用數(shù)據(jù)湖以及如何確保數(shù)據(jù)湖不會成為數(shù)據(jù)沼澤。
數(shù)據(jù)湖vs數(shù)據(jù)倉庫
問題不在于是否需要數(shù)據(jù)湖或數(shù)據(jù)倉庫。很可能兩者都需要,但其目的不同,也可以將它們組合起來。首先了解數(shù)據(jù)湖和數(shù)據(jù)倉庫之間的主要區(qū)別:
數(shù)據(jù)源:數(shù)據(jù)湖的典型數(shù)據(jù)源包括日志文件、來自點擊流的數(shù)據(jù)、社交媒體帖子以及來自互聯(lián)網(wǎng)連接設(shè)備的數(shù)據(jù)。數(shù)據(jù)倉庫通常存儲從事務(wù)數(shù)據(jù)庫、業(yè)務(wù)線應(yīng)用程序和操作數(shù)據(jù)庫中提取的數(shù)據(jù)以供分析。
模式策略:數(shù)據(jù)湖的數(shù)據(jù)庫模式通常在分析時應(yīng)用,稱之為讀模式。企業(yè)數(shù)據(jù)倉庫的數(shù)據(jù)庫模式通常在創(chuàng)建數(shù)據(jù)存儲之前設(shè)計,并在數(shù)據(jù)導(dǎo)入時應(yīng)用于數(shù)據(jù),這稱之為寫模式。
存儲基礎(chǔ)設(shè)施:數(shù)據(jù)倉庫通常采用大量價格高昂的內(nèi)存和SSD硬盤,以便快速提供查詢結(jié)果。數(shù)據(jù)湖通常在計算機集群上使用價格較低的機械硬盤進行存儲。數(shù)據(jù)倉庫和數(shù)據(jù)湖都使用大規(guī)模并行處理(MPP)來加速SQL查詢。
技術(shù)驅(qū)動倍增數(shù)據(jù)價值 · 場景化應(yīng)用解決“痛點”
2020年4月中共中央、國務(wù)院發(fā)布《關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》,數(shù)據(jù)已然被定義為繼土地、勞動力、資本、技術(shù)之后的生產(chǎn)要素。2021年3月,《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標綱要》提出推進要素市場化配置改革,發(fā)展技術(shù)和數(shù)據(jù)要素市場,健全要素市場運行機制,完善交易規(guī)則和服務(wù)體系。
2022年政府工作報告指出,“促進數(shù)字經(jīng)濟發(fā)展。加強數(shù)字中國建設(shè)整體布局?!睌?shù)據(jù)顯示,2020年,我國數(shù)字經(jīng)濟總量躍居世界第二,數(shù)字經(jīng)濟規(guī)模達到39.2萬億元,占GDP比重達38.6%,增速達9.7%。不可否認,以數(shù)字經(jīng)濟為代表的新經(jīng)濟新動能正在加速孕育形成。
“如果說建設(shè)數(shù)據(jù)交易的第三方市場是數(shù)據(jù)要素流通和交易產(chǎn)業(yè)1.0的話,我們已經(jīng)走到了2.0。基于多源多模態(tài)數(shù)據(jù)融合認知計算技術(shù)賦能行業(yè)場景的智能決策平臺,在具體的應(yīng)用場景中也可以融合其它數(shù)據(jù)智能技術(shù)解決企業(yè)、產(chǎn)業(yè)的應(yīng)用痛點問題,有了這些價值應(yīng)用,數(shù)據(jù)要素流通和交易才能打通了‘任督二脈’,疏通這些數(shù)字經(jīng)濟場景中的‘毛細血管’才是這個產(chǎn)業(yè)的機會點?!蔽錆h東湖大數(shù)據(jù)交易中心股份有限公司負責(zé)人杜小軍說。
能科數(shù)智科技有限公司總經(jīng)理助理付思思說:“我們依托于先進的工業(yè)軟件以及電力電子信息技術(shù),助力區(qū)域優(yōu)化升級和產(chǎn)業(yè)鏈的完善,這一塊也為客戶提供了以工業(yè)互聯(lián)網(wǎng)為核心的數(shù)字化、網(wǎng)絡(luò)化、智能化的解決方案?!?
據(jù)悉,能科數(shù)智是北京能科科技股份有限公司在貴州成立的子公司,主要致力于工業(yè)互聯(lián)網(wǎng)領(lǐng)域的開拓。目前,公司擁有工業(yè)建模和大數(shù)據(jù)分析、數(shù)據(jù)管理、應(yīng)用開發(fā)及邊緣層處理等多項核心技術(shù),可實現(xiàn)全流程的數(shù)字孿生,為工業(yè)企業(yè)數(shù)字化轉(zhuǎn)型升級、助力我省工業(yè)高質(zhì)量發(fā)展提供新動能。





