近年來,“大數據”時下一個熱門的詞語,,似乎越來越多的行業(yè)和人們開始關注并實際探索大數據的應用。我們一起勾勒出大數據的偉大用途的藍圖,但在實踐的道路上,我們都是初級階段的孩子。
大數據根基于互聯網,數據倉庫、數據挖掘、云計算等互聯網技術的發(fā)展為大數據應用奠定基礎。對于任何一個大數據的從業(yè)者或初接觸者,或者都會有個共同的感觸:大數據很有用!大數據該怎么用呢?
1、大數據是什么?
對于大數據的定義,我們來引用3個比較差用的大數據定義:
1)Gartner:需要信息處理模式才能具有更強的決策力,洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率很多樣化的信息資產。
2)IDC:海量的數據規(guī)模(Volunme)、快速的數據流轉和數據體系(Velocity)、多樣的數據類型(Variety)、巨大的數據價值(Value)。
3)Wiki:或稱巨量數據、海量數據、大資料,指所涉及的數據量規(guī)模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息。
其他關于大數據的定義也大抵類型,我們可以用幾個關鍵詞對大數據做一個界定。
首先,“大規(guī)模”,這種規(guī)??梢詮膬蓚€維度來衡量,一是時間序列累積大量的數據,二是在深度上更加細化的數據。
其次,“多樣化”,可以是不同的數據格式,如文字、圖片、視頻等,可以是不同的數據類別,如入口數據,經濟數據等,還可以有不同的數據來源,如互聯網、傳感器等。
最后,“動態(tài)化”,數據是不停變化的,可以隨著時間快速增加大量數據,也可以是在空間上不斷移動變化的數據。
這三個關鍵詞對大數據從形象上做了界定。
但是還需要一個關鍵能力,就是“處理速度快”。如果這么大規(guī)模、多樣化又動態(tài)變化的數據有了,但需要很長的時間去處理分析,那不叫大數據。從另一個角度,要實現這些數據快速處理,靠人工肯定是沒辦法實現的,因此,需要借助于機器實現。
最終,我們借助機器,通過對這些數據進行快速的處理分析,獲取想要的信息或者應用的整套體系,才能稱為大數據。
2、大數據平臺
大數據并不是一場市場炒作。對于許多跨多個垂直的組織而言,大數據是真實存在的,而且它正在改變數據中心的架構。隨著數據量、數據處理速度和數據類型的復雜度以遠超標準前端和后臺處理能力的速度增長,大數據在不斷增長,這迫使企業(yè)的IT團隊考慮采用新的方式處理業(yè)務需求。
hadoop平臺對于非操作非常大型的數據集而言是一個強大的工具。Hadoop是Apache軟件基金會的一個頂級項目,用java語言編寫。Hadoop的設計靈感來自于谷歌在其其Google File System(GFS)和MapReduce編程模式上的工作。Hadoop實際上是其創(chuàng)始人DougCutting的兒子給自己的毛絨玩具大象起的名字。
流數據分析也是一種重要的大數據技術。IBM InfoSphereStreams是目前業(yè)界獨有的流數據處理技術。在IBM InfoSphere Streams中,數據將會流過有能力操控數據流(每秒鐘可能包含數百萬個事件)的運算符,然后對這些數據執(zhí)行動態(tài)分析。這項分析可觸發(fā)大量事件,使企業(yè)利用即時的智能實時采取行動,最終改善業(yè)務成果。
IBM的大數據戰(zhàn)略以其在2012年5月發(fā)布智慧分析洞察“3A5步”動態(tài)路線圖作為基礎。
IBM提出的“大數據平臺”架構具備四大核心能力:包括Hadoop系統(tǒng)、流計算(Stream Computing)、數據倉庫(Data Warehouse)和信息整合與治理(Information Integration and Governance)。其中的代表產品有IBM InfoSphere BigInsights、IBM InfoSphere Streams、InfoSphere Warehouse、IBM PureData系統(tǒng)等。
IBM針對大數據環(huán)境的數據安全解決方案則包括IBM InfoSphere Guardium for Hadoop、IBM InfoSphere Optim Data Privacy,以及IBM Tivoli Key Lifecycle Manager。
大數據_云計算_IBM
3、大數據可以做什么?
想要應用大數據,從流程來說,大概是這樣。大數據_互聯網_云計算
首先我們要有數據源,然后對數據進行收集和存儲,在這基礎上,再進行分析和應用,形成我們的產品和服務,而產品和服務也會產生新的數據,這些數據會循環(huán)進入我們的流程中。
當這整個循環(huán)體系成為一個智能化的體系,他通過機器可以實現自動化,那也許就會成為一種新的模式,不管是商業(yè)的,還是其他。
然后具體到實際的應用中,大數據能夠實現的應用,可以概括為兩個方向,一是精準化定制,二是預測。
主要是針對供需兩方的,獲取需方的個性化需求提供產品,最終實現供需雙方的最佳匹配。
大數據_java_搜索具體應用舉例,也可以歸納為三類。
一是個性化產品,比如智能化的搜索引擎搜索同樣的內容,每個人的結果都不同,或者是一些定制化的新聞服務,或者是網游等。
第二種是精準營銷,現在已經比較常見的互聯網營銷,網頁的推廣等,或者是基于地理位置的信息推送,當我到達某個地方,會自動推送周邊的消費設施等。
第三種是選址定位,包括零售店面的選址,或者是公共基礎設施的選址。
這些全都是通過對用戶需求的大數據分析,然后提供相對定制化的服務。
應用的第二個方向,預測。
預測主要是圍繞目標對象,基于它過去、未來的一些相關因素和數據分析,從而提前做出預警,或者是實時動態(tài)的優(yōu)化。
互聯網_云計算_大數據從具體的應用上,也大概可以分為三類。
一類是支持類的,小到企業(yè)的運營決策,證券投資決策,醫(yī)療行業(yè)的臨床診療支持,以及電子政務等。
二是風險預警類的,比如疫情預測,日常健康管理的疾病預測,設備實施的運營維護,公共安全,以及金融行業(yè)的信用風險管理等。
第三種是實時優(yōu)化類的,比如智能線路規(guī)劃,實時定價等。
以上呢,是對于大數據可以用來做什么的一些暢想,事實上也許大數據可以做的事情,可以擴展到方方面面。
但是,我們再看看現實中,大數據實際應用到了什么程度呢?
目前,大數據真正實現了商業(yè)化的應用,只有一種,就是互聯網營銷。其他我們列舉的方向,會有些初步的應用,但基本都還停留在探索的階段。比如疫情預測,無抵押信用貸款等,對于準確性,精細度,可推廣性方面還是有待推敲。造成大數據實際應用于目標藍圖之間的差距的主要原因是什么,認為是數據源的問題,你必須先獲得數據,然后才能應用數據。因此,數據的可獲取性,成為大數據在具體行業(yè)應用性評價的一個重要維度??梢詮臄祿臉藴驶?、開放性和集中度幾個維度衡量數據可獲取性。同時,獲取數據之后,在應用數據方面,可以從大數據應用的潛在價值維度來衡量,包括績效的提升,成本降低或者是新模式的產生。
此外,還可以從大數據行業(yè)應用的可復制/推廣性的角度來衡量,不僅包括在本行業(yè)內的推廣,同時也包括跨行業(yè)的推廣性。
從三個維度,對大數據在各行業(yè)應用的可能性做了一個定位,但這個定位還是非常定性和粗略的,具體可能需要對行業(yè)有更多的大數據應用的探討和探索。
大數據和大數據平臺是什么,有什么作用?中琛魔方大數據表示:大數據時代已經到來,這是一個時代的變化。只有抓住機遇,建立數據平臺并將其應用于企業(yè)行業(yè),我們才不會被這個時代所淘汰。隨著時代的更迭,演變出更適合發(fā)展的模式。





