日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 物聯(lián)網 > 智能應用
[導讀] 在現(xiàn)在社會上的企業(yè)中,最常見的數(shù)據搜集方法就是個人設備上的信息采集。這其中可能會涉及到一些個人隱私的泄露,也可能沒有。不過這不是今天討論的主題,今天我主要給大家解答一下——大數(shù)據處理的數(shù)據從何而來?在現(xiàn)在的數(shù)據技術時代中,數(shù)據有著不可替代的地位,拋開數(shù)據談大數(shù)據服務就是瞎扯,沒有數(shù)據做支撐的大數(shù)據平臺就是一個空殼。數(shù)據是一切數(shù)據分析、數(shù)據挖掘、大數(shù)據處理、ai算法的核心。

 在現(xiàn)在社會上的企業(yè)中,最常見的數(shù)據搜集方法就是個人設備上的信息采集。這其中可能會涉及到一些個人隱私的泄露,也可能沒有。不過這不是今天討論的主題,今天我主要給大家解答一下——大數(shù)據處理的數(shù)據從何而來?在現(xiàn)在的數(shù)據技術時代中,數(shù)據有著不可替代的地位,拋開數(shù)據談大數(shù)據服務就是瞎扯,沒有數(shù)據做支撐的大數(shù)據平臺就是一個空殼。數(shù)據是一切數(shù)據分析、數(shù)據挖掘、大數(shù)據處理、ai算法的核心。

從在目前來看,絕大多數(shù)公司或者組織做大數(shù)據處理時,他們的數(shù)據來源于:設備收集、數(shù)據庫、日志、爬蟲等等。當然,如果是學術或者個人做大數(shù)據處理的研究的話,數(shù)據還經??赡軄碓从冢洪_源數(shù)據集、造數(shù)據(假數(shù)據/模擬數(shù)據)等等。這很好理解,因為在公司中,常常數(shù)據都是需要服務于真實業(yè)務,所以數(shù)據也就來自于真實業(yè)務,而個人或者學術上可以使用一些特定的開源數(shù)據集來做相應研究,下面我們來介紹一下公司中經常獲取數(shù)據的這幾種方法:

1、設備收集

設備收集顧名思義就是使用一些設備來進行收集數(shù)據,比如在工業(yè)界電力行業(yè)常用的Scada數(shù)據就是通過常用的一些終端電子設備,直接放在匯流箱、逆變器等設備上,實時將電流電壓數(shù)據記錄并保存下來,這樣得到大量的數(shù)據。

 

再如,我們每個人的手機可能都是某些軟件的數(shù)據收集終端,我們每天的運動步數(shù)可能會被支付寶/微信記錄下,我們每天點開軟件的次數(shù)等等這些操作,都是各個軟件收集數(shù)據的一個手段。這些數(shù)據可以直接放入到大數(shù)據環(huán)境當中,也可以通過關系型數(shù)據庫做一個跳板。

 

2、從數(shù)據庫導入

在大數(shù)據技術風靡起來前,關系型數(shù)據庫(RDMS)是主要的數(shù)據分析與處理的途徑。許多公司的業(yè)務邏輯數(shù)據都是存放在關系型數(shù)據庫中。比如一個電商網站,你購買了一件商品,發(fā)生的這種行為絕對會生成一條數(shù)據在數(shù)據庫中。比如你收藏了一件商品、退貨了一件商品等等這種行為都會被記錄到數(shù)據庫中。

發(fā)展至今數(shù)據庫技術已經相當完善,當大數(shù)據出現(xiàn)的時候,行業(yè)就在考慮能否把數(shù)據庫數(shù)據處理的方法應用到大數(shù)據中。雖然出現(xiàn)Hive等大數(shù)據產品,但是在生產過程中業(yè)務數(shù)據依舊使用 RDMS 進行存儲,這是因為產品需要實時響應用戶的操作,在毫秒級完成讀寫操作,而大數(shù)據產品不是應對這種情況出現(xiàn)的。

到這里你可能就有一個疑問,如何把業(yè)務的數(shù)據庫同步到大數(shù)據平臺中?一般來說業(yè)務數(shù)據我們使用實時和離線采集數(shù)據來將數(shù)據抽取到數(shù)據倉庫中。然后再進行后續(xù)數(shù)據處理和分析,我們常用的數(shù)據庫導入工具是Sqoop。Sqoop是 Apache 旗下一款 Hadoop 和關系型數(shù)據庫之間傳送離線數(shù)據的工具。實現(xiàn)關系型數(shù)據庫同 Hadoop 集群的 Hdfs、Hbase、Hive 進行數(shù)據同步,是連接傳統(tǒng)關系型數(shù)據庫和 Hadoop 的橋梁。

 

3、日志導入

日志系統(tǒng)將我們系統(tǒng)運行的每一個狀況信息都使用文字或者日志的方式記錄下來,這些信息我們可以理解為業(yè)務或是設備在虛擬世界的行為的痕跡,通過日志對業(yè)務關鍵指標以及設備運行狀態(tài)等信息進行分析。

除了常規(guī)記錄的方式收集日志之外,一般用戶的一些行為日志收集的方式我們采用埋點的形式進行收集。埋點的意思實際上是在前端頁面上放上一個監(jiān)控點,它能夠記錄下你所有的一些行為,比如你鼠標來來回回移動了幾下,你點擊了哪些地方,你在這篇文章上停留了多久,你在輸入框中輸入了什么字然后又刪除了等等所有的一些行為,都可以被埋點所記錄。而將日志數(shù)據導入到大數(shù)據環(huán)境中也有許多的方案,常見的日志收集解決方案如ELK搭建日志采集+日志查詢+可視化系統(tǒng)。Flume+Kafka+Hive/Spark+SparkStreaming實現(xiàn)日志的實時采集+離線分析+實時處理的架構等等。

 

4、爬蟲

爬蟲是一種通過模擬正常人瀏覽訪問網站的一類程序,它通過模擬正常人訪問網站,從而達到獲取該網站數(shù)據的目的,比如說我訪問了一下天氣預報網站,并復制了今天的溫度發(fā)給女朋友,我說對女朋友說“寶貝,今天溫度很合適,咱們去爬山吧”,女朋友回“分手吧,40度的溫度你叫我爬山,你根本不愛我”??窗桑页晒νㄟ^獲取網站的數(shù)據丟失了一個女朋友。爬蟲就是通過模擬人的方式去訪問網站,并獲取網站的數(shù)據的。

時日至今,爬蟲的數(shù)據成為公司重要戰(zhàn)略資源,通過獲取同行的數(shù)據跟自己的數(shù)據進行支撐對比,管理者可以更好做出決策。爬蟲也是一個非常有用和常見的數(shù)據獲取方式。數(shù)據采集是數(shù)據分析、數(shù)據挖掘工作中的第一步。數(shù)據采集的準確性決定了這個數(shù)據分析報告是不是有使用價值。只有當數(shù)據采集具有科學性、客觀、嚴密的邏輯性時,建立在這樣的數(shù)據分析基礎之上得出來的結論才具有現(xiàn)實的價值和意義。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: 驅動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設備,其驅動電源的性能直接關系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅動電源設計中至關重要的兩個環(huán)節(jié),集成化方案的設計成為提升電機驅動性能的關鍵。

關鍵字: 工業(yè)電機 驅動電源

LED 驅動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設備的使用壽命。然而,在實際應用中,LED 驅動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設計、生...

關鍵字: 驅動電源 照明系統(tǒng) 散熱

根據LED驅動電源的公式,電感內電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關鍵字: LED 設計 驅動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產業(yè)的重要發(fā)展方向。電動汽車的核心技術之一是電機驅動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅動系統(tǒng)中的關鍵元件,其性能直接影響到電動汽車的動力性能和...

關鍵字: 電動汽車 新能源 驅動電源

在現(xiàn)代城市建設中,街道及停車場照明作為基礎設施的重要組成部分,其質量和效率直接關系到城市的公共安全、居民生活質量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關鍵字: 發(fā)光二極管 驅動電源 LED

LED通用照明設計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關鍵字: LED 驅動電源 功率因數(shù)校正

在LED照明技術日益普及的今天,LED驅動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關鍵字: LED照明技術 電磁干擾 驅動電源

開關電源具有效率高的特性,而且開關電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅動電源

關鍵字: LED 驅動電源 開關電源

LED驅動電源是把電源供應轉換為特定的電壓電流以驅動LED發(fā)光的電壓轉換器,通常情況下:LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: LED 隧道燈 驅動電源
關閉