日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 物聯(lián)網(wǎng) > 《物聯(lián)網(wǎng)技術》雜志
[導讀]摘 要:科技情報大數(shù)據(jù)運用行業(yè)人工智能分析技術,基于及時、海量、跨領域、高縱深的互聯(lián)網(wǎng)大數(shù)據(jù),為政府和企事業(yè)單位打造可定向抓取、語義分析、深度學習、完善知識圖譜的人工智能科技情報解決方案。還可以滿足地區(qū)競爭力、企業(yè)發(fā)展、競對狀況、行業(yè)/技術跟蹤等方面的科技情報挖掘需求。IDC估計,到2020年,33%的數(shù)據(jù)將包含有價值的信息。Hadoop 的目的在于基于一種新的方法來存儲和處理復雜的數(shù)據(jù)。通過把數(shù)據(jù)均衡分布到集群上,復制副本以確保數(shù)據(jù)的可靠性和容錯性。存儲和計算都分布到多個機器上,以充分體現(xiàn)數(shù)據(jù)的本地性,且當前很多數(shù)據(jù)庫也支持數(shù)據(jù)分片技術。Hadoop分布式系統(tǒng)已成為大數(shù)據(jù)挖掘系統(tǒng)的重要組成部分。文中在Hadoop分布式平臺上完成了科技情報數(shù)據(jù)深度分析的一次實踐。

引 言

大數(shù)據(jù)擁有數(shù)據(jù)量巨大;數(shù)據(jù)類型多樣;數(shù)據(jù)中富含價值; 在盡可能短的時間內(nèi)挖掘出數(shù)據(jù)的真實性等典型特征[1]。

數(shù)據(jù)挖掘技術 [2](Data Mining)可在大型數(shù)據(jù)庫中自動發(fā)現(xiàn)有用信息,具有聚類分析,預測建模,關聯(lián)分析,異常檢測等功能,既可以獨立運行,也可以聯(lián)合操作。聚類分析實用的技術包括 K 均值、凝聚層次聚類、dbscan、簇評估等,主要目的在于通過基于原型、密度、圖像等的聚類,發(fā)現(xiàn)其間關系。預測建模更多的是一種可視化角度分析方法,利用分類、回歸等方法建立模型以解決問題。數(shù)據(jù)挖掘技術分為統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡方法和數(shù)據(jù)庫方法。

計算機機器人專業(yè)博士鄧侃 [3] 表示,大數(shù)據(jù)不是忽悠, 關鍵要能夠發(fā)現(xiàn)其中的價值,而數(shù)據(jù)挖掘的算法、云計算和并行計算就是發(fā)現(xiàn)數(shù)據(jù)價值的工具。

科技情報服務平臺維護的公益類科技服務平臺,是為順應情報系統(tǒng)的網(wǎng)絡化、智能化、集成化和決策化的未來發(fā)展要求而構(gòu)建的自動化情報收集與服務體系,可從每日涌現(xiàn)在互聯(lián)網(wǎng)上的海量信息中快速、準確地獲取有用信息,并完成對情報資料的自動篩選、分類、分析工作,為政府部門、科研人員和企業(yè)提供具有前瞻性、時效性和專業(yè)化的情報服務。它采用知識管理的理念和技術對科技信息資源進行深度挖掘和戰(zhàn)略優(yōu)化,通過強化科技信息的智能采集和深度加工、發(fā)布和共享機制,構(gòu)建科技情報創(chuàng)新服務體系。

1 數(shù)據(jù)挖掘簡介

數(shù)據(jù)挖掘的主要任務是關聯(lián)分析、聚類分析、分類、預測、時序模式和偏差分析等[4]。

(1) 關聯(lián) 分 析(AssociationAnalysis)。 關聯(lián) 規(guī) 則由 RakeshApwal 等人率先提出。兩個或兩個以上變量取值之間存在的規(guī)律稱為關聯(lián),使得所挖掘的規(guī)則更符合需求。

(2) 聚類分析(Clustering)。聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。

(3) 分類(Classification)。分類即找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。

(4) 預測(Predication)。預測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型預測未來數(shù)據(jù)的種類及特征。

(5) 時序模式(Time-SeriesPattern)。時序模式是指通過時間序列搜索出重復發(fā)生概率較高的模式。

(6) 偏差分析(Deviation)。在偏差中包括很多有價值的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在諸多異常情況,而發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況非常重要。

2 科技信息采集與存儲系統(tǒng)

使用垂直搜索技術在互聯(lián)網(wǎng)擴大信息搜集途徑,實現(xiàn)了科技信息的采集與存儲[5]。智能情報加工系統(tǒng)運用信息抽取、機器學習、自然語言理解、信息檢索等技術對文本進行處理, 實現(xiàn)對海量信息的數(shù)據(jù)挖掘,完成數(shù)據(jù)的自動分類、聚類、去除重復信息、發(fā)現(xiàn)關聯(lián)規(guī)則、自動文摘的生成等??萍夹畔l(fā)布與共享平臺通過將門戶型科技信息發(fā)布平臺作為情報發(fā)布、信息共享、交流互動的窗口與載體,可提供情報簡報的自動生成、定題服務等功能。

該平臺是集情報收集、存儲、處理和分析于一體的新一代綜合性信息系統(tǒng)。其主要功能是協(xié)助情報人員制定情報計劃, 系統(tǒng)地收集信息,并對收集到的信息進行分析和加工,生成情報產(chǎn)品并提交給用戶,為用戶提供公益情報服務。

3 科技信息采集與存儲體系

科技信息采集與存儲體系的主要功能在于可完成情報信息分類體系規(guī)劃與情報信息源規(guī)劃。采用垂直網(wǎng)站抓取技術, 通過設置關鍵詞、數(shù)據(jù)源、重要程度等抓取策略,自動發(fā)現(xiàn)互聯(lián)網(wǎng)相關內(nèi)容,并對頁面進行抓取。通過索引技術對抓取到的文檔進行全文索引,為用戶提供全局文檔信息搜索結(jié)果; 搜索結(jié)果以知識樹的方式展現(xiàn),并實現(xiàn)對抓取內(nèi)容的管理。

抓取器由 URL 搜索引擎、頁面抓取引擎 [6](頁面抓取器) 組成,用以實現(xiàn) URL 發(fā)現(xiàn)。抓取器需要對頁面中的目錄頁面、 列表頁面等非描述性內(nèi)容頁面進行剔除。URL 搜索引擎首先 對全互聯(lián)網(wǎng)相關內(nèi)容的 URL 進行搜索,并執(zhí)行去重檢測,以 保證相同頁面只被抓取一次。 頁面抓取引擎抓取頁面后,對其內(nèi)容進行分析,剔除其中 的非正文內(nèi)容頁面。抓取器內(nèi)含定時抓取策略,可按一定時間 周期和抓取策略進行循環(huán)抓取,以確保我們能夠及時獲取互 聯(lián)網(wǎng)更新的內(nèi)容。

4 數(shù)據(jù)聚類算法

聚類,即一些給定的元素或者對象分散存儲在數(shù)據(jù)庫中, 根據(jù)我們感興趣的對象屬性對其進行聚集,同類對象之間相似度高,不同類之間差異較大。其最大的特點是事先不確定類別。這其中最經(jīng)典的算法非 KMeans 算法[7] 莫屬,而這也是最常用的聚類算法。在給定 K 值和 K 個初始類簇中心點的情況下,把每個點(亦即數(shù)據(jù)記錄)分到離其最近的類簇中心點所代表的類簇中,待所有點分配完畢后,根據(jù)類簇內(nèi)的所有點重新計算該類簇的中心點(取平均值),然后迭代進行分配點和更新類簇中心點的步驟,直至類簇中心點變化微小,或達到指定的迭代次數(shù)為止。KMeans 算法雖然思想比較簡單,但合理確定 K 值和 K 個初始類簇的中心點對于聚類效果而言有很大影響。

5 信息抓取管理平臺

信息抓取管理平臺 是控制抓取的后臺工具,分為 關鍵詞抓取 和 深度抓取 。

關鍵詞抓取 [8] 是指在互聯(lián)網(wǎng)上抓取具有特定關鍵詞的網(wǎng)頁,每 24 小時抓取一次,于夜晚進行,以保證抓取網(wǎng)頁與互聯(lián)網(wǎng)上的信息同步更新。

深度抓取 [9] 是指一次性獲取某個網(wǎng)站的全部信息,以快速積累初始數(shù)據(jù)。深度抓取是一次性的抓取,不會更新。

5.1 關鍵內(nèi)容抓取

根據(jù)北京科技信息網(wǎng)的需求,確定數(shù)據(jù)搜索內(nèi)容包括科技政策科技動態(tài)等頻道內(nèi)容。抓取器通過設定依內(nèi)容抓取的策略,對全網(wǎng)內(nèi)容進行抓取。并通過后端的內(nèi)容聚 合進行內(nèi)容的后處理,以便實現(xiàn)關鍵內(nèi)容的抓取。如圖 1 所示, 當標簽位置為“普通抓取”時,可實現(xiàn)對關鍵內(nèi)容的抓取

基于科技情報Hadoop平臺的系統(tǒng)研究

5.2 深度抓取

北京市科技信息網(wǎng) 對一些特定網(wǎng)站設定了全站內(nèi)容抓取,對全站內(nèi)容進行一次性內(nèi)容獲取,并實時對其更新的內(nèi)容進行監(jiān)控,同步抓取。如圖 2 所示,當標簽位置為 深度抓取時,可以實現(xiàn)對全站內(nèi)容的抓取。

基于科技情報Hadoop平臺的系統(tǒng)研究

圖 2 控制臺的深度抓取界面

5.3 工作狀況的實時監(jiān)控與回溯查詢

實時監(jiān)控終端對引擎運行的各項指標進行實時監(jiān)控,以隨時掌握引擎的運行狀態(tài)。 回溯查詢平臺 可查看已抓取的網(wǎng)頁和網(wǎng)頁去噪情況?;厮莶樵兤脚_界面如圖 3 所示。

基于科技情報Hadoop平臺的系統(tǒng)研究

圖 3 回溯查詢平臺界面

6 分詞功能介紹

分詞程序主要包含 4 大模塊,分別為數(shù)據(jù)輸入模塊、基本前向后向分詞、數(shù)量詞識別以及歧義消解模塊。

7 去重功能介紹

該模塊可對網(wǎng)頁進行去重操作[10]。

8 分類功能介紹

實現(xiàn)中文信息自動分門別類 [11] 是一項及其復雜的工作。本系統(tǒng)根據(jù)中文智能分詞技術[12] 實現(xiàn)了分類功能,即根據(jù)文本內(nèi)容的特點分別歸類。通過人工對其進行簡單的 訓練 后, 可對文本進行高速智能的自動分類。分類可實現(xiàn)多層的樹狀結(jié)構(gòu),允許一篇文檔同時屬于多個分類。分類過程主要包括文本預處理,抽取特征項,分類算法等。

9 結(jié) 語

系統(tǒng)擁有的網(wǎng)絡化情報自動采集、智能加工、發(fā)布共享體系架構(gòu)等功能使得該體系能夠利用先進的科技信息采集工具, 實現(xiàn)異構(gòu)信息資源的采集、轉(zhuǎn)變、整理、合成,以統(tǒng)一的模版格式實現(xiàn)科技情報信息資源服務,去除科技信息資源種類、架構(gòu)等無關信息,實現(xiàn)用戶的透明操作;采用統(tǒng)一的信息采集、加工處理、管理平臺,實現(xiàn)采集、加工處理過程的個性化流程個性化定制;實現(xiàn)了科技情報信息資源面向不同種類用戶和不同種類應用的科技信息發(fā)布服務;基于網(wǎng)絡的自動化情報收集、加工與發(fā)布體系是公益性情報服務平臺的發(fā)展趨勢。

本站聲明: 本文章由作者或相關機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設備,其驅(qū)動電源的性能直接關系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅(qū)動電源設計中至關重要的兩個環(huán)節(jié),集成化方案的設計成為提升電機驅(qū)動性能的關鍵。

關鍵字: 工業(yè)電機 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設備的使用壽命。然而,在實際應用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設計、生...

關鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關鍵字: LED 設計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術之一是電機驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關鍵元件,其性能直接影響到電動汽車的動力性能和...

關鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設中,街道及停車場照明作為基礎設施的重要組成部分,其質(zhì)量和效率直接關系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關鍵字: LED照明技術 電磁干擾 驅(qū)動電源

開關電源具有效率高的特性,而且開關電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關鍵字: LED 驅(qū)動電源 開關電源

LED驅(qū)動電源是把電源供應轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: LED 隧道燈 驅(qū)動電源
關閉