一種物聯(lián)網(wǎng)終端設(shè)備的語義化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及物聯(lián)網(wǎng)終端設(shè)備技術(shù)領(lǐng)域,具體地說是一種物聯(lián)網(wǎng)終端設(shè)備的語義化 方法。
【背景技術(shù)】
[0002] 物聯(lián)網(wǎng)是在互聯(lián)網(wǎng)概念的基礎(chǔ)上,將其用戶端延伸和擴展到任何物品與物品之 間,進行信息交換和通信的一種網(wǎng)絡(luò)概念。具體說來,通過射頻識別(RFID)、紅外感應(yīng)器、全 球定位系統(tǒng)、激光掃描器等信息傳感設(shè)備,按約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)相連接,進 行信息交換和通信,以實現(xiàn)智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò)概念。
[0003] 信息語義化是物聯(lián)網(wǎng)的基礎(chǔ),是針對當(dāng)今物聯(lián)網(wǎng)中信息無序,數(shù)據(jù)缺乏語義和信 息獲取效率低等問題提出來的。在語義Web中,信息被賦予了明確的含義,使計算機能夠理 解和辨識Web信息,并對其自動解釋,交換和處理,從而為人們提供優(yōu)質(zhì)的服務(wù)。語義Web 使用XML定義的標簽格式,采用RDF靈活地描述數(shù)據(jù)以及用OWL語言來描述網(wǎng)絡(luò)文檔中的 術(shù)語的明確含義和它們之間的關(guān)系。
[0004] 本體是語義的核心,其主要目標是通過獲取相關(guān)領(lǐng)域知識得到共同認可的代表領(lǐng) 域的詞匯以及這些詞匯的層次化結(jié)構(gòu),以實現(xiàn)對領(lǐng)域知識的共同理解。
[0005] 但是目前傳感器本體,無論是作為一種通用語言還是作為一種數(shù)據(jù)模型都缺少時 間和空間的語義,如從溫度傳感器中獲得"25"這個數(shù)據(jù),用傳感器本體中的"溫度"這一概 念標注它,則表明"25"是溫度,但該本體卻不能表明采集的時間,地點以及采集者等相關(guān)信 肩、。
[0006] 另一方面,本體開發(fā)者都是根據(jù)特定應(yīng)用來構(gòu)建相應(yīng)的傳感器本體,并沒有明確 的含義和統(tǒng)一的框架,導(dǎo)致各個本體中的類定義不同,使彼此之間共享性和重用性較差。面 對傳感器本體的開發(fā),沒有比較完整成熟的構(gòu)建方法。目前常見的本體構(gòu)建方法有骨架 法,METH0NT0L0GY法,IDEF5,評價法和七步法等,但是這些方法并不適合傳感器本體的構(gòu) 建。首先,這些方法是從領(lǐng)域本體構(gòu)建方法中提煉出來的,本身并不完善,如構(gòu)建過程不規(guī) 范,無計劃性,無需求分析過程,未考慮本體的可擴展性,不能充分保證本體的共享和重用 性,沒有統(tǒng)一的評價標準。
【發(fā)明內(nèi)容】
[0007] 針對現(xiàn)有技術(shù)的不足,為實現(xiàn)本體的規(guī)模化和規(guī)范化開發(fā),提高傳感器本體開發(fā) 質(zhì)量,本發(fā)明在傳感器本體構(gòu)建準則和傳感器本體特性的基礎(chǔ)上,綜合METH0NT0L0GY法 的生命周期開發(fā)特點,七步法的系統(tǒng)分析法,Tove法的評價優(yōu)化技術(shù)以及其它本體構(gòu)建方 法的優(yōu)點,依據(jù)軟件工程中的原型法,提出了一種支持需求分析,利于傳感器本體不斷進 化,有效減少領(lǐng)域?qū)<覅⑴c度的傳感器本體Senont-PDF構(gòu)建法(PDFBuilding of Sensor ontology)。該方法分為傳感器本體計劃(SoP,Sensor ontology Plan),傳感器本體構(gòu)建 (Sensor ontology Do)和傳感器本體反饋(Sensor ontology Feedback)三個階段,米用 面向?qū)ο蟮姆绞街贫椖坑媱潱靡延袦y試數(shù)據(jù)集或仿真數(shù)據(jù)分析執(zhí)行結(jié)果,并根據(jù)具 體應(yīng)用實現(xiàn)傳感器本體的領(lǐng)域更新和擴展,整個傳感器本體開發(fā)及進化過程是循序漸進, 螺旋上升的。
[0008] 本發(fā)明為實現(xiàn)上述目的所采用的技術(shù)方案是:一種物聯(lián)網(wǎng)終端設(shè)備的語義化方 法,分析物聯(lián)網(wǎng)終端設(shè)備的應(yīng)用特征,制定建立本體庫的規(guī)則;利用本體建立工具,分析建 立初始本體庫;對網(wǎng)絡(luò)與傳感器信息進行預(yù)處理;采集傳感器上傳的信息,對初始本體庫 進行更新,并且采集網(wǎng)絡(luò)搜集的信息對初始本體庫進行擴展。
[0009] 所述預(yù)處理包括本體解析和文本處理。
[0010] 所述本體解析包括對初始本體庫中的概念信息進行解析,得到概念集;對初始本 體庫中的實例信息進行解析,得到實例集;對初始本體庫中的關(guān)系信息進行解析,得到關(guān)系 集。
[0011] 所述文本處理包括對網(wǎng)頁文本處理和對采集數(shù)據(jù)文本處理。
[0012] 所述網(wǎng)頁文本處理包括:對網(wǎng)頁去噪聲后,提取網(wǎng)頁特征。
[0013] 所述采集數(shù)據(jù)文本處理包括:對數(shù)據(jù)格式進行轉(zhuǎn)換。
[0014] 所述對初始本體庫進行更新包括以下過程:
[0015] 當(dāng)采集到傳感器發(fā)送的實時動態(tài)測量值時,進行動態(tài)數(shù)據(jù)匹配,更新初始本體庫 中的實例集;
[0016] 當(dāng)采集到傳感器發(fā)送的固有屬性信息值時,進行靜態(tài)數(shù)據(jù)匹配,更新初始本體庫 中的概念集和關(guān)系集。
[0017] 所述對初始本體庫進行擴展包括以下過程:
[0018] 對網(wǎng)絡(luò)搜集到的信息進行篩選,得到與本體庫相似度較高的網(wǎng)絡(luò)信息;
[0019] 通過對編輯距離和上下文相似度的計算得到相關(guān)度較高的詞匯信息。
[0020] 所述對網(wǎng)絡(luò)搜集到的信息進行篩選包括以下過程:
[0021] 設(shè)有η個領(lǐng)域文檔的集合為SetD= {Dl,D2,…Dn},cj為傳感器本體中的任一概 念,文檔Di與概念cj的相關(guān)度為:
【主權(quán)項】
1. 一種物聯(lián)網(wǎng)終端設(shè)備的語義化方法,其特征在于: 分析物聯(lián)網(wǎng)終端設(shè)備的應(yīng)用特征,制定建立本體庫的規(guī)則; 利用本體建立工具,分析建立初始本體庫; 對網(wǎng)絡(luò)與傳感器信息進行預(yù)處理; 采集傳感器上傳的信息,對初始本體庫進行更新,并且采集網(wǎng)絡(luò)搜集的信息對初始本 體庫進行擴展。
2. 根據(jù)權(quán)利要求1所述的一種物聯(lián)網(wǎng)終端設(shè)備的語義化方法,其特征在于: 所述預(yù)處理包括本體解析和文本處理。
3. 根據(jù)權(quán)利要求2所述的一種物聯(lián)網(wǎng)終端設(shè)備的語義化方法,其特征在于: 所述本體解析包括對初始本體庫中的概念信息進行解析,得到概念集;對初始本體庫 中的實例信息進行解析,得到實例集;對初始本體庫中的關(guān)系信息進行解析,得到關(guān)系集。
4. 根據(jù)權(quán)利要求2所述的一種物聯(lián)網(wǎng)終端設(shè)備的語義化方法,其特征在于: 所述文本處理包括對網(wǎng)頁文本處理和對采集數(shù)據(jù)文本處理。
5. 根據(jù)權(quán)利要求4所述的一種物聯(lián)網(wǎng)終端設(shè)備的語義化方法,其特征在于:所述網(wǎng)頁 文本處理包括:對網(wǎng)頁去噪聲后,提取網(wǎng)頁特征。
6. 根據(jù)權(quán)利要求4所述的一種物聯(lián)網(wǎng)終端設(shè)備的語義化方法,其特征在于:所述采集 數(shù)據(jù)文本處理包括:對數(shù)據(jù)格式進行轉(zhuǎn)換。
7. 根據(jù)權(quán)利要求1所述的一種物聯(lián)網(wǎng)終端設(shè)備的語義化方法,其特征在于: 所述對初始本體庫進行更新包括以下過程: 當(dāng)采集到傳感器發(fā)送的實時動態(tài)測量值時,進行動態(tài)數(shù)據(jù)匹配,更新初始本體庫中的 實例集; 當(dāng)采集到傳感器發(fā)送的固有屬性信息值時,進行靜態(tài)數(shù)據(jù)匹配,更新初始本體庫中的 概念集和關(guān)系集。
8. 根據(jù)權(quán)利要求1所述的一種物聯(lián)網(wǎng)終端設(shè)備的語義化方法,其特征在于: 所述對初始本體庫進行擴展包括以下過程: 對網(wǎng)絡(luò)搜集到的信息進行篩選,得到與本體庫相似度較高的網(wǎng)絡(luò)信息; 通過對編輯距離和上下文相似度的計算得到相關(guān)度較高的詞匯信息。
9. 根據(jù)權(quán)利要求8所述的一種物聯(lián)網(wǎng)終端設(shè)備的語義化方法,其特征在于:所述對網(wǎng) 絡(luò)搜集到的信息進行篩選包括以下過程: 設(shè)有n個領(lǐng)域文檔的集合為SetD={Dl,D2,…Dn},cj為傳感器本體中的任一概念,文 檔Di與概念cj的相關(guān)度為:
其中:
freqy為術(shù)語cj在Di中出現(xiàn)的次數(shù),即頻率。則 文檔Dj與傳感器本體的相關(guān)度為:
m表示傳感器本體中的概念個數(shù); 如果文檔Dj與傳感器本體的相關(guān)度DRs_nt大于領(lǐng)域文檔相關(guān)系數(shù)0,則領(lǐng)域文檔相 關(guān)度較高,反之領(lǐng)域文檔相關(guān)度較低;其中領(lǐng)域文檔相關(guān)系數(shù)e為用戶輸入文檔變量。
10.根據(jù)權(quán)利要求8所述的一種物聯(lián)網(wǎng)終端設(shè)備的語義化方法,其特征在于: 所述對編輯距離和上下文相似度的計算包括: 給定兩個詞匯h和t2,根據(jù)Sigmoid函數(shù)以及編輯距離和上下文相似度得到兩個詞匯 的概念匹配度為:
其中,a,@作為協(xié)調(diào)因子,采用Sigmoid函數(shù),
如果兩個詞匯的概念匹配度Sim_rept(tl,t2)大于領(lǐng)域詞匯相關(guān)系數(shù)6,則領(lǐng)域詞匯 相關(guān)度較高,反之領(lǐng)域詞匯相關(guān)度較低;其中領(lǐng)域詞匯相關(guān)系數(shù)S為用戶輸入詞匯變量。
【專利摘要】本發(fā)明涉及物聯(lián)網(wǎng)終端設(shè)備技術(shù)領(lǐng)域,具體地說是一種物聯(lián)網(wǎng)終端設(shè)備的語義化方法,分析物聯(lián)網(wǎng)終端設(shè)備的應(yīng)用特征,制定建立本體庫的規(guī)則;利用本體建立工具,分析建立初始本體庫;對網(wǎng)絡(luò)與傳感器信息進行預(yù)處理;采集傳感器上傳的信息,對初始本體庫進行更新,并且采集網(wǎng)絡(luò)搜集的信息對初始本體庫進行擴展。本發(fā)明采用面向?qū)ο蟮姆绞街贫椖坑媱?,利用已有測試數(shù)據(jù)集或仿真數(shù)據(jù)分析執(zhí)行結(jié)果,并根據(jù)具體應(yīng)用實現(xiàn)傳感器本體的領(lǐng)域更新和擴展,整個傳感器本體開發(fā)及進化過程是循序漸進,螺旋上升的。
【IPC分類】G06F17-30
【公開號】CN104699719
【申請?zhí)枴緾N201310669226
【發(fā)明人】佟星, 劉陽, 施昭, 曾鵬, 于海斌
【申請人】中國科學(xué)院沈陽自動化研究所
【公開日】2015年6月10日
【申請日】2013年12月10日
【公告號】WO2015085622A1