一種基于Web服務(wù)標(biāo)簽數(shù)據(jù)的聯(lián)合聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于Web服務(wù)領(lǐng)域,主要利用了 Web服務(wù)標(biāo)簽數(shù)據(jù)與聯(lián)合聚類算法,實(shí)現(xiàn)了 一種對Web服務(wù)進(jìn)行有效聚類的方法。
【背景技術(shù)】
[0002] SOA(Service-Oriented Architecture,面向服務(wù)的體系架構(gòu))是一種新型的分 布式計(jì)算模型。其在電子商務(wù)、系統(tǒng)集成等領(lǐng)域中起到了越來越重要的作用。近年來,國內(nèi) 有關(guān)院校、研宄單位、IT相關(guān)單位都比較重視軟件體系結(jié)構(gòu)的研宄工作,面向服務(wù)軟件體系 結(jié)構(gòu)的研宄已經(jīng)成為熱點(diǎn),比較多研宄項(xiàng)目尚處于概念研宄階段。隨著SOA技術(shù)的不斷發(fā) 展,中國的SOA架構(gòu)模型和應(yīng)用推廣已經(jīng)有了良好的需求環(huán)境。
[0003] 在SOA思想中,服務(wù)是功能組件的基本單元,而通過發(fā)現(xiàn)和組合服務(wù)可以滿足用 戶的各種需求。隨著SOA的迅猛發(fā)展,互聯(lián)網(wǎng)上的可用Web服務(wù)的普及率也在增長,有效 地發(fā)現(xiàn)需要的服務(wù)變得不可或缺。Web服務(wù)發(fā)現(xiàn)是Web服務(wù)系統(tǒng)架構(gòu)中的一個(gè)重要組成 部分,其效果直接關(guān)系到服務(wù)復(fù)用的質(zhì)量,服務(wù)組合的相容性和可替換性,以及能否真正實(shí) 現(xiàn)服務(wù)的"即插即用"。研宄表明,相較于傳統(tǒng)的基于關(guān)鍵詞匹配和簡單分類進(jìn)行服務(wù)發(fā)現(xiàn) (UDDI)的解決方案,采用基于服務(wù)搜索引擎的模型進(jìn)行服務(wù)發(fā)現(xiàn)更為有效。Web服務(wù)聚類 是提高Web服務(wù)搜索引擎效率的方法之一。目前對于服務(wù)聚類方法的研宄,大部分都是基 于Web服務(wù)描述語言WSDL文件計(jì)算服務(wù)間相似度以實(shí)現(xiàn)Web服務(wù)的聚類,但是單一的信息 源和單向的聚類過程約束了服務(wù)聚類的準(zhǔn)確率。因此,一種在WSDL文件基礎(chǔ)上加入服務(wù)標(biāo) 簽數(shù)據(jù),能夠同時(shí)聚類Web服務(wù)及描述服務(wù)的信息的服務(wù)聚類方法,已成為目前學(xué)術(shù)界與 工業(yè)界的急切需求。
【發(fā)明內(nèi)容】
[0004] Web服務(wù)是由服務(wù)提供商發(fā)布在互聯(lián)網(wǎng)上的功能體,調(diào)用Web服務(wù)可以實(shí)現(xiàn)一定 的功能。隨著互聯(lián)網(wǎng)上的可用Web服務(wù)的數(shù)量的激增,在海量的Web服務(wù)中找到充分滿足 用戶需求的服務(wù)變得越來越困難。服務(wù)聚類是緩解服務(wù)發(fā)現(xiàn)困難的一個(gè)有效方法。
[0005] -種基于Web服務(wù)標(biāo)簽數(shù)據(jù)的聯(lián)合聚類方法,包括如下步驟:
[0006] (1)數(shù)據(jù)預(yù)處理模塊對Web服務(wù)的WSDL文檔及標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)處理:包括過濾文 本中的停用詞,對過濾后的文本進(jìn)行分詞處理,利用TF-IDF算法賦予每個(gè)文本中每個(gè)詞相 應(yīng)的權(quán)重并生成詞-服務(wù)矩陣;
[0007] (2)數(shù)據(jù)整合模塊根據(jù)整合WSDL文檔數(shù)據(jù)和標(biāo)簽數(shù)據(jù)的策略,并根據(jù)選定的策略 將兩個(gè)詞-服務(wù)矩陣相結(jié)合,獲得最終的詞-服務(wù)矩陣;
[0008] (3)服務(wù)聯(lián)合聚類模塊采用聯(lián)合聚類算法,將Web服務(wù)聯(lián)合聚類問題看作是二分 圖的劃分問題并采用譜圖劃分算法,通過求解標(biāo)準(zhǔn)化后的詞-服務(wù)矩陣的奇異矩陣,得到 二分圖劃分的解,從而獲得含有詞聚類信息及Web服務(wù)聚類信息的向量;
[0009] (4)基于步驟⑶中獲得的向量,采用K均值聚類方法,獲得最終的服務(wù)及詞的聚 類情況。
[0010] 優(yōu)選的,所述步驟(1)中的標(biāo)簽數(shù)據(jù)信息不充分的情況,通過標(biāo)簽推薦模塊,使得 標(biāo)簽數(shù)據(jù)更加完整可靠。
[0011] 優(yōu)選的,所述標(biāo)簽推薦模塊采用Sum、Vote等標(biāo)簽推薦策略,根據(jù)每個(gè)Web服務(wù)已 有的標(biāo)簽,為其推薦新的標(biāo)簽,保證Web服務(wù)標(biāo)簽數(shù)據(jù)的可靠性。
[0012] 優(yōu)選的,數(shù)據(jù)預(yù)處理模塊對從Web服務(wù)搜索引擎獲取的WSDL文檔和標(biāo)簽數(shù)據(jù)進(jìn)行 停用詞過濾、分詞處理,最后根據(jù)分詞處理后的文本計(jì)算詞頻,利用TF-IDF算法生成詞-服 務(wù)矩陣。
[0013] 優(yōu)選的,所述數(shù)據(jù)整合模塊從數(shù)據(jù)預(yù)處理模塊中獲取分別基于WSD文檔和標(biāo)簽數(shù) 據(jù)的兩個(gè)詞-服務(wù)矩陣,采用特定的整合策略,生成一個(gè)綜合的詞-服務(wù)矩陣。
[0014] 優(yōu)選的,所述服務(wù)聯(lián)合聚類模塊從數(shù)據(jù)整合模塊輸入整合后的詞-服務(wù)矩陣,采 用聯(lián)合聚類算法,計(jì)算出含有詞聚類及Web服務(wù)聚類信息的向量,并通過K均值算法獲得最 終聚類結(jié)果。
[0015] 本發(fā)明主要采用聯(lián)合聚類的算法,首先對Web服務(wù)的WSDL文檔及標(biāo)簽數(shù)據(jù)進(jìn)行了 一系列的預(yù)處理,包括過濾文本中的停用詞,如"on","of"等,對過濾后的文本進(jìn)行分詞處 理,利用TF-IDF算法賦予每個(gè)文本中每個(gè)詞相應(yīng)的權(quán)重并生成詞-服務(wù)矩陣;然后設(shè)計(jì)了 整合WSDL文檔數(shù)據(jù)和標(biāo)簽數(shù)據(jù)的策略,并根據(jù)選定的策略將兩個(gè)詞-服務(wù)矩陣相結(jié)合,獲 得最終的詞-服務(wù)矩陣;接著采用聯(lián)合聚類算法,將Web服務(wù)聯(lián)合聚類問題看作是二分圖的 劃分問題并采用譜圖劃分算法,通過求解標(biāo)準(zhǔn)化后的詞-服務(wù)矩陣的奇異矩陣,得到二分 圖劃分的解,從而獲得含有詞聚類信息及Web服務(wù)聚類信息的向量;最終基于上一步驟中 獲得的向量,采用K均值聚類方法,獲得最終的服務(wù)及詞的聚類情況。另外,本發(fā)明針對標(biāo) 簽數(shù)據(jù)信息不充分的情況,引入了標(biāo)簽推薦機(jī)制,使得標(biāo)簽數(shù)據(jù)更加完整可靠。
[0016] 整個(gè)Web服務(wù)聚類主要由四個(gè)部分組成:標(biāo)簽推薦模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)整 合模塊以及服務(wù)聯(lián)合聚類模塊。
[0017] 標(biāo)簽推薦模塊采用Sum、Vote等標(biāo)簽推薦策略,根據(jù)每個(gè)Web服務(wù)已有的標(biāo)簽,為 其推薦新的標(biāo)簽,保證Web服務(wù)標(biāo)簽數(shù)據(jù)的可靠性。
[0018] 數(shù)據(jù)預(yù)處理模塊對從Web服務(wù)搜索引擎獲取的WSDL文檔和標(biāo)簽數(shù)據(jù)進(jìn)行停用詞 過濾、分詞處理,最后根據(jù)分詞處理后的文本計(jì)算詞頻,利用TF-IDF算法生成詞-服務(wù)矩 陣。
[0019] 數(shù)據(jù)整合模塊從數(shù)據(jù)預(yù)處理模塊中獲取分別基于WSDL文檔和標(biāo)簽數(shù)據(jù)的兩個(gè) 詞-服務(wù)矩陣,采用特定的整合策略,生成一個(gè)綜合的詞-服務(wù)矩陣。
[0020] 服務(wù)聯(lián)合聚類模塊從數(shù)據(jù)整合模塊輸入整合后的詞-服務(wù)矩陣,采用聯(lián)合聚類算 法,計(jì)算出含有詞聚類及Web服務(wù)聚類信息的向量,并通過K均值算法獲得最終聚類結(jié)果。
[0021] 本發(fā)明的優(yōu)點(diǎn)如下:
[0022] 1.聚類過程中在原來單一的信息源(WSDL文檔)基礎(chǔ)上,引入Web服務(wù)標(biāo)簽數(shù)據(jù), 提高了服務(wù)描述的可信度,從而提升了服務(wù)聚類效果。
[0023] 2.傳統(tǒng)聚類算法是單向的,即只對服務(wù)進(jìn)行聚類,本發(fā)明同時(shí)聚類了服務(wù)和描述 服務(wù)的詞,兩個(gè)方向上的聚類過程互相促進(jìn),很大程度上提高了服務(wù)聚類的準(zhǔn)確率。
[0024] 3.聯(lián)合聚類算法中的參數(shù)很少,能夠充分利用行列信息,實(shí)現(xiàn)過程較為簡單。
【附圖說明】
[0025] 圖1為整體結(jié)構(gòu)圖。
[0026] 圖2為服務(wù)聯(lián)合聚類模塊內(nèi)部流程圖。
[0027] 圖3為標(biāo)簽推薦模塊內(nèi)部流程圖。
【具體實(shí)施方式】
[0028] 在整個(gè)服務(wù)聯(lián)合聚類過程中,將Web服務(wù)和其描述信息構(gòu)造為以下二分圖形式:
[0029] 二分圖:G = (WS,TE,E),其中WS為待聚類的Web服務(wù)集合,TE為詞集合,分別來 自WSDL文檔和服務(wù)的標(biāo)簽數(shù)據(jù)。E可表示為集合Hws i, te』} =WsiG WS, teTE},若te』 是從服務(wù)《^中獲取的,則邊{ws ptej存在。二分圖的鄰接矩陣M可定義為以下形式:
[0030]
【主權(quán)項(xiàng)】
1. 一種基于Web服務(wù)標(biāo)簽數(shù)據(jù)的聯(lián)合聚類方法,包括如下步驟: 數(shù)據(jù)預(yù)處理模塊對Web服務(wù)的WS化文檔及標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)處理;包括過濾文本中的停 用詞,對過濾后的文本進(jìn)行分詞處理,利用TF-IDF算法賦予每個(gè)文本中每個(gè)詞相應(yīng)的權(quán)重 并生成詞-服務(wù)矩陣; 數(shù)據(jù)整合模塊根據(jù)整合WS化文檔數(shù)據(jù)和標(biāo)簽數(shù)據(jù)的策略,并根據(jù)選定的策略將兩個(gè) 詞-服務(wù)矩陣相結(jié)合,獲得最終的詞-服務(wù)矩陣; 服務(wù)聯(lián)合聚類模塊采用聯(lián)合聚類算法,將Web服務(wù)聯(lián)合聚類問題看作是二分圖的劃分 問題并采用譜圖劃分算法,通過求解標(biāo)準(zhǔn)化后的詞-服務(wù)矩陣的奇異矩陣,得到二分圖劃 分的解,從而獲得含有詞聚類信息及Web服務(wù)聚類信息的向量; 基于步驟(3)中獲得的向量,采用K均值聚類方法,獲得最終的服務(wù)及詞的聚類情況。
2. 根據(jù)權(quán)利要求1所述的基于Web服務(wù)標(biāo)簽數(shù)據(jù)的聯(lián)合聚類方法,其特征在于:所述 步驟(1)中的標(biāo)簽數(shù)據(jù)信息不充分的情況,通過標(biāo)簽推薦模塊,使得標(biāo)簽數(shù)據(jù)更加完整可 靠。
3. 根據(jù)權(quán)利要求2所述的基于Web服務(wù)標(biāo)簽數(shù)據(jù)的聯(lián)合聚類方法,其特征在于:所述 標(biāo)簽推薦模塊采用Sum、Vote等標(biāo)簽推薦策略,根據(jù)每個(gè)Web服務(wù)已有的標(biāo)簽,為其推薦新 的標(biāo)簽,保證Web服務(wù)標(biāo)簽數(shù)據(jù)的可靠性。
4. 根據(jù)權(quán)利要求1-3任一所述的基于Web服務(wù)標(biāo)簽數(shù)據(jù)的聯(lián)合聚類方法,其特征在于: 數(shù)據(jù)預(yù)處理模塊對從Web服務(wù)捜索引擎獲取的WS化文檔和標(biāo)簽數(shù)據(jù)進(jìn)行停用詞過濾、分詞 處理,最后根據(jù)分詞處理后的文本計(jì)算詞頻,利用TF-IDF算法生成詞-服務(wù)矩陣。
5. 根據(jù)權(quán)利要求1-3任一所述的基于Web服務(wù)標(biāo)簽數(shù)據(jù)的聯(lián)合聚類方法,其特征在于: 所述數(shù)據(jù)整合模塊從數(shù)據(jù)預(yù)處理模塊中獲取分別基于WSD文檔和標(biāo)簽數(shù)據(jù)的兩個(gè)詞-服務(wù) 矩陣,采用特定的整合策略,生成一個(gè)綜合的詞-服務(wù)矩陣。
6. 根據(jù)權(quán)利要求1-3任一所述的基于Web服務(wù)標(biāo)簽數(shù)據(jù)的聯(lián)合聚類方法,其特征在于: 所述服務(wù)聯(lián)合聚類模塊從數(shù)據(jù)整合模塊輸入整合后的詞-服務(wù)矩陣,采用聯(lián)合聚類算法, 計(jì)算出含有詞聚類及Web服務(wù)聚類信息的向量,并通過K均值算法獲得最終聚類結(jié)果。
【專利摘要】本發(fā)明屬于Web服務(wù)領(lǐng)域,主要利用了Web服務(wù)標(biāo)簽數(shù)據(jù)與聯(lián)合聚類算法,實(shí)現(xiàn)了一種對Web服務(wù)進(jìn)行有效聚類的方法。本發(fā)明主要采用聯(lián)合聚類的算法,首先對Web服務(wù)的WSDL文檔及標(biāo)簽數(shù)據(jù)進(jìn)行了一系列的預(yù)處理;然后根據(jù)選定的策略將兩個(gè)詞-服務(wù)矩陣相結(jié)合,獲得最終的詞-服務(wù)矩陣;接著采用聯(lián)合聚類算法、 K均值聚類方法,獲得最終的服務(wù)及詞的聚類情況。另外,本發(fā)明針對標(biāo)簽數(shù)據(jù)信息不充分的情況,引入了標(biāo)簽推薦機(jī)制,使得標(biāo)簽數(shù)據(jù)更加完整可靠。本發(fā)明引入Web服務(wù)標(biāo)簽數(shù)據(jù),提高了服務(wù)描述的可信度,從而提升了服務(wù)聚類效果。
【IPC分類】G06F17-30
【公開號】CN104598559
【申請?zhí)枴緾N201510005433
【發(fā)明人】吳健, 梁婷婷, 陳亮, 鄧水光, 李瑩, 尹建偉, 吳朝暉
【申請人】浙江大學(xué)
【公開日】2015年5月6日
【申請日】2015年1月6日