亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于標(biāo)簽的web服務(wù)聚類方法

文檔序號(hào):6354009閱讀:783來源:國知局
專利名稱:一種基于標(biāo)簽的web服務(wù)聚類方法
技術(shù)領(lǐng)域
本發(fā)明屬于web服務(wù)領(lǐng)域,尤其涉及一種基于標(biāo)簽的Web服務(wù)聚類方法。
背景技術(shù)
面向服務(wù)的計(jì)算(SOC)為我們提供了一種將單一功能應(yīng)用無縫聚合為大粒度增值服務(wù)的方法。如今,服務(wù)組合受到了產(chǎn)業(yè)界的關(guān)注,并且應(yīng)用到了各個(gè)領(lǐng)域,比如工作流管理、金融、電子商務(wù)等等。因此如何準(zhǔn)確發(fā)現(xiàn)滿足用戶需求的web服務(wù),成為了ー個(gè)重要 的研究方向。Web服務(wù)是互聯(lián)網(wǎng)上實(shí)現(xiàn)某種功能或執(zhí)行預(yù)先設(shè)定的流程的軟件對(duì)象集,它們?cè)赪eb上發(fā)布,能被用戶發(fā)現(xiàn)并調(diào)用。用戶在調(diào)用服務(wù)之后,可以利用標(biāo)簽對(duì)服務(wù)進(jìn)行評(píng)注,標(biāo)簽的形式往往是單詞或者短語,可以是對(duì)服務(wù)功能的描述或其他語義信息。目前,服務(wù)查詢主要是利用web服務(wù)搜索引擎實(shí)現(xiàn)的,它是利用基于關(guān)鍵字匹配WSDL文件的方法進(jìn)行查詢。WSDL(Web服務(wù)描述語言,Web Services DescriptionLanguage)是為描述Web服務(wù)發(fā)布的XML格式文件,描述了 Web服務(wù)的公共接ロ。但是這種方法存在一定的缺陷,比如噪聲敏感、低召回率等問題。

發(fā)明內(nèi)容
針對(duì)上述技術(shù)缺陷,本發(fā)明提出一種基于標(biāo)簽的Web服務(wù)聚類方法。為了解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下一種基于標(biāo)簽的web服務(wù)聚類方法,包括如下步驟I)收集互聯(lián)網(wǎng)上web服務(wù)的WSDL文件和標(biāo)簽信息;2)從WSDL文件中提取web服務(wù)的特征值,所述特征值包括內(nèi)容、類型、消息、端ロ和服務(wù)名稱;3)對(duì)web服務(wù)的各個(gè)特征值和標(biāo)簽信息進(jìn)行相似度計(jì)算,并根據(jù)特征值和標(biāo)簽信息的相似度值計(jì)算綜合相似度;4)根據(jù)綜合相似度使用WTCluster算法對(duì)web服務(wù)進(jìn)行聚類。作為可選方案,所述特征值內(nèi)容的提取包括如下步驟21)建立內(nèi)容特征向量將WSDL文件的內(nèi)容根據(jù)空白符進(jìn)行分割,進(jìn)而得到初始內(nèi)容特征向量;22)去除詞尾利用波特詞干算法將詞干相同但后綴不同的單詞統(tǒng)一化;23)噪聲過濾在所述內(nèi)容向量中,過濾兩類沒有意義的單詞,第一種是XML標(biāo)簽,第二種是功能性詞匯;判斷所述功能性詞匯的包括如下步驟,首先建立詞頻的泊松分布模型,為每個(gè)單詞w計(jì)算過估因子Aw =—其中ん是通過泊松分布對(duì)w的估計(jì)詞頻,nw是實(shí)際在文本中統(tǒng)計(jì)的詞頻,過估因子越小,則單詞w越可能是功能性詞匯,設(shè)置閾值A(chǔ)t,過估因子小于該閾值的單詞將被認(rèn)定為功能性詞匯而過濾掉,所述At的選取如下
權(quán)利要求
1.一種基于標(biāo)簽的web服務(wù)聚類方法,其特征在于,包括如下步驟 1)收集互聯(lián)網(wǎng)上web服務(wù)的WSDL文件和標(biāo)簽信息; 2)從WSDL文件中提取web服務(wù)的特征值,所述特征值包括內(nèi)容、類型、消息、端口和服務(wù)名稱; 3)對(duì)web服務(wù)的各個(gè)特征值和標(biāo)簽信息進(jìn)行相似度計(jì)算,井根據(jù)特征值和標(biāo)簽信息的相似度值計(jì)算綜合相似度; 4)根據(jù)綜合相似度使用WTCluster算法對(duì)web服務(wù)進(jìn)行聚類。
2.根據(jù)權(quán)利要求I所述的ー種基于標(biāo)簽的web服務(wù)聚類方法,其特征在于,所述特征值內(nèi)容的提取包括如下步驟 21)建立內(nèi)容特征向量將WSDL文件的內(nèi)容根據(jù)空白符進(jìn)行分割,進(jìn)而得到初始內(nèi)容特征向量; 22)去除詞尾利用波特詞干算法將詞干相同但后綴不同的單詞統(tǒng)一化; 23)噪聲過濾在所述內(nèi)容向量中,過濾兩類沒有意義的單詞,第一種是XML標(biāo)簽,第二種是功能性詞匯; 判斷所述功能性詞匯的包括如下步驟,首先建立詞頻的泊松分布模型,為每個(gè)單詞w計(jì)算過估因子K 其中ん是通過泊松分布對(duì)w的估計(jì)詞頻,nw是實(shí)際在文本中統(tǒng)計(jì)的詞頻,過估因子越小,則單詞w越可能是功能性詞匯,設(shè)置閾值A(chǔ)t,過估因子小于該閾值的單詞將被認(rèn)定為功能性詞匯而過濾掉,所述At的選取如下
3.根據(jù)權(quán)利要求I所述的ー種基于標(biāo)簽的web服務(wù)聚類方法,其特征在于,所述特征值類型/消息/端ロ的相似度計(jì)算包括如下步驟通過統(tǒng)計(jì)兩個(gè)服務(wù)類型/消息/端ロ集的匹配數(shù),計(jì)算服務(wù)之間的類型/消息/端ロ的相似度,具體公式如下
4.根據(jù)權(quán)利要求I所述的ー種基于標(biāo)簽的web服務(wù)聚類方法,其特征在于,所述特征值服務(wù)名稱的相似度計(jì)算包括如下步驟 使用NGD計(jì)算兩個(gè)web服務(wù)間的相似度,對(duì)于兩個(gè)web服務(wù)SpS2以及他們各自的服務(wù)名稱特征向量snamesl、Snames2,服務(wù)名稱特征向量中的單詞記為w,這兩個(gè)服務(wù)之間的服務(wù)名稱相似度計(jì)算方式如下
5.根據(jù)權(quán)利要求I所述的ー種基于標(biāo)簽的web服務(wù)聚類方法,其特征在于,所述標(biāo)簽信息相似度計(jì)算包括如下步驟利用Jaccard系數(shù)的算法計(jì)算服務(wù)間的標(biāo)簽信息相似度
6.根據(jù)權(quán)利要求I所述的ー種基于標(biāo)簽的web服務(wù)聚類方法,其特征在于,所述綜合相似度計(jì)算包括如下步驟服務(wù)Si和Sj的綜合相似度CSim(Si, Sj),其計(jì)算公式如下CSim(Si, Sj) = (I-λ ) SimwsdパSi, Sj)+ 入 SimtaJsi, Sj) 其中,入是標(biāo)簽信息相似度所占權(quán)重,Sinw (Si,Sp是由特征值內(nèi)容、類型、消息、端ロ和服務(wù)名稱的計(jì)算的相似度即 SimwsdパSi, Sj) = ω ISimcontent (Si, Sj) + ω 2Simtype ^si, Sj) + ω 3Simmessage (si; Sj) + (O4Simport (Si, Sj)+ (O5Simsnanie (Si, Sj) ωι、ω2、ω3、ω4、ω5分別是內(nèi)容、類型、消息、端ロ以及名稱相似度各自所占權(quán)重,可以按實(shí)際需要進(jìn)行調(diào)整,但ω Jω2+ω 3+ω4+ω 5 = I。
7.根據(jù)權(quán)利要求1-6任意一項(xiàng)所述的一種基于標(biāo)簽的web服務(wù)聚類方法,其特征在干,在計(jì)算標(biāo)簽信息相似度的過程中,如果服務(wù)的標(biāo)簽太少,導(dǎo)致相應(yīng)的相似度降低吋,則在進(jìn)行計(jì)算標(biāo)簽信息相似度前,進(jìn)行標(biāo)簽推薦; 所述標(biāo)簽推薦包括如下步驟 收集所有用戶定義過的標(biāo)簽,作為標(biāo)簽庫, 71)采用如下公式計(jì)算同現(xiàn)系數(shù),所述同現(xiàn)系數(shù)為用戶標(biāo)簽和標(biāo)簽庫中其他標(biāo)簽同時(shí)出現(xiàn)的頻率
8.根據(jù)權(quán)利要求7所述的ー種基于標(biāo)簽的web服務(wù)聚類方法,其特征在干,所述步驟73)可采用如下步驟代替 將候選標(biāo)簽c和每個(gè)用戶標(biāo)簽u的同現(xiàn)系數(shù)求和,作為該候選標(biāo)簽的得分,即
全文摘要
本發(fā)明公開了一種基于標(biāo)簽的web服務(wù)聚類方法,包括如下步驟1)收集互聯(lián)網(wǎng)上web服務(wù)的WSDL文件和標(biāo)簽信息;2)從WSDL文件中提取web服務(wù)的特征值,所述特征值包括內(nèi)容、類型、消息、端口和服務(wù)名稱;3)對(duì)web服務(wù)的各個(gè)特征值和標(biāo)簽信息進(jìn)行相似度計(jì)算,并根據(jù)特征值和標(biāo)簽信息的相似度值計(jì)算綜合相似度;4)根據(jù)綜合相似度使用WTCluster算法對(duì)web服務(wù)進(jìn)行聚類利用WSDL文件和標(biāo)簽信息,結(jié)合現(xiàn)有技術(shù)的WTClusterweb服務(wù)聚類方法,可以提供更準(zhǔn)確的聚類結(jié)果。并且可以通過調(diào)整系統(tǒng)參數(shù)λ、ω1、ω2、ω3、ω4、ω5,針對(duì)不同特點(diǎn)的數(shù)據(jù)類型調(diào)整最優(yōu)混合比例,提出了兩種標(biāo)簽推薦方法,用以解決互聯(lián)網(wǎng)上服務(wù)標(biāo)簽過少的問題,進(jìn)而利用標(biāo)簽提高WTCluster算法的聚類效果。
文檔編號(hào)G06F17/30GK102622396SQ20111044008
公開日2012年8月1日 申請(qǐng)日期2011年11月30日 優(yōu)先權(quán)日2011年11月30日
發(fā)明者馮怡鵬, 吳健, 尹建偉, 李瑩, 鄧水光, 陳亮 申請(qǐng)人:浙江大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1