亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種開放式知識共享平臺及其詞條處理方法

文檔序號:6341065閱讀:227來源:國知局
專利名稱:一種開放式知識共享平臺及其詞條處理方法
一種開放式知識共享平臺及其詞條處理方法
技術領域
本發(fā)明涉及網(wǎng)絡技術,特別涉及一種開放式知識共享平臺及其詞條處理方法。背景技術
隨著互聯(lián)網(wǎng)技術的發(fā)展,開放式知識共享平臺服務于互聯(lián)網(wǎng)絡中業(yè)已廣泛應用。 知識共享平臺由大量用戶對各種詞條進行編輯,用以幫助有需要的人進行了解。但開放式 知識共享平臺經(jīng)常存在涉及不同主題的多義詞,例如詞條“孫悅”可能涉及到“歌手孫悅”, 也可能涉及到“球員孫悅”。再例如詞條“蘋果”可能涉及到植物、公司、國內(nèi)電影以及國外 電影等等。目前,現(xiàn)有的開放式知識共享平臺是將涉及不同主題的多義詞的詞條內(nèi)容統(tǒng)一 呈現(xiàn)給用戶,用戶需要在眾多詞條內(nèi)容中尋找自己想要的解釋,導致用戶的瀏覽體驗不佳。

發(fā)明內(nèi)容有鑒于此,本發(fā)明提供了一種開放式知識共享平臺及其詞條處理方法,將涉及不 同主題的詞條內(nèi)容劃分到不同詞義選項下,使得開放式知識共享平臺內(nèi)容的粒度更細,更 便于對同名不同主題的內(nèi)容進行編輯完善和有針對性的引入擴展內(nèi)容,從而提升用戶的瀏 覽體驗。本發(fā)明提供了一種開放式知識共享平臺的詞條處理方法,其特征在于,詞條處理 方法包括a.獲取詞條及詞條內(nèi)容;b.判斷詞條是否為涉及不同主題的多義詞;c.若詞條 為涉及不同主題的多義詞,則將涉及不同主題的詞條內(nèi)容分別劃分到對應的詞義選項下。根據(jù)本發(fā)明之一優(yōu)選實施方式,詞條內(nèi)容包括多個目錄,在步驟b中,根據(jù)目錄中 的目錄信息判斷詞條是否為涉及不同主題的多義詞。根據(jù)本發(fā)明之一優(yōu)選實施方式,在步驟a中,進一步獲取詞條的分類信息,在步驟 b中,根據(jù)分類信息判斷詞條是否為涉及不同主題的多義詞。根據(jù)本發(fā)明之一優(yōu)選實施方式,步驟b包括bl.對詞條內(nèi)容進行特征提取,以獲 取多個詞條特征;b2.獲取標注特征集合,標注特征集合包括多個帶有權(quán)重值的標注特征; b3.根據(jù)標注特征分別為每一詞條特征分配對應的權(quán)重值;以及b4.對多個詞條特征的權(quán) 重值進行求和,并將權(quán)重值求和高于閾值的詞條作為多義詞。根據(jù)本發(fā)明之一優(yōu)選實施方式,步驟1^2進一步包括士21.獲取包括多個多義詞樣 本和非多義詞樣本的標注語料出22.從標注語料中提取多個標注特征;1^23.根據(jù)標注特征 在多義詞樣本和非多義詞樣本的出現(xiàn)情況為標注特征分別分配對應的權(quán)重值。根據(jù)本發(fā)明之一優(yōu)選實施方式,在步驟1^23中,計算標注特征在多義詞樣本中出 現(xiàn)的次數(shù)M,計算標注特征在非多義詞樣本中出現(xiàn)的次數(shù)N,并計算權(quán)重值等于M/ (M+N)。根據(jù)本發(fā)明之一優(yōu)選實施方式,在步驟c中,以詞條的一級目錄以及一級目錄下 的目錄內(nèi)容作為基本預測單元,預測基本預測單元是否屬于不同主題,并根據(jù)預測結(jié)果將 屬于不同主題的基本預測單元分別劃分到對應的詞義選項。 根據(jù)本發(fā)明之一優(yōu)選實施方式,在步驟C中,根據(jù)一級目錄中的目錄信息進行預測。根據(jù)本發(fā)明之一優(yōu)選實施方式,步驟c進一步包括cl.從基本預測單元中提取多 個目錄特征;c2.根據(jù)目錄特征判斷基本預測單元之間的關聯(lián)度,并根據(jù)關聯(lián)度產(chǎn)生預測結(jié)果。根據(jù)本發(fā)明之一優(yōu)選實施方式,步驟c進一步包括Cl.獲取詞條的目錄信息; c2.根據(jù)目錄信息提取目錄特征;c3.獲取含目錄特征關聯(lián)度關系的機器模型;c4.根據(jù) 所提取的目錄特征,應用機器模型對前后相鄰的目錄信息的目錄特征進行關聯(lián)度計算; c5.根據(jù)關聯(lián)度計算結(jié)果對目錄信息進行標記。根據(jù)本發(fā)明之一優(yōu)選實施方式,步驟c2進一步包括在提取目錄特征時,先進行 分詞。根據(jù)本發(fā)明之一優(yōu)選實施方式,分詞的方法包括正向匹配分詞、反向匹配分詞、 正向反向匹配分詞、基于全切分詞圖的分詞、最大熵馬爾科夫模型分詞、最大熵分詞或條件 隨機場分詞。根據(jù)本發(fā)明之一優(yōu)選實施方式,步驟c3進一步包括c31.獲取已分類為不同主題 的詞義選項的多義詞條樣本庫;c32.獲取詞義選項的目錄信息;c33.根據(jù)詞義選項的目錄 信息提取詞義選項的目錄特征;c34.根據(jù)詞義選項的目錄特征進行機器建模,生成包括詞 義選項的相鄰的目錄信息的目錄特征的關聯(lián)度關系的機器模型。根據(jù)本發(fā)明之一優(yōu)選實施方式,詞義選項的相鄰的目錄信息的目錄特征的關聯(lián)度 關系包括相同詞匯的數(shù)量、相同詞匯的詞匯屬性、相同詞匯所占目錄信息的比例、關聯(lián)詞匯 的數(shù)量、關聯(lián)詞匯的詞匯屬性、關聯(lián)詞匯所占目錄信息的比例之一或其組合。根據(jù)本發(fā)明之一優(yōu)選實施方式,在步驟c4中,進行關聯(lián)度計算的方法包括計算相 鄰的目錄信息的目錄特征中相同詞匯的數(shù)量。根據(jù)本發(fā)明之一優(yōu)選實施方式,在步驟c4中,進行關聯(lián)度計算的方法還包括判斷 相同詞匯的詞匯屬性。根據(jù)本發(fā)明之一優(yōu)選實施方式,在步驟c4中,進行關聯(lián)度計算的方法還包括計算 相同詞匯所占目錄信息的比例。根據(jù)本發(fā)明之一優(yōu)選實施方式,在步驟c4中,進行關聯(lián)度計算的方法包括計算相 鄰的目錄信息的目錄特征中關聯(lián)詞匯的數(shù)量。根據(jù)本發(fā)明之一優(yōu)選實施方式,在步驟c4中,進行關聯(lián)度計算的方法還包括判斷 關聯(lián)詞匯的詞匯屬性。根據(jù)本發(fā)明之一優(yōu)選實施方式,在步驟c4中,進行關聯(lián)度計算的方法還包括計算 關聯(lián)詞匯所占目錄信息的比例。根據(jù)本發(fā)明之一優(yōu)選實施方式,步驟c5進一步包括c51.根據(jù)關聯(lián)度計算結(jié)果將 前后相鄰的目錄信息劃分為相關和無關;c52.將起始目錄以及與在前目錄信息相關的目 錄信息標記為第一標記;c53.將與在前目錄信息無關的目錄信息標記為第二標記。本發(fā)明還提供一種開放式知識共享平臺,開放式知識共享平臺包括詞條獲取模 塊,獲取詞條及詞條內(nèi)容;多義詞判斷模塊,判斷詞條是否為涉及不同主題的多義詞;詞義 選項劃分模塊,若詞條為涉及不同主題的多義詞,則將涉及不同主題的詞條內(nèi)容分別劃分 到對應的詞義選項下。
根據(jù)本發(fā)明之一優(yōu)選實施方式,詞條內(nèi)容包括多個目錄,多義詞判斷模塊根據(jù)目 錄中的目錄信息判斷詞條是否為涉及不同主題的多義詞。根據(jù)本發(fā)明之一優(yōu)選實施方式,詞條獲取模塊進一步獲取詞條的分類信息,多義 詞判斷模塊根據(jù)分類信息判斷詞條是否為涉及不同主題的多義詞。根據(jù)本發(fā)明之一優(yōu)選實施方式,多義詞判斷模塊包括詞條特征提取模塊,對詞條 內(nèi)容進行特征提取,以獲取多個詞條特征;標注特征集合獲取模塊,獲取標注特征集合,標 注特征集合包括多個帶有權(quán)重值的標注特征;詞條特征權(quán)重計算模塊,根據(jù)標注特征分別 為每一詞條特征分配對應的權(quán)重值;以及閾值判斷模塊,對多個詞條特征的權(quán)重值進行求 和,并將權(quán)重值求和高于閾值的詞條作為多義詞。根據(jù)本發(fā)明之一優(yōu)選實施方式,標注特征集合獲取模塊進一步包括標注語料獲 取模塊,獲取包括多個多義詞樣本和非多義詞樣本的標注語料;標注特征提取模塊,從標注 語料中提取多個標注特征;標注特征權(quán)重計算模塊,根據(jù)標注特征在多義詞樣本和非多義 詞樣本的出現(xiàn)情況為標注特征分別分配對應的權(quán)重值。根據(jù)本發(fā)明之一優(yōu)選實施方式,標注特征權(quán)重計算模塊計算標注特征在多義詞樣 本中出現(xiàn)的次數(shù)M,計算標注特征在非多義詞樣本中出現(xiàn)的次數(shù)N,并計算權(quán)重值等于M/ (M+N)。根據(jù)本發(fā)明之一優(yōu)選實施方式,詞義選項劃分模塊以詞條的一級目錄以及一級目 錄下的目錄內(nèi)容作為基本預測單元,預測基本預測單元是否屬于不同主題,并根據(jù)預測結(jié) 果將屬于不同主題的基本預測單元分別劃分到對應的詞義選項。根據(jù)本發(fā)明之一優(yōu)選實施方式,詞義選項劃分模塊根據(jù)一級目錄中的目錄信息進 行預測。根據(jù)本發(fā)明之一優(yōu)選實施方式,詞義選項劃分模塊進一步包括目錄信息獲取模 塊,獲取詞條的目錄信息;目錄特征提取模塊,根據(jù)目錄信息提取目錄特征;機器模型獲取 模塊,獲取含目錄特征關聯(lián)度關系的機器模型;關聯(lián)度計算模塊,根據(jù)所提取的目錄特征, 應用機器模型對前后相鄰的目錄信息的目錄特征進行關聯(lián)度計算,以及標記模塊,根據(jù)關 聯(lián)度計算結(jié)果對目錄信息進行標記。根據(jù)本發(fā)明之一優(yōu)選實施方式,機器模型獲取模塊進一步包括詞義選項樣本獲 取模塊,獲取已分類為不同主題的詞義選項的多義詞條樣本庫;詞義選項目錄信息獲取模 塊,獲取詞義選項的目錄信息;詞義選項目錄特征提取模塊,根據(jù)詞義選項的目錄信息提取 詞義選項的目錄特征;機器建模模塊,根據(jù)詞義選項的目錄特征進行機器建模,生成包括詞 義選項的相鄰的目錄信息的目錄特征的關聯(lián)度關系的機器模型。根據(jù)本發(fā)明之一優(yōu)選實施方式,詞義選項的相鄰的目錄信息的目錄特征的關聯(lián)度 關系包括相同詞匯的數(shù)量、相同詞匯的詞匯屬性、相同詞匯所占目錄信息的比例、關聯(lián)詞匯 的數(shù)量、關聯(lián)詞匯的詞匯屬性、關聯(lián)詞匯所占目錄信息的比例之一或其組合。根據(jù)本發(fā)明之一優(yōu)選實施方式,關聯(lián)度計算模塊進行關聯(lián)度計算的方法包括計算 相鄰的目錄信息的目錄特征中相同詞匯的數(shù)量。根據(jù)本發(fā)明之一優(yōu)選實施方式,關聯(lián)度計算模塊進行關聯(lián)度計算的方法還包括判 斷相同詞匯的詞匯屬性。根據(jù)本發(fā)明之一優(yōu)選實施方式,關聯(lián)度計算模塊進行關聯(lián)度計算的方法還包括計算相同詞匯所占目錄信息的比例。根據(jù)本發(fā)明之一優(yōu)選實施方式,關聯(lián)度計算模塊進行關聯(lián)度計算的方法包括計算 相鄰的目錄信息的目錄特征中關聯(lián)詞匯的數(shù)量。根據(jù)本發(fā)明之一優(yōu)選實施方式,關聯(lián)度計算模塊進行關聯(lián)度計算的方法還包括判 斷關聯(lián)詞匯的詞匯屬性。根據(jù)本發(fā)明之一優(yōu)選實施方式,關聯(lián)度計算模塊進行關聯(lián)度計算的方法還包括計 算關聯(lián)詞匯所占目錄信息的比例。根據(jù)本發(fā)明之一優(yōu)選實施方式,標記模塊進一步包括關聯(lián)度分類模塊,根據(jù)關聯(lián) 度計算結(jié)果將前后相鄰的目錄信息劃分為相關和無關;第一標記模塊,將起始目錄以及與 在前目錄信息相關的目錄信息標記為第一標記;第二標記模塊,將與在前目錄信息無關的 目錄信息標記為第二標記。通過上述所提供的技術方案,本發(fā)明提供了一種開放式知識共享平臺及其詞條 處理方法,可將涉及不同主題的詞條內(nèi)容劃分到不同詞義選項下,使得開放式知識共享平 臺內(nèi)容的粒度更細,更便于對同名不同主題的內(nèi)容進行編輯完善和有針對性的引入擴展內(nèi) 容,從而提升用戶的瀏覽體驗。

圖1是本發(fā)明的開放式知識共享平臺的多義詞展現(xiàn)方法的流程示意圖;圖2是本發(fā)明的開放式知識共享平臺的示意框圖;圖3是本發(fā)明的開放式知識共享平臺的詞條處理方法的流程示意圖;圖4是本發(fā)明的開放式知識共享平臺的多義詞判定方法的流程示意5是本發(fā)明的開放式知識共享平臺的標注特征集合獲取方法的流程示意圖。圖6是本發(fā)明的開放式知識共享平臺的多義詞條的詞義選項劃分方法的流程示 意圖;圖7是本發(fā)明的開放式知識共享平臺的詞條處理裝置的示意框圖;圖8是本發(fā)明的開放式知識共享平臺的多義詞判定裝置的示意框9是本發(fā)明的開放式知識共享平臺的標注特征集合獲取裝置的示意框圖。圖10是本發(fā)明的開放式知識共享平臺的多義詞條的詞義選項劃分裝置的示意框 圖。
具體實施方式為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施方式
對本發(fā)明進行詳細描述。首先請參見圖1,圖1是本發(fā)明的開放式知識共享平臺的多義詞展現(xiàn)方法的流程 示意圖。在步驟10中,將同一詞條的涉及不同主題的詞條內(nèi)容分別與對應的詞義選項進 行關聯(lián)。例如,在本步驟中,將詞條“孫悅”的涉及到“歌手孫悅”的詞條內(nèi)容劃分并關聯(lián)到 詞義選項“歌手孫悅”下,并將涉及到“球員孫悅”的詞條內(nèi)容劃分并關聯(lián)到詞義選項“球員 孫悅”下。多義詞的具體判斷過程以及詞條內(nèi)容的具體劃分過程將在下文中進行描述。
在步驟11中,接收用戶的查詢請求。具體來說,用戶通過瀏覽器發(fā)送查詢請求,該 查詢請求經(jīng)互聯(lián)網(wǎng)傳送到開放式知識共享平臺。在步驟12中,查詢與查詢請求相匹配的詞條。在步驟13中,輸出并在瀏覽器上呈現(xiàn)出與相匹配的詞條對應的多個詞義選項。具 體來說,開放式知識共享平臺在接收到查詢請求后,在數(shù)據(jù)庫內(nèi)查詢與該查詢請求相匹配 的詞條。若該詞條為涉及不同主題的多義詞,則輸出并在瀏覽器中呈現(xiàn)與相匹配詞條對應 的多個詞義選項。例如,當用戶輸入的查詢請求為“孫悅”時,開放式知識共享平臺輸出并 在瀏覽器上呈現(xiàn)出“歌手孫悅”以及“球員孫悅”兩個詞義選項。在步驟14中,根據(jù)用戶針對詞義選項的請求展現(xiàn)相關聯(lián)的詞條內(nèi)容。具體來說, 用戶通過詞義選項確定自己所感興趣的主題,進而點擊對應的詞義選項。開放式知識共享 平臺則將與該詞義選項相關聯(lián)的詞條內(nèi)容輸出到瀏覽器上,進而展現(xiàn)給用戶。例如,用戶感 興趣的是“歌手孫悅”,用戶點擊詞義選項“歌手孫悅”,則開放式知識共享平臺將與“歌手孫 悅”相關的詞條內(nèi)容輸出到瀏覽器上,進而展現(xiàn)給用戶。在步驟13中,優(yōu)選根據(jù)用戶行為對瀏覽器上呈現(xiàn)的多個詞義選項進行排序,使得 關注度高的詞義選項排在該多個詞義選項的前列,由此進一步提高用戶的瀏覽體驗。例如,可根據(jù)詞條內(nèi)容的展現(xiàn)量、用戶對詞條內(nèi)容的瀏覽時間或詞條內(nèi)容的點擊 量與展現(xiàn)量之比對多個詞義選項進行排序。其中,詞條內(nèi)容的展現(xiàn)量是指根據(jù)用戶針對詞 義選項的請求展現(xiàn)相關聯(lián)的詞條內(nèi)容的次數(shù)。一般來說,詞條內(nèi)容的展現(xiàn)量越多證明該詞 條內(nèi)容受到的關注度越高,其所對應的詞義選項排名應該越靠前。用戶在詞條內(nèi)容的瀏覽 時間是指用戶在該詞條內(nèi)容展現(xiàn)后到該詞條內(nèi)容關閉之前所花費的時間,用戶對詞條內(nèi)容 的瀏覽時間越長,也證明用戶對該詞條的關注度越高,其所對應的詞義選項排名應該越靠 前。詞條內(nèi)容的點擊量是指用戶對所展現(xiàn)的詞條內(nèi)容中的標題、圖片或鏈接等內(nèi)容的點擊 次數(shù)。詞條內(nèi)容的點擊量與展現(xiàn)量之比越高,則也證明用戶對該詞條的關注度越高,其所對 應的詞義選項排名應該越靠前。在優(yōu)選實施方式中,綜合考慮上述三個衡量標準,來對詞義選項進行排序。也就 是,根據(jù)詞義內(nèi)容的展現(xiàn)量、用戶對詞義內(nèi)容的瀏覽時間以及詞義內(nèi)容的點擊量與展現(xiàn)量 之比的加權(quán)統(tǒng)計結(jié)果對多個詞義選項進行排序。具體加權(quán)統(tǒng)計算法可根據(jù)實際需要進行設 計。例如,在統(tǒng)計詞義內(nèi)容的展現(xiàn)量時,將瀏覽時間較短的展現(xiàn)行為賦予較低的權(quán)重,再參 與到展現(xiàn)量統(tǒng)計中,由此可降低由于用戶誤操作所產(chǎn)生的展現(xiàn)量對詞義選項排序的影響。如圖2所示,圖2是本發(fā)明的開放式知識共享平臺的示意框圖。本發(fā)明的開放式 知識共享平臺包括關聯(lián)模塊20、輸入模塊21、匹配模塊22以及輸出模塊23。關聯(lián)模塊20將同一詞條的涉及不同主題的詞條內(nèi)容分別與對應的詞義選項進行 關聯(lián)。例如,關聯(lián)模塊20將詞條“孫悅”的涉及到“歌手孫悅”的詞條內(nèi)容劃分并關聯(lián)到詞 義選項“歌手孫悅”下,并將涉及到“球員孫悅”的詞條內(nèi)容劃分并關聯(lián)到詞義選項“球員孫 悅”下。輸入模塊21接收用戶通過瀏覽器發(fā)送的查詢請求。匹配模塊22根據(jù)輸入模塊21 接收到查詢請求在數(shù)據(jù)庫內(nèi)查詢與該查詢請求相匹配的詞條。若該詞條為涉及不同主題的 多義詞,則輸出模塊23輸入該詞條對應的多個詞義選項,進而在瀏覽器中呈現(xiàn)該多個詞義 選項。例如,當用戶輸入的查詢請求為“孫悅”時,輸出模塊23輸出并在瀏覽器上呈現(xiàn)出“歌手孫悅”以及“球員孫悅”兩個詞義選項。輸入模塊21進一步接收用戶針對某個詞義選項的請求,輸出模塊23進一步根據(jù) 用戶針對詞義選項的請求輸出并進而展現(xiàn)相關聯(lián)的詞條內(nèi)容。具體來說,用戶通過詞義選 項確定自己所感興趣的主題,進而點擊對應的詞義選項。輸出模塊23則將與該詞義選項相 關聯(lián)的詞條內(nèi)容輸出到瀏覽器上,進而展現(xiàn)給用戶。例如,用戶感興趣的是“歌手孫悅”,用 戶點擊詞義選項“歌手孫悅”,則輸出模塊23則將與“歌手孫悅”相關的詞條內(nèi)容輸出到瀏 覽器上,進而展現(xiàn)給用戶。輸出模塊23優(yōu)選根據(jù)用戶行為對瀏覽器上呈現(xiàn)的多個詞義選項進行排序,使得 關注度高的詞義選項排在該多個詞義選項的前列,由此進一步提高用戶的瀏覽體驗。例如,可根據(jù)詞條內(nèi)容的展現(xiàn)量、用戶對詞條內(nèi)容的瀏覽時間或詞條內(nèi)容的點擊 量與展現(xiàn)量之比對多個詞義選項進行排序。其中,詞條內(nèi)容的展現(xiàn)量是指根據(jù)用戶針對詞 義選項的請求展現(xiàn)相關聯(lián)的詞條內(nèi)容的次數(shù)。一般來說,詞條內(nèi)容的展現(xiàn)量越多證明該詞 條內(nèi)容受到的關注度越高,其所對應的詞義選項排名應該越靠前。用戶在詞條內(nèi)容的瀏覽 時間是指用戶在該詞條內(nèi)容展現(xiàn)后到該詞條內(nèi)容關閉之前所花費的時間,用戶對詞條內(nèi)容 的瀏覽時間越長,也證明用戶對該詞條的關注度越高,其所對應的詞義選項排名應該越靠 前。詞條內(nèi)容的點擊量是指用戶對所展現(xiàn)的詞條內(nèi)容中的標題、圖片或鏈接等內(nèi)容的點擊 次數(shù)。詞條內(nèi)容的點擊量與展現(xiàn)量之比越高,則也證明用戶對該詞條的關注度越高,其所對 應的詞義選項排名應該越靠前。在優(yōu)選實施方式中,綜合考慮上述三個衡量標準,來對詞義選項進行排序。也就 是,根據(jù)詞義內(nèi)容的展現(xiàn)量、用戶對詞義內(nèi)容的瀏覽時間以及詞義內(nèi)容的點擊量與展現(xiàn)量 之比的加權(quán)統(tǒng)計結(jié)果對多個詞義選項進行排序。具體加權(quán)統(tǒng)計算法可根據(jù)實際需要進行設 計。例如,在統(tǒng)計詞義內(nèi)容的展現(xiàn)量時,將瀏覽時間較短的展現(xiàn)行為賦予較低的權(quán)重,再參 與到展現(xiàn)量統(tǒng)計中,由此可降低由于用戶誤操作所產(chǎn)生的展現(xiàn)量對詞義選項排序的影響。如圖3所示,圖3是本發(fā)明的開放式知識共享平臺的詞條處理方法的流程示意圖。在步驟30中,獲取詞條以及詞條內(nèi)容。在優(yōu)選實施方式中,該詞條及詞條內(nèi)容可 以是現(xiàn)有開放式知識共享平臺中的以目錄形式呈現(xiàn)的詞條及詞條內(nèi)容。也就是說,該詞條 內(nèi)容包括多個目錄以及分別位于各目錄下的目錄內(nèi)容。其中,目錄可以包括多個一級目錄, 每個一級目錄下還可以進一步包括多個二級目錄、三級目錄等子目錄。在步驟31中,判斷詞條是否為涉及不同主題的多義詞。判斷詞條是否為多義詞的 方法有多種,下面將以幾個具體實施方式
進行描述。在一實施方式中,根據(jù)目錄中的目錄信息判斷詞條是否為涉及不同主題的多義 詞。具體來說,判斷不同的目錄信息中是否存在涉及不同主題的關鍵詞。例如,如果詞條 “孫悅”的兩個目錄信息中分別出現(xiàn)了 “歌手孫悅”和“球員孫悅”,由于“歌手”和“球員,,涉 及到不同的主題,則認為該詞條“孫悅”為多義詞。再例如,在詞條“射雕英雄傳”的兩個目 錄信息中分別出現(xiàn)了 “1983版”和“2008版”,則同樣認為詞條“射雕英雄傳”為多義詞。在一實施方式中,在步驟30中,進一步獲取詞條的分類信息,在步驟31中,根據(jù)詞 條的分類信息判斷該詞條是否為不同主題的多義詞。例如,詞條“蘋果”的分類信息中包括 “植物”、“電影”以及“公司”三個不同的分類,則認為詞條“蘋果”為多義詞。在另一實施方式中,可根據(jù)詞條內(nèi)容通過機器挖掘方法來自動識別詞條是否是多義詞。如圖4所示,圖4是本發(fā)明的開放式知識共享平臺的多義詞判定方法的流程示意圖。在步驟40中,對待判定詞條的詞條內(nèi)容進行特征提取,以獲取多個詞條特征。具 體來說,對詞條內(nèi)容進行分詞及過濾,并將分詞及過濾后獲得的字詞作為詞條特征。其中, 分詞的作用是將詞條內(nèi)容中的漢字序列切分成有意義的字詞,以便后續(xù)處理。具體分詞的 方法包括正向匹配分詞、反向匹配分詞、正向反向匹配分詞、基于全切分詞圖的分詞,最大 熵馬爾科夫模型分詞、最大熵分詞或條件隨機場分詞等,上述分詞方法均為本領域公知技 術,在此不再贅述。過濾的作用是去除標點符號、助詞等無用信息。在步驟41中,獲取標注特征集合。標注特征集合包括多個帶有權(quán)重值的標注特 征。如圖5所示,圖5是本發(fā)明的開放式知識共享平臺的標注特征集合獲取方法的流程示 意圖。在步驟50中,獲取包括多個多義詞樣本和非多義詞樣本的標注語料。在標注語料 中,多義詞樣本是指已經(jīng)判定為多義詞的詞條及詞條內(nèi)容,非多義詞樣本是指已經(jīng)判定為 非多義詞的詞條及詞條內(nèi)容。在步驟51中,從標注語料中提取多個標注特征。具體來說,分別對每個多義詞樣 本以及每個非多義詞樣本進行分詞及過濾,并將分詞及過濾后獲得的字詞作為標注特征。在步驟52中,根據(jù)標注特征在多義詞樣本和非多義詞樣本的出現(xiàn)情況為標注特 征分別分配對應的權(quán)重值。具體來說,計算標注特征在多義詞樣本中出現(xiàn)的次數(shù)M,計算標 注特征在非多義詞樣本中出現(xiàn)的次數(shù)N,并計算該標注特征的權(quán)重值等于M/(M+N)。通過上 述方法可知,如果某個標注特征在多義詞樣本中出現(xiàn)的次數(shù)較多,同時在非多義詞樣本中 出現(xiàn)的次數(shù)較少時,該標注特征的權(quán)重值就相對較高。如果某個標注特征在多義詞樣本和 非多義詞中出現(xiàn)的次數(shù)相仿或者在多義詞樣本中出現(xiàn)的次數(shù)較少,同時在非多義詞樣本中 出現(xiàn)的次數(shù)較多時,該標注特征的權(quán)重值就相對較低。在步驟42中,根據(jù)標注特征分別為從待判定詞條的詞條內(nèi)容提取的每一詞條特 征分配對應的權(quán)重值。具體來說,在標注特征集合中判斷是否存在與每一詞條特征相同的 標注特征,若存在,則將該標注特征的權(quán)重值分配給該詞條特征。在步驟43中,對從待判定詞條的詞條內(nèi)容提取的多個詞條特征的權(quán)重值進行求 和,并將權(quán)重值求和高于閾值的詞條作為多義詞。具體來說,如果待判定詞條的多個詞條特 征的權(quán)重值越高,則代表該詞條特征在多義詞樣本中出現(xiàn)的次數(shù)越高,該待判定詞條是多 義詞的概率就越高。在本實施方式中,具體閾值可根據(jù)實際情況進行設置。在步驟32中,若判定詞條為涉及不同主題的多義詞,則將涉及不同主題的詞條內(nèi) 容分別劃分到對應詞義選項下。在一優(yōu)選實施方式中,以詞條的一級目錄以及一級目錄下 的目錄內(nèi)容作為一個基本預測單元,預測基本預測單元是否屬于不同主題,并根據(jù)預測結(jié) 果將屬于同一主題的基本預測單元劃分到同一詞義選項。預測基本預測單元是否屬于不同 主題有多種,下面將以幾個具體實施方式
進行描述。在一實施方式中,根據(jù)一級目錄中的目錄信息進行預測。例如,如果詞條“孫悅”的 兩個一級目錄的目錄信息中分別出現(xiàn)了 “歌手孫悅”和“球員孫悅”,由于“歌手”和“球員,, 涉及到不同的主題,則將目錄信息中包含“歌手孫悅”的一級目錄及其目錄內(nèi)容劃分并關聯(lián) 到詞義選項“歌手孫悅”下,并將目錄信息中包含“球員孫悅”的一級目錄及其目錄內(nèi)容劃 分并關聯(lián)到詞義選項“球員孫悅”下。此外,還可以根據(jù)目錄信息所體現(xiàn)的用戶編輯行為來進行預測。例如,如果不同的一級目錄的目錄信息中的第一個字為數(shù)字,并連續(xù)排列,則將 帶有數(shù)字的一級目錄及其目錄內(nèi)容以及下方不帶有數(shù)字的第一目錄及其目錄內(nèi)容分別劃 分到不同的詞義選項下。在一實施方式中,當判定詞條為涉及不同主題的多義詞時,可以通過機器挖掘的 方式將涉及不同主題的詞條內(nèi)容分別劃分到對應的詞義選項下。如圖6所示,圖6是本發(fā) 明的開放式知識共享平臺的多義詞條的詞義選項劃分方法的流程示意圖。由于詞條中目錄通常是按照前后順序排列的,也就是在通常情況下,多義詞條中 的相同主題的目錄是按照前后順序排列的,較少出現(xiàn)亂序排列的情況,因此在這種情況下, 只需要判斷前后目錄之間是否是相關的,即可以得知不同主題的目錄的分割位置。在步驟61中,獲取未進行詞義選項分類的多義詞詞條數(shù)據(jù)。該進行詞義選項分類 的多義詞詞條數(shù)據(jù)可以通過上述圖3所示的步驟31或者圖4所示多義詞判定方法來獲得。在步驟62中,根據(jù)詞條中目錄的位置獲取詞條的目錄信息。在優(yōu)選的實施方式 中,本發(fā)明根據(jù)多義詞詞條中一級目錄的位置對詞條進行分割,獲取每個一級目錄的目錄 信息,目錄信息包括一級目錄名稱以及一級目錄下的目錄內(nèi)容等。在步驟63中,根據(jù)獲取的目錄信息,從中提取出多個特征。在對目錄信息進行特 征提取的時候,需要先對詞條內(nèi)容進行分詞及過濾,并將分詞及過濾后獲得的字詞作為詞 條特征。其中,分詞的作用是將詞條內(nèi)容中的漢字序列切分成有意義的字詞,以便后續(xù)處 理。具體分詞的方法包括正向匹配分詞、反向匹配分詞、正向反向匹配分詞、基于全切分詞 圖的分詞,最大熵馬爾科夫模型分詞、最大熵分詞或條件隨機場分詞等,上述分詞方法均為 本領域公知技術,在此不再贅述。過濾的作用是去除標點符號、助詞等無用信息。在優(yōu)選的 實施方式中,本發(fā)明采用正向最大匹配分詞和反向最大匹配分詞相結(jié)合的方式對分詞結(jié)果 進行校正,以獲取正確率較高的分詞結(jié)果。 在步驟64中,獲取含目錄特征關聯(lián)度關系的機器模型。如圖6所示,步驟64進一 步包括步驟641,獲取已分類為不同主題的詞義選項的多義詞條樣本庫。由于樣本是已經(jīng) 分類為不同主題的詞義選項的多義詞條,因此每一個詞義選項下面的目錄所對應的主題是 相同的。步驟642,獲取詞義選項的目錄信息。即獲取詞義選項下面具有相同主題特性的目 錄信息。優(yōu)選的實施方式中,獲取詞義選項的一級目錄信息。步驟643,根據(jù)詞義選項的目錄信息提取詞義選項的目錄特征。對具有相同主題特 性的目錄信息提取對應的目錄特征。步驟644,根據(jù)詞義選項的目錄特征進行機器建模,生成包括詞義選項的相鄰的目 錄信息的目錄特征的關聯(lián)度關系的機器模型。由于多義詞條樣本庫的每一個詞條都包括 了多個詞義選項,通過對同一詞義選項下的具有相同主題特性的目錄特征進行學習訓練, 以及對不同詞義選項下的具有不同主題特性的目錄特征進行學習訓練,可以建立包括詞義 選項的相鄰的目錄信息的目錄特征的關聯(lián)度關系的機器模型。在優(yōu)選的實施方式中,詞義 選項的相鄰的目錄信息的目錄特征的關聯(lián)度關系包括相同詞匯的數(shù)量、相同詞匯的詞匯屬 性、相同詞匯所占目錄信息的比例、關聯(lián)詞匯的數(shù)量、關聯(lián)詞匯的詞匯屬性、關聯(lián)詞匯所占 目錄信息的比例之一或其組合。
在步驟65中,根據(jù)所提取的目錄特征,應用機器模型對前后相鄰的目錄信息的目 錄特征進行關聯(lián)度計算。其中,關聯(lián)度計算可以采用多種方法,并且各種方法之間也可以單 獨實施或相互結(jié)合實施,本發(fā)明現(xiàn)舉例兩種可以單獨實施或相互結(jié)合實施的方法,但并非 用于限制本發(fā)明的實施方式。在本發(fā)明的一種實施方式中,應用機器模型對前后相鄰的目錄信息的目錄特征中 的相同詞匯的參數(shù)進行計算,通過計算相同詞匯的數(shù)量、相同詞匯所占目錄信息的比例,或 者對相同詞匯的詞匯屬性進行判斷,實現(xiàn)對前后相鄰的目錄信息的關聯(lián)度計算。例如,對 于文藝作品,特別是影視連續(xù)劇、連載小說等,其目錄名稱相同而內(nèi)容不同,目錄內(nèi)容中相 同詞匯出現(xiàn)數(shù)量很多,而且詞匯屬性為名詞、動名詞等,因此可以據(jù)此計算前后目錄的關聯(lián) 度。在本發(fā)明的另一種實施方式中,應用機器模型對前后相鄰的目錄信息的目錄特征 中的關聯(lián)詞匯的參數(shù)進行計算,通過計算關聯(lián)詞匯的數(shù)量、關聯(lián)詞匯所占目錄信息的比例, 或者對關聯(lián)詞匯的詞匯屬性進行判斷,實現(xiàn)對前后相鄰的目錄信息的關聯(lián)度計算。例如“劉 德華”和“朱麗倩”的相關度很高,“劉德華”和“老人”的相關度就低,“歌星”與“專輯”的 相關度很高,“歌星”與“戰(zhàn)爭”的相關度就低。這種詞匯相關度可以通過相關詞詞典或者機 器樣本學習的方式進行判斷。在步驟66中,根據(jù)關聯(lián)度計算結(jié)果對目錄信息進行標記。標記方法包括多種實施 方式。在本發(fā)明的一種實施方式中,可以根據(jù)關聯(lián)度計算結(jié)果將目錄信息根據(jù)主題進行分 類。在本發(fā)明的另一種實施方式中,根據(jù)關聯(lián)度計算結(jié)果將前后相鄰的目錄信息劃分為相 關和無關,將起始目錄以及與在前目錄信息相關的目錄信息標記為第一標記,將與在前目 錄信息無關的目錄信息標記為第二標記。舉例來說,一個多義詞條包括6個目錄。通過各 個目錄和對應的目錄內(nèi)容識別出該目錄是不是一個相同主題的詞義選項的開始部分,如果 是,標記成“B”,如果不是,標記成“I”。這樣,6個目錄可能被標記成如“BIBIIB”這樣的結(jié) 果,那么目錄1-2就是一個詞義選項,目錄3-5是一個詞義選項,目錄6是一個詞義選項。這 樣就實現(xiàn)了對多義詞條內(nèi)具有相同主題的目錄的分類。如圖7所示,圖7是本發(fā)明的開放式知識共享平臺的詞條處理裝置的示意框圖。在 本實施方式中,詞條處理裝置包括詞條獲取模塊70、多義詞判斷模塊71以及詞義選項劃分 模塊72詞條獲取模塊70用于獲取詞條以及詞條內(nèi)容。在優(yōu)選實施方式中,該詞條及詞條 內(nèi)容可以是現(xiàn)有開放式知識共享平臺中的以目錄形式呈現(xiàn)的詞條及詞條內(nèi)容。也就是說, 該詞條內(nèi)容包括多個目錄以及分別位于各目錄下的目錄內(nèi)容。其中,目錄可以包括多個一 級目錄,每個一級目錄下還可以進一步包括多個二級目錄、三級目錄等子目錄。多義詞判斷模塊71用于判斷詞條是否為涉及不同主題的多義詞。判斷詞條是否 為多義詞的方法有多種,下面將以幾個具體實施方式
進行描述。在一實施方式中,多義詞判斷模塊71根據(jù)目錄中的目錄信息判斷詞條是否為涉 及不同主題的多義詞。具體來說,多義詞判斷模塊71判斷不同的目錄信息中是否存在涉及 不同主題的關鍵詞。例如,如果詞條“孫悅”的兩個目錄信息中分別出現(xiàn)了 “歌手孫悅”和 “球員孫悅”,由于“歌手”和“球員”涉及到不同的主題,則認為該詞條“孫悅”為多義詞。再 例如,在詞條“射雕英雄傳”的兩個目錄信息中分別出現(xiàn)了 “1983版”和“2008版”,則同樣認為詞條“射雕英雄傳”為多義詞。在一實施方式中,詞條獲取模塊70進一步獲取詞條的分類信息,多義詞判斷模塊 71根據(jù)詞條的分類信息判斷該詞條是否為不同主題的多義詞。例如,詞條“蘋果”的分類信 息中包括“植物”、“電影”以及“公司”三個不同的分類,則認為詞條“蘋果”為多義詞。在另一實施方式中,可根據(jù)詞條內(nèi)容通過機器挖掘方法來自動識別詞條是否是多 義詞。如圖8所示,圖8是本發(fā)明的開放式知識共享平臺的多義詞判斷模塊的示意框圖。在 本實施方式中,多義詞判斷模塊包括詞條特征提取模塊80、標注特征集合獲取模塊81、詞 條特征權(quán)重計算模塊82以及閾值判斷模塊83詞條特征提取模塊80用于對待判定詞條的詞條內(nèi)容進行特征提取,以獲取多個 詞條特征。具體來說,詞條特征提取模塊80對詞條內(nèi)容進行分詞及過濾,并將分詞及過濾 后獲得的字詞作為詞條特征。其中,分詞的作用是將詞條內(nèi)容中的漢字序列切分成有意義 的字詞,以便后續(xù)處理。具體分詞的方法包括正向匹配分詞、反向匹配分詞、正向反向匹 配分詞、基于全切分詞圖的分詞,最大熵馬爾科夫模型分詞、最大熵分詞或條件隨機場分詞 等,上述分詞方法均為本領域公知技術,在此不再贅述。過濾的作用是去除標點符號、助詞 等無用fn息ο標注特征集合獲取模塊81用于獲取標注特征集合。標注特征集合包括多個帶有 權(quán)重值的標注特征。如圖9所示,圖8是本發(fā)明的開放式知識共享平臺的標注特征集合獲 取模塊的示意框圖。在本實施方式中,標注特征集合獲取模塊包括標注語料獲取模塊90、標 注特征提取模塊91以及標注特征權(quán)重計算模塊92。標注語料獲取模塊90用于獲取包括多個多義詞樣本和非多義詞樣本的標注語 料。在標注語料中,多義詞樣本是指已經(jīng)判定為多義詞的詞條及詞條內(nèi)容,非多義詞樣本是 指已經(jīng)判定為非多義詞的詞條及詞條內(nèi)容。標注特征提取模塊91用于從標注語料中提取多個標注特征。具體來說,標注特征 提取模塊91分別對每個多義詞樣本以及每個非多義詞樣本進行分詞及過濾,并將分詞及 過濾后獲得的字詞作為標注特征。標注特征權(quán)重計算模塊92用于根據(jù)標注特征在多義詞樣本和非多義詞樣本的出 現(xiàn)情況為標注特征分別分配對應的權(quán)重值。具體來說,標注特征權(quán)重計算模塊92計算標注 特征在多義詞樣本中出現(xiàn)的次數(shù)M,計算標注特征在非多義詞樣本中出現(xiàn)的次數(shù)N,并計算 該標注特征的權(quán)重值等于M/ (M+N)。通過上述方法可知,如果某個標注特征在多義詞樣本中 出現(xiàn)的次數(shù)較多,同時在非多義詞樣本中出現(xiàn)的次數(shù)較少時,該標注特征的權(quán)重值就相對 較高。如果某個標注特征在多義詞樣本和非多義詞中出現(xiàn)的次數(shù)相仿或者在多義詞樣本中 出現(xiàn)的次數(shù)較少,同時在非多義詞樣本中出現(xiàn)的次數(shù)較多時,該標注特征的權(quán)重值就相對 較低。詞條特征權(quán)重計算模塊82用于根據(jù)標注特征分別為從待判定詞條的詞條內(nèi)容提 取的每一詞條特征分配對應的權(quán)重值。具體來說,詞條特征權(quán)重計算模塊82在標注特征集 合中判斷是否存在與每一詞條特征相同的標注特征,若存在,則將該標注特征的權(quán)重值分 配給該詞條特征。閾值判斷模塊83用于對從待判定詞條的詞條內(nèi)容提取的多個詞條特征的權(quán)重值 進行求和,并將權(quán)重值求和高于閾值的詞條作為多義詞。具體來說,如果待判定詞條的多個詞條特征的權(quán)重值越高,則代表該詞條特征在多義詞樣本中出現(xiàn)的次數(shù)越高,該待判定詞 條是多義詞的概率就越高。在本實施方式中,具體閾值可根據(jù)實際情況進行設置。若多義詞判斷模塊71判定詞條為涉及不同主題的多義詞,則詞義選項劃分模塊 72將涉及不同主題的詞條內(nèi)容分別劃分到對應詞義選項下。在一優(yōu)選實施方式中,詞義選 項劃分模塊72以詞條的一級目錄以及一級目錄下的目錄內(nèi)容作為一個基本預測單元,預 測基本預測單元是否屬于不同主題,并根據(jù)預測結(jié)果將屬于同一主題的基本預測單元劃分 到同一詞義選項。預測基本預測單元是否屬于不同主題有多種,下面將以幾個具體實施方 式進行描述。如圖10所示,圖10是本發(fā)明的開放式知識共享平臺的多義詞條的詞義選項劃分 裝置的示意框圖。詞義選項劃分模塊進一步包括詞條數(shù)據(jù)獲取模塊101、目錄信息獲取模 塊102、目錄特征提取模塊103、機器模型獲取模塊104、目錄相關度計算模塊105以及標記 模塊106。詞條數(shù)據(jù)獲取模塊101用于獲取未進行詞義選項分類的多義詞詞條數(shù)據(jù)。該進行 詞義選項分類的多義詞詞條數(shù)據(jù)可以通過上述圖3所示的步驟31或者圖4所示多義詞判 定方法來獲得。目錄信息獲取模塊102用于根據(jù)詞條中目錄的位置獲取詞條的目錄信息。在優(yōu)選 的實施方式中,本發(fā)明根據(jù)多義詞詞條中一級目錄的位置對詞條進行分割,獲取每個一級 目錄的目錄信息,目錄信息包括一級目錄名稱以及一級目錄下的目錄內(nèi)容等。目錄特征提取模塊103用于根據(jù)獲取的目錄信息,從中提取出多個特征。在對目 錄信息進行特征提取的時候,需要先對詞條內(nèi)容進行分詞及過濾,并將分詞及過濾后獲得 的字詞作為詞條特征。在優(yōu)選的實施方式中,本發(fā)明采用正向最大匹配分詞和反向最大匹 配分詞相結(jié)合的方式對分詞結(jié)果進行校正,以獲取正確率較高的分詞結(jié)果。機器模型獲取模塊104用于獲取含目錄特征關聯(lián)度關系的機器模型。如圖10所 示,機器模型獲取模塊104進一步包括樣本獲取模塊1041、詞義選項目錄信息獲取模塊 1042、目錄特征提取模塊1043以及機器建模模塊1044。樣本獲取模塊1041用于獲取已分 類為不同主題的詞義選項的多義詞條樣本庫。由于樣本是已經(jīng)分類為不同主題的詞義選項 的多義詞條,因此每一個詞義選項下面的目錄所對應的主題是相同的。詞義選項目錄信息 獲取模塊1042用于獲取詞義選項的目錄信息。即獲取詞義選項下面具有相同主題特性的 目錄信息。優(yōu)選的實施方式中,獲取詞義選項的一級目錄信息。目錄特征提取模塊1043用 于根據(jù)詞義選項的目錄信息提取詞義選項的目錄特征。對具有相同主題特性的目錄信息提 取對應的目錄特征。機器建模模塊1044用于根據(jù)詞義選項的目錄特征進行機器建模,生成 包括詞義選項的相鄰的目錄信息的目錄特征的關聯(lián)度關系的機器模型。在優(yōu)選的實施方式 中,詞義選項的相鄰的目錄信息的目錄特征的關聯(lián)度關系包括相同詞匯的數(shù)量、相同詞匯 的詞匯屬性、相同詞匯所占目錄信息的比例、關聯(lián)詞匯的數(shù)量、關聯(lián)詞匯的詞匯屬性、關聯(lián) 詞匯所占目錄信息的比例之一或其組合。目錄相關度計算模塊105用于根據(jù)所提取的目錄特征,應用機器模型對前后相鄰 的目錄信息的目錄特征進行關聯(lián)度計算。其中,目錄相關度計算模塊105可以采用多種計 算結(jié)構(gòu)實現(xiàn),并且各種計算結(jié)構(gòu)之間也可以單獨實施或相互結(jié)合實施。在本發(fā)明的一種實 施方式中,目錄相關度計算模塊105應用機器模型對前后相鄰的目錄信息的目錄特征中的相同詞匯的參數(shù)進行計算,通過計算相同詞匯的數(shù)量、相同詞匯所占目錄信息的比例,或者 對相同詞匯的詞匯屬性進行判斷,實現(xiàn)對前后相鄰的目錄信息的關聯(lián)度計算。在本發(fā)明的 另一種實施方式中,目錄相關度計算模塊105應用機器模型對前后相鄰的目錄信息的目錄 特征中的關聯(lián)詞匯的參數(shù)進行計算,通過計算關聯(lián)詞匯的數(shù)量、關聯(lián)詞匯所占目錄信息的 比例,或者對關聯(lián)詞匯的詞匯屬性進行判斷,實現(xiàn)對前后相鄰的目錄信息的關聯(lián)度計算。標記模塊106用于根據(jù)關聯(lián)度計算結(jié)果對目錄信息進行標記。標記方法包括多種 實施方式。在本發(fā)明的一種實施方式中,可以根據(jù)關聯(lián)度計算結(jié)果將目錄信息根據(jù)主題進 行分類。在本發(fā)明的另一種實施方式中,根據(jù)關聯(lián)度計算結(jié)果將前后相鄰的目錄信息劃分 為相關和無關,將起始目錄以及與在前目錄信息相關的目錄信息標記為第一標記,將與在 前目錄信息無關的目錄信息標記為第二標記。標記模塊106標記模塊進一步包括關聯(lián)度 分類模塊、第一標記模塊以及第二標記模塊。關聯(lián)度分類模塊根據(jù)關聯(lián)度計算結(jié)果將前后 相鄰的目錄信息劃分為相關和無關。第一標記模塊將起始目錄以及與在前目錄信息相關的 目錄信息標記為第一標記。第二標記模塊將與在前目錄信息無關的目錄信息標記為第二標 記。通過上述所提供的技術方案,本發(fā)明提供了一種開放式知識共享平臺及其多義詞 展現(xiàn)方法,可將多義詞中不同主題的詞義選項顯示出來,由用戶進行選擇,提高用戶體驗。以上所述僅為本發(fā)明的較佳實施方式而已,并不用以限制本發(fā)明,凡在本發(fā)明的 精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明保護的范圍之內(nèi)。
權(quán)利要求
1.一種開放式知識共享平臺的詞條處理方法,其特征在于,所述詞條處理方法包括a.獲取詞條及詞條內(nèi)容;b.判斷所述詞條是否為涉及不同主題的多義詞;c.若所述詞條為涉及不同主題的多義詞,則將涉及不同主題的所述詞條內(nèi)容分別劃分 到對應的詞義選項下。
2.根據(jù)權(quán)利要求1所述的詞條處理方法,其特征在于,所述詞條內(nèi)容包括多個目錄,在 所述步驟b中,根據(jù)所述目錄中的目錄信息判斷所述詞條是否為涉及不同主題的多義詞。
3.根據(jù)權(quán)利要求1所述的詞條處理方法,其特征在于,在所述步驟a中,進一步獲取所 述詞條的分類信息,在所述步驟b中,根據(jù)所述分類信息判斷所述詞條是否為涉及不同主 題的多義詞。
4.根據(jù)權(quán)利要求1所述的詞條處理方法,其特征在于,所述步驟b包括 bl.對所述詞條內(nèi)容進行特征提取,以獲取多個詞條特征;b2.獲取標注特征集合,所述標注特征集合包括多個帶有權(quán)重值的標注特征; b3.根據(jù)所述標注特征分別為每一所述詞條特征分配對應的權(quán)重值;以及 b4.對所述多個詞條特征的權(quán)重值進行求和,并將權(quán)重值求和高于閾值的詞條作為多 義詞。
5.根據(jù)權(quán)利要求4所述的詞條處理方法,其特征在于,所述步驟1^2進一步包括 b21.獲取包括多個多義詞樣本和非多義詞樣本的標注語料;b22.從所述標注語料中提取多個所述標注特征;b23.根據(jù)所述標注特征在所述多義詞樣本和所述非多義詞樣本的出現(xiàn)情況為所述標 注特征分別分配對應的權(quán)重值。
6.根據(jù)權(quán)利要求5所述的詞條處理方法,其特征在于,在所述步驟1^23中,計算所述標 注特征在所述多義詞樣本中出現(xiàn)的次數(shù)M,計算所述標注特征在所述非多義詞樣本中出現(xiàn) 的次數(shù)N,并計算所述權(quán)重值等于M/ (M+N)。
7.根據(jù)權(quán)利要求1所述的詞條處理方法,其特征在于,在所述步驟c中,以所述詞條的 一級目錄以及所述一級目錄下的目錄內(nèi)容作為基本預測單元,預測所述基本預測單元是否 屬于不同主題,并根據(jù)預測結(jié)果將屬于不同主題的所述基本預測單元分別劃分到對應的詞 義選項。
8.根據(jù)權(quán)利要求7所述的詞條處理方法,其特征在于,在所述步驟c中,根據(jù)所述一級 目錄中的目錄信息進行預測。
9.根據(jù)權(quán)利要求7所述的詞條處理方法,其特征在于,所述步驟c進一步包括 cl.從所述基本預測單元中提取多個目錄特征;c2.根據(jù)所述目錄特征判斷所述基本預測單元之間的關聯(lián)度,并根據(jù)所述關聯(lián)度產(chǎn)生 所述預測結(jié)果。
10.根據(jù)權(quán)利要求1所述的詞條處理方法,其特征在于,所述步驟C進一步包括 cl.獲取所述詞條的目錄信息;c2.根據(jù)所述目錄信息提取目錄特征; c3.獲取含目錄特征關聯(lián)度關系的機器模型;c4.根據(jù)所提取的所述目錄特征,應用所述機器模型對前后相鄰的所述目錄信息的所述目錄特征進行關聯(lián)度計算;c5.根據(jù)關聯(lián)度計算結(jié)果對所述目錄信息進行標記。
11.根據(jù)權(quán)利要求10所述的詞條處理方法,其特征在于,所述步驟c2進一步包括在 提取所述目錄特征時,先進行分詞。
12.根據(jù)權(quán)利要求11所述的標的詞分類分級方法,其特征在于,所述分詞的方法包括 正向匹配分詞、反向匹配分詞、正向反向匹配分詞、基于全切分詞圖的分詞、最大熵馬爾科 夫模型分詞、最大熵分詞或條件隨機場分詞。
13.根據(jù)權(quán)利要求10所述的詞條處理方法,其特征在于,所述步驟c3進一步包括 c31.獲取已分類為不同主題的詞義選項的多義詞條樣本庫;c32.獲取所述詞義選項的目錄信息;c33.根據(jù)所述詞義選項的目錄信息提取所述詞義選項的目錄特征; c34.根據(jù)所述詞義選項的目錄特征進行機器建模,生成包括所述詞義選項的相鄰的所 述目錄信息的所述目錄特征的關聯(lián)度關系的機器模型。
14.根據(jù)權(quán)利要求13所述的詞條處理方法,其特征在于,所述詞義選項的相鄰的所述 目錄信息的所述目錄特征的關聯(lián)度關系包括相同詞匯的數(shù)量、相同詞匯的詞匯屬性、相同 詞匯所占目錄信息的比例、關聯(lián)詞匯的數(shù)量、關聯(lián)詞匯的詞匯屬性、關聯(lián)詞匯所占目錄信息 的比例之一或其組合。
15.根據(jù)權(quán)利要求10所述的詞條處理方法,其特征在于,在所述步驟c4中,進行關聯(lián)度 計算的方法包括計算相鄰的所述目錄信息的所述目錄特征中相同詞匯的數(shù)量。
16.根據(jù)權(quán)利要求15所述的詞條處理方法,其特征在于,在所述步驟c4中,進行關聯(lián)度 計算的方法還包括判斷所述相同詞匯的詞匯屬性。
17.根據(jù)權(quán)利要求15所述的詞條處理方法,其特征在于,在所述步驟c4中,進行關聯(lián)度 計算的方法還包括計算所述相同詞匯所占目錄信息的比例。
18.根據(jù)權(quán)利要求10所述的詞條處理方法,其特征在于,在所述步驟c4中,進行關聯(lián)度 計算的方法包括計算相鄰的所述目錄信息的所述目錄特征中關聯(lián)詞匯的數(shù)量。
19.根據(jù)權(quán)利要求18所述的詞條處理方法,其特征在于,在所述步驟c4中,進行關聯(lián)度 計算的方法還包括判斷所述關聯(lián)詞匯的詞匯屬性。
20.根據(jù)權(quán)利要求18所述的詞條處理方法,其特征在于,在所述步驟c4中,進行關聯(lián)度 計算的方法還包括計算所述關聯(lián)詞匯所占目錄信息的比例。
21.根據(jù)權(quán)利要求10所述的詞條處理方法,其特征在于,所述步驟c5進一步包括 c51.根據(jù)關聯(lián)度計算結(jié)果將前后相鄰的所述目錄信息劃分為相關和無關;c52.將起始目錄以及與在前目錄信息相關的所述目錄信息標記為第一標記; c53.將與在前目錄信息無關的所述目錄信息標記為第二標記。
22.—種開放式知識共享平臺,其特征在于,所述開放式知識共享平臺包括 詞條獲取模塊,獲取詞條及詞條內(nèi)容;多義詞判斷模塊,判斷所述詞條是否為涉及不同主題的多義詞; 詞義選項劃分模塊,若所述詞條為涉及不同主題的多義詞,則將涉及不同主題的所述 詞條內(nèi)容分別劃分到對應的詞義選項下。
23.根據(jù)權(quán)利要求22所述的開放式知識共享平臺,其特征在于,所述詞條內(nèi)容包括多個目錄,所述多義詞判斷模塊根據(jù)所述目錄中的目錄信息判斷所述詞條是否為涉及不同主 題的多義詞。
24.根據(jù)權(quán)利要求22所述的開放式知識共享平臺,其特征在于,所述詞條獲取模塊進 一步獲取所述詞條的分類信息,所述多義詞判斷模塊根據(jù)所述分類信息判斷所述詞條是否 為涉及不同主題的多義詞。
25.根據(jù)權(quán)利要求22所述的開放式知識共享平臺,其特征在于,所述多義詞判斷模塊 包括詞條特征提取模塊,對所述詞條內(nèi)容進行特征提取,以獲取多個詞條特征; 標注特征集合獲取模塊,獲取標注特征集合,所述標注特征集合包括多個帶有權(quán)重值 的標注特征;詞條特征權(quán)重計算模塊,根據(jù)所述標注特征分別為每一所述詞條特征分配對應的權(quán)重 值;以及閾值判斷模塊,對所述多個詞條特征的權(quán)重值進行求和,并將權(quán)重值求和高于閾值的 詞條作為多義詞。
26.根據(jù)權(quán)利要求25所述的開放式知識共享平臺,其特征在于,所述標注特征集合獲 取模塊進一步包括標注語料獲取模塊,獲取包括多個多義詞樣本和非多義詞樣本的標注語料; 標注特征提取模塊,從所述標注語料中提取多個所述標注特征; 標注特征權(quán)重計算模塊,根據(jù)所述標注特征在所述多義詞樣本和所述非多義詞樣本的 出現(xiàn)情況為所述標注特征分別分配對應的權(quán)重值。
27.根據(jù)權(quán)利要求沈所述的開放式知識共享平臺,其特征在于,所述標注特征權(quán)重計 算模塊計算所述標注特征在所述多義詞樣本中出現(xiàn)的次數(shù)M,計算所述標注特征在所述非 多義詞樣本中出現(xiàn)的次數(shù)N,并計算所述權(quán)重值等于M/ (M+N)。
28.根據(jù)權(quán)利要求22所述的開放式知識共享平臺,其特征在于,所述詞義選項劃分模 塊以所述詞條的一級目錄以及所述一級目錄下的目錄內(nèi)容作為基本預測單元,預測所述基 本預測單元是否屬于不同主題,并根據(jù)預測結(jié)果將屬于不同主題的所述基本預測單元分別 劃分到對應的詞義選項。
29.根據(jù)權(quán)利要求觀所述的開放式知識共享平臺,其特征在于,所述詞義選項劃分模 塊根據(jù)所述一級目錄中的目錄信息進行預測。
30.根據(jù)權(quán)利要求22所述的開放式知識共享平臺,其特征在于,所述詞義選項劃分模 塊進一步包括目錄信息獲取模塊,獲取所述詞條的目錄信息; 目錄特征提取模塊,根據(jù)所述目錄信息提取目錄特征; 機器模型獲取模塊,獲取含目錄特征關聯(lián)度關系的機器模型; 關聯(lián)度計算模塊,根據(jù)所提取的所述目錄特征,應用所述機器模型對前后相鄰的所述 目錄信息的所述目錄特征進行關聯(lián)度計算,以及標記模塊,根據(jù)關聯(lián)度計算結(jié)果對所述目錄信息進行標記。
31.根據(jù)權(quán)利要求30所述的開放式知識共享平臺,其特征在于,所述機器模型獲取模 塊進一步包括詞義選項樣本獲取模塊,獲取已分類為不同主題的詞義選項的多義詞條樣本庫; 詞義選項目錄信息獲取模塊,獲取所述詞義選項的目錄信息; 詞義選項目錄特征提取模塊,根據(jù)所述詞義選項的目錄信息提取所述詞義選項的目錄 特征;機器建模模塊,根據(jù)所述詞義選項的目錄特征進行機器建模,生成包括所述詞義選項 的相鄰的所述目錄信息的所述目錄特征的關聯(lián)度關系的機器模型。
32.根據(jù)權(quán)利要求31所述的開放式知識共享平臺,其特征在于,所述詞義選項的相鄰 的所述目錄信息的所述目錄特征的關聯(lián)度關系包括相同詞匯的數(shù)量、相同詞匯的詞匯屬 性、相同詞匯所占目錄信息的比例、關聯(lián)詞匯的數(shù)量、關聯(lián)詞匯的詞匯屬性、關聯(lián)詞匯所占 目錄信息的比例之一或其組合。
33.根據(jù)權(quán)利要求30所述的開放式知識共享平臺,其特征在于,所述關聯(lián)度計算模塊 進行關聯(lián)度計算的方法包括計算相鄰的所述目錄信息的所述目錄特征中相同詞匯的數(shù)量。
34.根據(jù)權(quán)利要求33所述的開放式知識共享平臺,其特征在于,所述關聯(lián)度計算模塊 進行關聯(lián)度計算的方法還包括判斷所述相同詞匯的詞匯屬性。
35.根據(jù)權(quán)利要求33所述的開放式知識共享平臺,其特征在于,所述關聯(lián)度計算模塊 進行關聯(lián)度計算的方法還包括計算所述相同詞匯所占目錄信息的比例。
36.根據(jù)權(quán)利要求30所述的開放式知識共享平臺,其特征在于,所述關聯(lián)度計算模塊 進行關聯(lián)度計算的方法包括計算相鄰的所述目錄信息的所述目錄特征中關聯(lián)詞匯的數(shù)量。
37.根據(jù)權(quán)利要求36所述的開放式知識共享平臺,其特征在于,所述關聯(lián)度計算模塊 進行關聯(lián)度計算的方法還包括判斷所述關聯(lián)詞匯的詞匯屬性。
38.根據(jù)權(quán)利要求36所述的開放式知識共享平臺,其特征在于,所述關聯(lián)度計算模塊 進行關聯(lián)度計算的方法還包括計算所述關聯(lián)詞匯所占目錄信息的比例。
39.根據(jù)權(quán)利要求30所述的開放式知識共享平臺,其特征在于,所述標記模塊進一步 包括關聯(lián)度分類模塊,根據(jù)關聯(lián)度計算結(jié)果將前后相鄰的所述目錄信息劃分為相關和無關;第一標記模塊,將起始目錄以及與在前目錄信息相關的所述目錄信息標記為第一標記;第二標記模塊,將與在前目錄信息無關的所述目錄信息標記為第二標記。
全文摘要
本發(fā)明提供了一種開放式知識共享平臺及其詞條處理方法。該詞條處理方法包括獲取詞條及詞條內(nèi)容;判斷詞條是否為涉及不同主題的多義詞;若詞條為涉及不同主題的多義詞,則將涉及不同主題的詞條內(nèi)容分別劃分到對應的詞義選項下。通過上述所提供的技術方案,本發(fā)明提供了一種開放式知識共享平臺及其詞條處理方法,可將涉及不同主題的詞條內(nèi)容劃分到不同詞義選項下,使得開放式知識共享平臺內(nèi)容的粒度更細,更便于對同名不同主題的內(nèi)容進行編輯完善和有針對性的引入擴展內(nèi)容,從而提升用戶的瀏覽體驗。
文檔編號G06F17/30GK102063497SQ20101061967
公開日2011年5月18日 申請日期2010年12月31日 優(yōu)先權(quán)日2010年12月31日
發(fā)明者嚴冰, 喬嶠, 唐益龍, 李永強, 來瑾穎, 梁東杰, 耿磊, 鄧亮, 陳浩然, 韋晨曦 申請人:百度在線網(wǎng)絡技術(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1