基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息采集的技術(shù)領(lǐng)域,具體說是一種基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各種各樣的數(shù)據(jù)浩瀚如海,新聞類,微博類,論壇類,電商類等,有的客戶關(guān)注某個事件的動態(tài),有的客戶關(guān)注某個品牌的口碑,有的客戶關(guān)注的是某個企業(yè)的信譽,如何能精確快速的從互聯(lián)網(wǎng)上獲取客戶真正關(guān)心的數(shù)據(jù),需通過搜索引擎幫助篩選過濾數(shù)據(jù),然而檢索詞選擇洽當(dāng)與否,直接影響檢索效果。檢索詞中無用詞過多,會導(dǎo)致檢索效果降低,出現(xiàn)相關(guān)數(shù)據(jù)較少甚至零結(jié)果,而檢索詞限定過少,又會導(dǎo)致檢索到的數(shù)據(jù)量過大,還需進一步進行數(shù)據(jù)篩選,擴大了檢索的工作量。
[0003]現(xiàn)有技術(shù)中有一種基于規(guī)則引擎的標引服務(wù),該服務(wù)能將現(xiàn)實生活中用自然語言表達的用戶需求抽象出來,畫成可視易懂的圖形,這些圖形按照規(guī)則引擎預(yù)定義的格式,將原始需求轉(zhuǎn)換成成千上萬條規(guī)則,通過這些規(guī)則來標引用戶感興趣的數(shù)據(jù)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明要解決的技術(shù)問題是提供一種基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法。
[0005]本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:
本發(fā)明的基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法,包括以下步驟:
A、從圖形的規(guī)則中抽取多個詞集以及這些詞集間的關(guān)系,這些原始檢索詞被抽象為N行與或表達式;
B、整理詞集和詞集間關(guān)系:為每個詞集按行號及在行中所處位置命名,對于含有相同詞的集合進行合并;
C、分析每行表達式,統(tǒng)計同名詞集出現(xiàn)的次數(shù),以及每個詞數(shù)集的詞數(shù),尋找詞數(shù)少且覆蓋表達式行數(shù)多的詞數(shù)集計算該詞的行數(shù)覆蓋率,以詞數(shù)的倒數(shù)加權(quán)到覆蓋率上,獲取中間權(quán)值;
D、對詞集進行濾噪處理,使用分詞功能判斷詞的詞性,去掉副詞,感嘆詞,連詞等無實際含義的詞語;同時從近一個月詞集樣本中獲取每個詞的倒文檔率,即該詞的常見度,通過詞性和倒文檔率獲取詞與主題特征的相關(guān)度,從而為每個詞設(shè)置一個權(quán)重;
E、綜合詞數(shù)集的中間權(quán)值和詞數(shù)集下每個詞的權(quán)重,計算出每個詞數(shù)集的最終權(quán)值,選取最終權(quán)值最高且覆蓋所有邏輯條件的詞數(shù)集作為本次的檢索詞;最終權(quán)值=中間權(quán)值+詞集中詞的平均權(quán)重的開方值。
[0006]本發(fā)明具有的優(yōu)點和積極效果是:
本發(fā)明的基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法,能夠從成千上萬條規(guī)則中快速提取出最小且需求關(guān)聯(lián)度最高的檢索詞集,其中分詞和倒文檔率能夠較好的識別詞性,從而準確的分析出詞集與主題的關(guān)聯(lián)度,在標引流程中獲得較高的召回率,覆蓋邏輯表達式最全且最小詞數(shù)集的優(yōu)化方法,使得最終產(chǎn)生的采集任務(wù)量減少,從而提高企業(yè)的生產(chǎn)效率。
【具體實施方式】
[0007]以下通過具體實施例對本發(fā)明進行詳細說明。
[0008]發(fā)明的基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法,包括以下步驟:
A、從圖形的規(guī)則中抽取多個詞集以及這些詞集間的關(guān)系,這些原始檢索詞被抽象為N行與或表達式;
B、整理詞集和詞集間關(guān)系:為每個詞集按行號及在行中所處位置命名,對于含有相同詞的集合進行合并;
C、分析每行表達式,統(tǒng)計同名詞集出現(xiàn)的次數(shù),以及每個詞數(shù)集的詞數(shù),尋找詞數(shù)少且覆蓋表達式行數(shù)多的詞數(shù)集,根據(jù)這兩個維度給每個詞數(shù)集賦上一個權(quán)值;權(quán)值計算公式中,覆蓋率占主要部分,覆蓋率越高的詞集說明與主題相關(guān)度越大;詞數(shù)的多少則影響最終生成的采集量,為了以較低的采集量獲取最全的數(shù)據(jù),以詞數(shù)的倒數(shù)加權(quán)到覆蓋率上,獲取中間權(quán)值;
D、對詞集進行濾噪處理,使用分詞功能判斷詞的詞性,去掉副詞,感嘆詞,連詞等無實際含義的詞語;同時從近一個月詞集樣本中獲取每個詞的倒文檔率,即該詞的常見度。通過詞性和倒文檔率獲取詞與主題特征的相關(guān)度,從而為每個詞設(shè)置一個權(quán)重;
E、綜合步驟C中詞數(shù)集的權(quán)值和詞數(shù)集下每個詞的權(quán)重,計算出每個詞數(shù)集的最終權(quán)值,選取最終權(quán)值最高且覆蓋所有邏輯條件的詞數(shù)集作為本次的檢索詞。根據(jù)大量樣本的實驗調(diào)研,詞性和倒文檔率對權(quán)重的影響應(yīng)該限定在微調(diào)范圍,故最終權(quán)值=中間權(quán)值+詞集中詞的平均權(quán)重的開方值。
[0009]以上所述,僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實施例公開如上,然而,并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當(dāng)然會利用揭示的技術(shù)內(nèi)容作出些許更動或修飾,成為等同變化的等效實施例,但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾,均屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項】
1.一種基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法,包括以下步驟: A、從圖形的規(guī)則中抽取多個詞集以及這些詞集間的關(guān)系,這些原始檢索詞被抽象為N行與或表達式; B、整理詞集和詞集間關(guān)系:為每個詞集按行號及在行中所處位置命名,對于含有相同詞的集合進行合并; C、分析每行表達式,統(tǒng)計同名詞集出現(xiàn)的次數(shù),以及每個詞數(shù)集的詞數(shù),尋找詞數(shù)少且覆蓋表達式行數(shù)多的詞數(shù)集計算該詞的行數(shù)覆蓋率,以詞數(shù)的倒數(shù)加權(quán)到覆蓋率上,獲取中間權(quán)值; D、對詞集進行濾噪處理,使用分詞功能判斷詞的詞性,去掉副詞,感嘆詞,連詞等無實際含義的詞語;同時從近一個月詞集樣本中獲取每個詞的倒文檔率,即該詞的常見度,通過詞性和倒文檔率獲取詞與主題特征的相關(guān)度,從而為每個詞設(shè)置一個權(quán)重; E、綜合詞數(shù)集的中間權(quán)值和詞數(shù)集下每個詞的權(quán)重,計算出每個詞數(shù)集的最終權(quán)值,選取最終權(quán)值最高且覆蓋所有邏輯條件的詞數(shù)集作為本次的檢索詞;最終權(quán)值=中間權(quán)值+詞集中詞的平均權(quán)重的開方值。
【專利摘要】一種基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法,從圖形的規(guī)則中抽取多個詞集以及這些詞集間的關(guān)系;整理詞集和關(guān)系,為每個詞集命名,將詞集和關(guān)系簡化成多行與或表達式;分析每行表達式,給每個詞數(shù)集賦上一個權(quán)值;通過分詞和倒文檔率識別詞性,從而準確的分析出詞集與主題的關(guān)聯(lián)度,從而能夠從成千上萬條規(guī)則中快速提取出最小且需求關(guān)聯(lián)度最高的檢索詞集,其中在標引流程中獲得較高的召回率,覆蓋邏輯表達式最全且最小詞數(shù)集的優(yōu)化方法,使得最終產(chǎn)生的采集任務(wù)量減少,從而提高企業(yè)的生產(chǎn)效率。
【IPC分類】G06F17/30
【公開號】CN105574085
【申請?zhí)枴緾N201510910407
【發(fā)明人】涂君蘭, 楊偉鋒
【申請人】天津海量信息技術(shù)有限公司
【公開日】2016年5月11日
【申請日】2015年12月10日