基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法

文檔序號：9810612閱讀：301來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息采集的技術(shù)領(lǐng)域，具體說是一種基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，各種各樣的數(shù)據(jù)浩瀚如海，新聞類，微博類，論壇類，電商類等，有的客戶關(guān)注某個事件的動態(tài)，有的客戶關(guān)注某個品牌的口碑，有的客戶關(guān)注的是某個企業(yè)的信譽，如何能精確快速的從互聯(lián)網(wǎng)上獲取客戶真正關(guān)心的數(shù)據(jù)，需通過搜索引擎幫助篩選過濾數(shù)據(jù)，然而檢索詞選擇洽當(dāng)與否，直接影響檢索效果。檢索詞中無用詞過多，會導(dǎo)致檢索效果降低，出現(xiàn)相關(guān)數(shù)據(jù)較少甚至零結(jié)果，而檢索詞限定過少，又會導(dǎo)致檢索到的數(shù)據(jù)量過大，還需進一步進行數(shù)據(jù)篩選，擴大了檢索的工作量。
[0003]現(xiàn)有技術(shù)中有一種基于規(guī)則引擎的標引服務(wù)，該服務(wù)能將現(xiàn)實生活中用自然語言表達的用戶需求抽象出來，畫成可視易懂的圖形，這些圖形按照規(guī)則引擎預(yù)定義的格式，將原始需求轉(zhuǎn)換成成千上萬條規(guī)則，通過這些規(guī)則來標引用戶感興趣的數(shù)據(jù)。

【發(fā)明內(nèi)容】

[0004]本發(fā)明要解決的技術(shù)問題是提供一種基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法。
[0005]本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:
本發(fā)明的基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法，包括以下步驟:
A、從圖形的規(guī)則中抽取多個詞集以及這些詞集間的關(guān)系，這些原始檢索詞被抽象為N行與或表達式；
B、整理詞集和詞集間關(guān)系:為每個詞集按行號及在行中所處位置命名，對于含有相同詞的集合進行合并；
C、分析每行表達式，統(tǒng)計同名詞集出現(xiàn)的次數(shù)，以及每個詞數(shù)集的詞數(shù)，尋找詞數(shù)少且覆蓋表達式行數(shù)多的詞數(shù)集計算該詞的行數(shù)覆蓋率，以詞數(shù)的倒數(shù)加權(quán)到覆蓋率上，獲取中間權(quán)值；
D、對詞集進行濾噪處理，使用分詞功能判斷詞的詞性，去掉副詞，感嘆詞，連詞等無實際含義的詞語；同時從近一個月詞集樣本中獲取每個詞的倒文檔率，即該詞的常見度，通過詞性和倒文檔率獲取詞與主題特征的相關(guān)度，從而為每個詞設(shè)置一個權(quán)重；
E、綜合詞數(shù)集的中間權(quán)值和詞數(shù)集下每個詞的權(quán)重，計算出每個詞數(shù)集的最終權(quán)值，選取最終權(quán)值最高且覆蓋所有邏輯條件的詞數(shù)集作為本次的檢索詞;最終權(quán)值=中間權(quán)值+詞集中詞的平均權(quán)重的開方值。
[0006]本發(fā)明具有的優(yōu)點和積極效果是:
本發(fā)明的基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法，能夠從成千上萬條規(guī)則中快速提取出最小且需求關(guān)聯(lián)度最高的檢索詞集，其中分詞和倒文檔率能夠較好的識別詞性，從而準確的分析出詞集與主題的關(guān)聯(lián)度，在標引流程中獲得較高的召回率，覆蓋邏輯表達式最全且最小詞數(shù)集的優(yōu)化方法，使得最終產(chǎn)生的采集任務(wù)量減少，從而提高企業(yè)的生產(chǎn)效率。
【具體實施方式】
[0007]以下通過具體實施例對本發(fā)明進行詳細說明。
[0008]發(fā)明的基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法，包括以下步驟:
A、從圖形的規(guī)則中抽取多個詞集以及這些詞集間的關(guān)系，這些原始檢索詞被抽象為N行與或表達式；
B、整理詞集和詞集間關(guān)系:為每個詞集按行號及在行中所處位置命名，對于含有相同詞的集合進行合并；
C、分析每行表達式，統(tǒng)計同名詞集出現(xiàn)的次數(shù)，以及每個詞數(shù)集的詞數(shù)，尋找詞數(shù)少且覆蓋表達式行數(shù)多的詞數(shù)集，根據(jù)這兩個維度給每個詞數(shù)集賦上一個權(quán)值;權(quán)值計算公式中，覆蓋率占主要部分，覆蓋率越高的詞集說明與主題相關(guān)度越大;詞數(shù)的多少則影響最終生成的采集量，為了以較低的采集量獲取最全的數(shù)據(jù)，以詞數(shù)的倒數(shù)加權(quán)到覆蓋率上，獲取中間權(quán)值；
D、對詞集進行濾噪處理，使用分詞功能判斷詞的詞性，去掉副詞，感嘆詞，連詞等無實際含義的詞語；同時從近一個月詞集樣本中獲取每個詞的倒文檔率，即該詞的常見度。通過詞性和倒文檔率獲取詞與主題特征的相關(guān)度，從而為每個詞設(shè)置一個權(quán)重；
E、綜合步驟C中詞數(shù)集的權(quán)值和詞數(shù)集下每個詞的權(quán)重，計算出每個詞數(shù)集的最終權(quán)值，選取最終權(quán)值最高且覆蓋所有邏輯條件的詞數(shù)集作為本次的檢索詞。根據(jù)大量樣本的實驗調(diào)研，詞性和倒文檔率對權(quán)重的影響應(yīng)該限定在微調(diào)范圍，故最終權(quán)值=中間權(quán)值+詞集中詞的平均權(quán)重的開方值。
[0009]以上所述，僅是本發(fā)明的較佳實施例而已，并非對本發(fā)明作任何形式上的限制，雖然本發(fā)明已以較佳實施例公開如上，然而，并非用以限定本發(fā)明，任何熟悉本專業(yè)的技術(shù)人員，在不脫離本發(fā)明技術(shù)方案范圍內(nèi)，當(dāng)然會利用揭示的技術(shù)內(nèi)容作出些許更動或修飾，成為等同變化的等效實施例，但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容，依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾，均屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項】
1.一種基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法，包括以下步驟: A、從圖形的規(guī)則中抽取多個詞集以及這些詞集間的關(guān)系，這些原始檢索詞被抽象為N行與或表達式； B、整理詞集和詞集間關(guān)系:為每個詞集按行號及在行中所處位置命名，對于含有相同詞的集合進行合并； C、分析每行表達式，統(tǒng)計同名詞集出現(xiàn)的次數(shù)，以及每個詞數(shù)集的詞數(shù)，尋找詞數(shù)少且覆蓋表達式行數(shù)多的詞數(shù)集計算該詞的行數(shù)覆蓋率，以詞數(shù)的倒數(shù)加權(quán)到覆蓋率上，獲取中間權(quán)值； D、對詞集進行濾噪處理，使用分詞功能判斷詞的詞性，去掉副詞，感嘆詞，連詞等無實際含義的詞語；同時從近一個月詞集樣本中獲取每個詞的倒文檔率，即該詞的常見度，通過詞性和倒文檔率獲取詞與主題特征的相關(guān)度，從而為每個詞設(shè)置一個權(quán)重； E、綜合詞數(shù)集的中間權(quán)值和詞數(shù)集下每個詞的權(quán)重，計算出每個詞數(shù)集的最終權(quán)值，選取最終權(quán)值最高且覆蓋所有邏輯條件的詞數(shù)集作為本次的檢索詞;最終權(quán)值=中間權(quán)值+詞集中詞的平均權(quán)重的開方值。
【專利摘要】一種基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法，從圖形的規(guī)則中抽取多個詞集以及這些詞集間的關(guān)系；整理詞集和關(guān)系，為每個詞集命名，將詞集和關(guān)系簡化成多行與或表達式；分析每行表達式，給每個詞數(shù)集賦上一個權(quán)值；通過分詞和倒文檔率識別詞性，從而準確的分析出詞集與主題的關(guān)聯(lián)度，從而能夠從成千上萬條規(guī)則中快速提取出最小且需求關(guān)聯(lián)度最高的檢索詞集，其中在標引流程中獲得較高的召回率，覆蓋邏輯表達式最全且最小詞數(shù)集的優(yōu)化方法，使得最終產(chǎn)生的采集任務(wù)量減少，從而提高企業(yè)的生產(chǎn)效率。
【IPC分類】G06F17/30
【公開號】CN105574085
【申請?zhí)枴緾N201510910407
【發(fā)明人】涂君蘭, 楊偉鋒
【申請人】天津海量信息技術(shù)有限公司
【公開日】2016年5月11日
【申請日】2015年12月10日

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：涂君蘭;楊偉鋒;
技術(shù)所有人：天津海量信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

結(jié)構(gòu)優(yōu)化設(shè)計方法相關(guān)技術(shù)

結(jié)構(gòu)優(yōu)化方法相關(guān)技術(shù)

資本結(jié)構(gòu)的優(yōu)化方法相關(guān)技術(shù)

結(jié)構(gòu)優(yōu)化的方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法