亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

基于詞語位置的關(guān)鍵字權(quán)值計(jì)算方法

文檔序號(hào):9667328閱讀:839來源:國(guó)知局
基于詞語位置的關(guān)鍵字權(quán)值計(jì)算方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)字出版物技術(shù)領(lǐng)域,尤其涉及到一種基于詞語位置的關(guān)鍵字權(quán)值計(jì) 算方法。
【背景技術(shù)】
[0002] 關(guān)鍵字就是用戶在使用搜索時(shí)輸入的、能夠最大程度概括用戶所要查找的信息內(nèi) 容的字或者詞,是信息的概括化和集中化。在出版行業(yè)談到的關(guān)鍵字,往往是指文章的核心 和主要內(nèi)容。
[0003] 目前在出版物的文章中,句子在文章中出現(xiàn)的位置能夠反映句子的重要程度,同 理詞語在文章中的出現(xiàn)位置也能反映詞語在文章中的重要程度,很多情況下,重要詞語都 出現(xiàn)在摘要、文章段落首句,因此詞語的位置可以作為權(quán)值計(jì)算的一個(gè)因素。
[0004] 目前關(guān)鍵字權(quán)值的計(jì)算方式大多是基于詞頻的,并沒有將詞語位置的因素考慮在 關(guān)鍵字權(quán)值計(jì)算的影響因子中。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明所要解決的技術(shù)問題是正對(duì)上述存在的技術(shù)不足,提供一種能夠準(zhǔn)確計(jì)算 出詞語的權(quán)重參數(shù),有利于關(guān)鍵詞的分析,方便讀者對(duì)文章的內(nèi)容進(jìn)行理解和記憶的基于 詞語位置的關(guān)鍵字權(quán)值計(jì)算方法。
[0006] 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
[0007] 基于詞語位置的關(guān)鍵字權(quán)值計(jì)算方法,其特征在于,包括如下步驟:
[0008] 文檔預(yù)處理:在計(jì)算機(jī)系統(tǒng)中,對(duì)于提供的文檔利用工具轉(zhuǎn)化為pdf格式,進(jìn)行預(yù) 處理獲取文本信息;采用解析工具將pdf文檔的頁面進(jìn)行解析,解析之后可以獲取到pdf文 檔的所有頁面數(shù)據(jù),通過目錄、段落特征識(shí)別出目錄頁以及頁面段落,并將這些數(shù)據(jù)合理的 存儲(chǔ)方便分詞等后續(xù)處理調(diào)用。
[0009] 關(guān)鍵字提?。簩?duì)文檔預(yù)處理之后的文本/[目息提取關(guān)鍵字,對(duì)照現(xiàn)有的關(guān)鍵字表,以 段落為單位對(duì)文檔的每一頁的每一段進(jìn)行關(guān)鍵字提取,并存入計(jì)算機(jī)系統(tǒng)。
[0010] 獲取影響因子:對(duì)提取出來的關(guān)鍵字獲取權(quán)值因子;一方面獲取基礎(chǔ)權(quán)值;另一 方面標(biāo)識(shí)出摘要、文章段落首句中的詞語。
[0011] 加權(quán)計(jì)算:把獲取到的影響因子作為權(quán)值計(jì)算因子進(jìn)行最終權(quán)值計(jì)算。
[0012] 輸出關(guān)鍵字權(quán)值表:給出關(guān)鍵字的最終權(quán)值列表。
[0013] 在上述方案中,所述的提取關(guān)鍵字具體為:采用ansj分詞組件對(duì)pdf內(nèi)容按段落 分詞并抽取出段落關(guān)鍵字。
[0014] 在上述方案中,所述的獲取權(quán)值因子詳細(xì)步驟為:
[0015] 獲取基礎(chǔ)權(quán)值:通過ansj提供的權(quán)值計(jì)算接口或者Lucene等權(quán)值計(jì)算接口對(duì)提 取出來的關(guān)鍵字計(jì)算權(quán)值得到基礎(chǔ)權(quán)值f。
[0016] 標(biāo)識(shí)出摘要、文章段落首句中的詞語:通過摘要段、和文章段落特征識(shí)別出摘要和 段落并標(biāo)識(shí)出對(duì)應(yīng)的摘要關(guān)鍵字、和段首關(guān)鍵字。
[0017] 在上述方案中,所述的加權(quán)計(jì)算具體步驟:在基礎(chǔ)權(quán)值的基礎(chǔ)上對(duì)段首和摘要標(biāo) 識(shí)的詞語加權(quán)處理,最終得到帶位置加權(quán)的權(quán)值。
[0018] 權(quán)值計(jì)算公式:Wk (fk,ak,hk) =fk+f(ak)+g(hk)
[0019]
[0020]
[0021] tf(tk,dj):文檔j中詞k的詞語頻度。
[0022] ta :詞k摘要中的詞頻。
[0023] ha :詞k在該段的詞頻。
[0024] a、〇 :調(diào)和因子,根據(jù)大量統(tǒng)計(jì)測(cè)試得到的因子值。
[0025] tk :詞k在文章中出現(xiàn)的次數(shù)。
[0026] dj :文檔j中詞匯總數(shù)。
[0027] N:總文檔數(shù)。
[0028] nk :含本詞匯的文檔數(shù)。
[0029] 本發(fā)明的原理是采用工具對(duì)pdf文檔進(jìn)行解析,在計(jì)算機(jī)系統(tǒng)中,對(duì)解析后的信 息使用ansj組件按段落抽取關(guān)鍵字,對(duì)抽取出來的關(guān)鍵字使用xsimilarity組件兩兩對(duì)比 進(jìn)行同義詞歸并,采用ansj組件接口計(jì)算關(guān)鍵字權(quán)值存儲(chǔ)數(shù)據(jù)庫中,最后在電子文檔中可 以查看段落的帶權(quán)重標(biāo)注信息。
[0030] 本發(fā)明的有益效果是:
[0031] 本發(fā)明方法能夠準(zhǔn)確計(jì)算出詞語的權(quán)重參數(shù),有利于關(guān)鍵詞的分析,方便讀者對(duì) 文章的內(nèi)容進(jìn)行理解和記憶。
【附圖說明】
[0032] 圖1是本發(fā)明實(shí)施例的流程圖;
【具體實(shí)施方式】
[0033] 下面結(jié)合【具體實(shí)施方式】,對(duì)本發(fā)明作進(jìn)一步的說明:
[0034] 如圖1所示的基于詞語位置的關(guān)鍵字權(quán)值計(jì)算方法,包括如下步驟:
[0035] 文檔預(yù)處理:對(duì)于提供的文檔,如果類似于pdf的文檔就要進(jìn)行預(yù)處理獲取文本 信息,具體的可以用相應(yīng)對(duì)應(yīng)的文本解析工具;采用解析工具將pdf文檔的頁面進(jìn)行解析, 解析之后可以獲取到Pdf文檔的所有頁面數(shù)據(jù),通過目錄、段落特征識(shí)別出目錄頁以及頁 面段落,并將這些數(shù)據(jù)合理的存儲(chǔ)方便分詞等后續(xù)處理調(diào)用。。
[0036] 關(guān)鍵字提?。簩?duì)文檔預(yù)處理之后的文本信息提取關(guān)鍵字,對(duì)照現(xiàn)有的關(guān)鍵字表,以 段落為單位對(duì)文檔的每一頁的每一段進(jìn)行關(guān)鍵字提取,并存入計(jì)算機(jī)系統(tǒng)。。
[0037] 獲取影響因子:對(duì)提取出來的關(guān)鍵字獲取權(quán)值因子;一方面獲取基礎(chǔ)權(quán)值;另一 方面標(biāo)識(shí)出摘要、文章段落首句中的詞語。
[0038] 加權(quán)計(jì)算:把獲取到的影響因子作為權(quán)值計(jì)算因子進(jìn)行最終權(quán)值計(jì)算。
[0039] 輸出關(guān)鍵字權(quán)值表:給出關(guān)鍵字的最終權(quán)值列表。
[0040] 在本實(shí)施例中,所述的提取關(guān)鍵字具體為:采用ansj分詞組件對(duì)pdf內(nèi)容按段落 分詞并抽取出段落關(guān)鍵字。
[0041] 在上述方案中,所述的獲取權(quán)值因子詳細(xì)步驟為:
[0042] 獲取基礎(chǔ)權(quán)值:通過ansj提供的權(quán)值計(jì)算接口或者Lucene等權(quán)值計(jì)算接口對(duì)提 取出來的關(guān)鍵字計(jì)算權(quán)值得到基礎(chǔ)權(quán)值f。
[0043] 標(biāo)識(shí)出摘要、文章段落首句中的詞語:通過摘要段、和文章段落特征識(shí)別出摘要和 段落并標(biāo)識(shí)出對(duì)應(yīng)的摘要關(guān)鍵字、和段首關(guān)鍵字。
[0044] 在本實(shí)施例中,所述的加權(quán)計(jì)算具體步驟:在基礎(chǔ)權(quán)值的基礎(chǔ)上對(duì)段首和摘要標(biāo) 識(shí)的詞語加權(quán)處理,最終得到帶位置加權(quán)的權(quán)值。
[0045]權(quán)值計(jì)算公式:Wk (fk,ak,hk)=fk+f(ak)+g(hk)
[0046]
[0047]
[0048] tf(tk,dj):文檔j中詞k的詞語頻度。
[0049] ta :詞k摘要中的詞頻。
[0050] ha :詞k在該段的詞頻。
[0051]a、σ:調(diào)和因子,根據(jù)大量統(tǒng)計(jì)測(cè)試得到的因子值。
[0052] tk :詞k在文章中出現(xiàn)的次數(shù)。
[0053] dj:文檔j中詞匯總數(shù)。
[0054]N:總文檔數(shù)。
[0055] nk :含本詞匯的文檔數(shù)。
[0056] 本發(fā)明的保護(hù)范圍并不限于上述的實(shí)施例,顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā) 明進(jìn)行各種改動(dòng)和變形而不脫離本發(fā)明的范圍和精神。倘若這些改動(dòng)和變形屬于本發(fā)明權(quán) 利要求及其等同技術(shù)的范圍內(nèi),則本發(fā)明的意圖也包含這些改動(dòng)和變形在內(nèi)。
【主權(quán)項(xiàng)】
1. 基于詞語位置的關(guān)鍵字權(quán)值計(jì)算方法,其特征在于,包括如下步驟: 文檔預(yù)處理:在計(jì)算機(jī)系統(tǒng)中,對(duì)于提供的文檔利用工具轉(zhuǎn)化為Pdf格式,進(jìn)行預(yù)處理 獲取文本信息,具體的可以用相應(yīng)對(duì)應(yīng)的文本解析工具;采用解析工具將Pdf文檔的頁面 進(jìn)行解析,解析之后可以獲取到Pdf文檔的所有頁面數(shù)據(jù),通過目錄、段落特征識(shí)別出目錄 頁以及頁面段落,并將這些數(shù)據(jù)合理的存儲(chǔ)方便分詞等后續(xù)處理調(diào)用; 關(guān)鍵字提?。簩?duì)文檔預(yù)處理之后的文本信息提取關(guān)鍵字,對(duì)照現(xiàn)有的關(guān)鍵字表,以段落 為單位對(duì)文檔的每一頁的每一段進(jìn)行關(guān)鍵字提取,并存入計(jì)算機(jī)系統(tǒng); 獲取影響因子:對(duì)提取出來的關(guān)鍵字獲取權(quán)值因子;一方面獲取基礎(chǔ)權(quán)值;另一方面 標(biāo)識(shí)出摘要、文章段落首句中的詞語; 加權(quán)計(jì)算:把獲取到的影響因子作為權(quán)值計(jì)算因子進(jìn)行最終權(quán)值計(jì)算; 輸出關(guān)鍵字權(quán)值表:給出關(guān)鍵字的最終權(quán)值列表。2. 如權(quán)利要求1所述的基于詞語位置的關(guān)鍵字權(quán)值計(jì)算方法,其特征在于:所述的提 取關(guān)鍵字具體為:采用ansj分詞組件對(duì)pdf內(nèi)容按段落分詞并抽取出段落關(guān)鍵字。3. 如權(quán)利要求1所述的基于詞語位置的關(guān)鍵字權(quán)值計(jì)算方法,其特征在于:所述的獲 取權(quán)值因子詳細(xì)步驟為: 獲取基礎(chǔ)權(quán)值:通過ansj提供的權(quán)值計(jì)算接口或者Lucene等權(quán)值計(jì)算接口對(duì)提取出 來的關(guān)鍵字計(jì)算權(quán)值得到基礎(chǔ)權(quán)值f ; 標(biāo)識(shí)出摘要、文章段落首句中的詞語:通過摘要段、和文章段落特征識(shí)別出摘要和段落 并標(biāo)識(shí)出對(duì)應(yīng)的摘要關(guān)鍵字、和段首關(guān)鍵字。4. 如權(quán)利要求1所述的基于詞語位置的關(guān)鍵字權(quán)值計(jì)算方法,其特征在于:所述的加 權(quán)計(jì)算具體步驟:在基礎(chǔ)權(quán)值的基礎(chǔ)上對(duì)段首和摘要標(biāo)識(shí)的詞語加權(quán)處理,最終得到帶位 置加權(quán)的權(quán)值; 權(quán)值計(jì)算公式:Wk (fk, ak, hk) = fk+f (ak) +g (hk)tf(tk,(Ij)文檔j中詞k的詞語頻度。 ta :詞k摘要中的詞頻。 ha:詞k在該段的詞頻。 a、σ :調(diào)和因子,根據(jù)大量統(tǒng)計(jì)測(cè)試得到的因子值。 tk :詞k在文章中出現(xiàn)的次數(shù)。 dj :文檔j中詞匯總數(shù)。 N :總文檔數(shù)。 nk :含本詞匯的文檔數(shù)。
【專利摘要】本發(fā)明提供一種基于詞語位置的關(guān)鍵字權(quán)值計(jì)算方法。包括如下步驟:文檔預(yù)處理:對(duì)于提供的文檔進(jìn)行預(yù)處理獲取文本信息;關(guān)鍵字提取:對(duì)文檔預(yù)處理之后的文本信息提取關(guān)鍵字;獲取影響因子:對(duì)提取出來的關(guān)鍵字獲取權(quán)值因子;一方面獲取基礎(chǔ)權(quán)值;另一方面標(biāo)識(shí)出摘要、文章段落首句中的詞語;加權(quán)計(jì)算:把獲取到的影響因子作為權(quán)值計(jì)算因子進(jìn)行最終權(quán)值計(jì)算;輸出關(guān)鍵字權(quán)值表:給出關(guān)鍵字的最終權(quán)值列表。本發(fā)明方法能夠準(zhǔn)確計(jì)算出詞語的權(quán)重參數(shù),有利于關(guān)鍵詞的分析,方便讀者對(duì)文章的內(nèi)容進(jìn)行理解和記憶。
【IPC分類】G06F17/30
【公開號(hào)】CN105426379
【申請(qǐng)?zhí)枴緾N201410563853
【發(fā)明人】劉永堅(jiān), 白立華, 楊朝陽, 李文忠, 楊慧, 朱馳風(fēng)
【申請(qǐng)人】武漢理工大學(xué)
【公開日】2016年3月23日
【申請(qǐng)日】2014年10月22日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1