一種網(wǎng)絡(luò)新聞概要提取方法
【專利摘要】本發(fā)明提供了一種網(wǎng)絡(luò)新聞概要提取方法,首先獲取網(wǎng)絡(luò)新聞,對網(wǎng)絡(luò)新聞中的文字基于中文詞匯鏈提取關(guān)鍵詞,基于深度學(xué)習(xí)算法進(jìn)行圖片分類;建立新聞ID,新聞入庫;新聞對比。本發(fā)明根據(jù)網(wǎng)絡(luò)新聞中的文字信息提取關(guān)鍵摘要并對新聞圖片進(jìn)行分類,形成新聞ID,實現(xiàn)了一篇新聞對應(yīng)一項新聞ID,極大降低了系統(tǒng)的存儲要求,提高了存儲效率。通過所提及的新聞庫的不斷實時更新以及提供的快速查詢與添加等功能,提高了檢索新聞的效率,極大降低了工作人員查看、評價新聞的工作量,起到了有效的新聞?wù)鐒e輔助工作。
【專利說明】
-種網(wǎng)絡(luò)新聞概要提取方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及信息處理技術(shù)領(lǐng)域。尤其是一種網(wǎng)絡(luò)新聞概要提取方法.
【背景技術(shù)】
[0002] 網(wǎng)絡(luò)新聞是突破傳統(tǒng)的新聞傳播概念,在視、聽、感方面給受眾全新的體驗。它將 無序化的新聞進(jìn)行有序的整合,并且大大壓縮了信息的厚度,讓人們在最短的時間內(nèi)獲得 最有效的新聞信息。不僅如此,未來的網(wǎng)絡(luò)新聞將不再受傳統(tǒng)新聞發(fā)布者的限制,受眾可W 發(fā)布自己的新聞,并在短時間內(nèi)獲得更快的傳播,而且新聞將成為人們互動交流的平臺。網(wǎng) 絡(luò)新聞將隨著人們認(rèn)識的提高向著更深的層次發(fā)展,運將完全顛覆網(wǎng)絡(luò)新聞的傳統(tǒng)概念
[0003] 1994年4月,中國全面接入互聯(lián)網(wǎng),1995年1月,《神州學(xué)人》雜志成為中國第一家上 網(wǎng)媒體。從那時W來,中國網(wǎng)絡(luò)媒體經(jīng)歷了近十年的發(fā)展,運一階段也可看作中國網(wǎng)絡(luò)媒體 的第一個歷史時期。在運個歷史時期,中國網(wǎng)絡(luò)媒體事業(yè)取得了長足的發(fā)展,其中一個最直 接也是最突出的表現(xiàn),是網(wǎng)絡(luò)媒體在新聞業(yè)務(wù)方面的進(jìn)步。
[0004] 網(wǎng)絡(luò)新聞業(yè)務(wù),其誕生之初,是傳統(tǒng)新聞業(yè)務(wù)的一種延伸,但是,經(jīng)過近十年的發(fā) 展,它在不斷吸取傳統(tǒng)新聞業(yè)務(wù)養(yǎng)分的同時,也在逐漸形成自己的嶄新面貌,有些甚至是革 命性的,并有可能對整個媒體的新聞業(yè)務(wù)發(fā)展產(chǎn)生影響
[0005] 本發(fā)明旨在精簡網(wǎng)絡(luò)新聞對網(wǎng)絡(luò)新聞進(jìn)行分類及過濾。利用所獲取的網(wǎng)絡(luò)新聞, 進(jìn)行文字識別W及圖像進(jìn)行分析與提取,并建立新聞ID,最終放入新聞庫。該發(fā)明主要有文 字識別W及圖像分類識別兩大部分組成,其中文字識別依靠基于詞匯鏈的關(guān)鍵詞提取,圖 片分類基于深度學(xué)習(xí)算法。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是通過對網(wǎng)絡(luò)新聞中文字及圖片提取關(guān)鍵詞,建立新聞ID及新聞 庫,W供快速查詢、添加等處理,起到良好的網(wǎng)絡(luò)新聞輔助提取作用,從而極大減輕人工處 理的工作強度的目的。
[0007] 本發(fā)明采用的技術(shù)方案是:
[000引一種網(wǎng)絡(luò)新聞概要提取方法,其特征在于,包括W下步驟:
[0009] (1)獲取網(wǎng)絡(luò)新聞;
[0010] (2)對網(wǎng)絡(luò)新聞中的文字基于中文詞匯鏈提取關(guān)鍵詞;
[0011] (3)基于深度學(xué)習(xí)算法進(jìn)行圖片分類;
[0012] 首先,采集圖像,對獲取的圖像進(jìn)行標(biāo)注,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將標(biāo)注好的圖 像送至構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)中,進(jìn)行訓(xùn)練;輸出新聞分類結(jié)果;
[0013] (4)建立新聞ID,新聞入庫;
[0014] (5)新聞對比;
[0015] (5.1)用戶輸入需要捜索的相似新聞個數(shù)KW及輸入待對比且未錄入新聞庫的一 則新聞;
[0016] (5.2)經(jīng)過步驟(2)、(3)、(4),建立待對比且未錄入新聞庫的一則新聞的新聞ID, 并入庫;根據(jù)該新聞的圖片,利用基于深度學(xué)習(xí)的圖片分類中的soft-max函數(shù)輸出K個由高 到低的函數(shù)值,對應(yīng)與該新聞相似程度由高到低的K個新聞,輸出K個新聞的新聞ID;
[0017] (5.3)對輸出K個新聞的新聞ID進(jìn)行判斷,若為同一類則輸出所述的K個新聞作為 相似新聞,若不是同一類,則重復(fù)步驟(5.2)。
[0018] 進(jìn)一步地,步驟(2)中提取關(guān)鍵詞的方法包括W下步驟:
[0019] (2.1)設(shè)定抽取關(guān)鍵詞個數(shù)k,詞語相似度闊值5,特征頻率闊值e
[0020] (2.2)預(yù)處理文檔集,包括分詞、詞性標(biāo)注和詞過濾,并對每個詞的特征頻率TF和 文檔頻率DF進(jìn)行統(tǒng)計;
[0021] (2.3)選擇文本中預(yù)處理后的詞W1,W2,..,Wn作為候選詞匯集,并取Wl構(gòu)建初始詞 匯鏈^;對于未被《同義詞詞林》收錄的詞匯,但特征頻率TF大于特征頻率闊值e詞單獨歸為 詞匯鏈Lo;
[0022] (2.4)對候選詞匯集的詞wi(i G [2,n])依次進(jìn)行提取,構(gòu)建詞匯鏈以,依次計 算它與除詞匯鏈L日之外的詞匯鏈以(1£[2,11])的語義擴展度6《9(*1,以),該詞與某詞 匯鏈以中所有詞的語義擴展度最大值作為該詞匯鏈的擴展度S(Wi,Lj);然后對每個S(wi, 進(jìn)行比較,選取其中的最大值作為該詞與所有詞匯鏈的語義擴展度exp(Wi,L),即
[0023] 式中,n功詞匯鏈^中包含詞匯的個數(shù);m為詞匯鏈的條數(shù);W化為詞匯鏈k中第k個 詞匯。詞匯間語義擴展度exp (Wi, Lj)按式(5)計算,exp (Wi, Lj)表示詞匯Wi與詞匯鏈^的語義 擴展度;
[0024] (2.5)將語義擴展度e邱(wi,k)的最大值和預(yù)設(shè)的詞語相似度闊值S作比較,如果 e邱(Wi, Lj)的最大值大于S,就把詞Wi加入到對應(yīng)的詞匯鏈Ui中;如果語義擴展度exp (Wi, Lj) 最大值小于8,就創(chuàng)建一個新詞匯鏈,并把詞Wi加入到該新建的詞匯鏈中;
[0025] (2.6)對全部候選詞匯依次進(jìn)行計算,重復(fù)步驟(2.4巧Ij步驟(2.6),直到全部詞匯 計算完畢。
[00%]進(jìn)一步地,步驟(3)中構(gòu)建卷積網(wǎng)絡(luò)結(jié)構(gòu)是使用227x227像素的輸入圖片大小,共5 層卷積層,每批次訓(xùn)練圖片個數(shù)為256,測試圖片個數(shù)為256;網(wǎng)絡(luò)的每一層是一個大小為W XhXd的=維矩陣,其中h和W代表圖像的高度和寬度,d是濾波器的個數(shù)或者信道維數(shù),利 用上述=維矩陣可得出網(wǎng)絡(luò)每一層的神經(jīng)單元個數(shù)。
[0027] 進(jìn)一步地,步驟(3)中卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練按如下步驟實現(xiàn):
[002引(3.1)計算卷積神經(jīng)網(wǎng)絡(luò)特征,根據(jù)訓(xùn)練圖片和標(biāo)簽分類器,選取soft-max函數(shù)作 為損失函數(shù),訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類任務(wù);
[0029] (3.2)對(3.1)中得到的特征在后續(xù)新聞圖片中進(jìn)行測試,卷積神經(jīng)網(wǎng)絡(luò)最后一層 輸出該圖片屬于某一類別的概率值,并將概率最大的那一類最為最終類別,至此,圖片分類 結(jié)束。
[0030] 進(jìn)一步地,步驟(5)中用戶輸入需要捜索的相似新聞個數(shù)K為3-5個。
[0031] 本發(fā)明針對網(wǎng)絡(luò)新聞中文字部分基于中文詞匯鏈的提取關(guān)鍵字,便于精簡新聞概 要;基于深度學(xué)習(xí)算法對圖片進(jìn)行分類;結(jié)合新聞圖片和關(guān)鍵字建立新聞ID,最終放入新聞 庫便于檢索引用查找等。
[0032] 本發(fā)明的有益效果是:
[0033] 1.本發(fā)明根據(jù)網(wǎng)絡(luò)新聞中的文字信息提取關(guān)鍵摘要并對新聞圖片進(jìn)行分類,形成 新聞ID,實現(xiàn)了一篇新聞對應(yīng)一項新聞ID,極大降低了系統(tǒng)的存儲要求,提高了存儲效率。
[0034] 2、本發(fā)明通過所提及的新聞庫的不斷實時更新W及提供的快速查詢與添加等功 能,提高了檢索新聞的效率,極大降低了工作人員查看、評價新聞的工作量,起到了有效的 新聞?wù)鐒e輔助工作。
【附圖說明】
[0035] 圖1是本發(fā)明所示網(wǎng)絡(luò)新聞概要提取方法的流程圖。
[0036] 圖2是所述圖片分類網(wǎng)絡(luò)結(jié)構(gòu)圖。
[0037] 圖3是所述新聞ID建立示意圖。
[003引圖4是新聞提取示意圖。
[0039] 圖5是新聞相似對比系統(tǒng)。
[0040] 圖6新聞對比系統(tǒng)輸出結(jié)果圖
【具體實施方式】
[0041] 下面結(jié)合附圖W及具體實施例對本發(fā)明作進(jìn)一步的說明,但本發(fā)明的保護(hù)范圍并 不限于此。
[0042] 如圖1所示,本發(fā)明利用網(wǎng)絡(luò)新聞,對所獲取的網(wǎng)絡(luò)新聞進(jìn)行文字識別W及圖像進(jìn) 行分析并對該新聞進(jìn)行新聞ID建立最終放入新聞庫旨在精簡網(wǎng)絡(luò)新聞對網(wǎng)絡(luò)新聞進(jìn)行分 類及過濾。其中文字識別依靠基于詞匯鏈提取關(guān)鍵詞,圖片分類基于深度學(xué)習(xí)算法對圖片 進(jìn)行分類。
[0043] 依靠基于詞匯鏈提取關(guān)鍵詞的方法包括W下步驟:
[0044] (1)設(shè)定抽取關(guān)鍵詞個數(shù)k,詞語相似度闊值5,特征頻率闊值e
[0045] (2)預(yù)處理文檔集,包括分詞、詞性標(biāo)注和詞過濾,并對每個詞的特征頻率TF和文 檔頻率DF進(jìn)行統(tǒng)計;
[0046] (3)選擇文本中預(yù)處理后的詞W1,W2, . .,Wn作為候選詞匯集,并取Wl構(gòu)建初始詞匯 鏈^;對于未被《同義詞詞林》收錄的詞匯,但特征頻率TF大于特征頻率闊值e詞單獨歸為詞 匯鏈Lo;
[0047] (4)對候選詞匯集的詞wi(i G [2,n])依次進(jìn)行提取,構(gòu)建詞匯鏈以,依次計算 它與除詞匯鏈L日之外的詞匯鏈以(1£[2,11])的語義擴展度6《9(*1,以),該詞與某詞匯 鏈^中所有詞的語義擴展度最大值作為該詞匯鏈的擴展度S(wi,^);然后對每個S (Wi,^ )進(jìn)行比較,選取其中的最大值作為該詞與所有詞匯鏈的擴展度exp(Wi,L),即
[004引式中,nj為詞匯鏈^中包含詞匯的個數(shù);m為詞匯鏈的條數(shù);W化為詞匯鏈k中第k個 詞匯。詞匯間語義擴展度exp (Wi, Lj)按式(5)計算,exp (Wi, Lj)表示詞匯Wi與詞匯鏈^的語義 擴展度;
[0049] (5)將語義擴展度e邱(wi,k)的最大值和預(yù)設(shè)的詞語相似度闊值S作比較,如果exp (Wi, Lj)的最大值大于S,就把詞Wi加入到對應(yīng)的詞匯鏈k中;如果語義擴展度e邱(Wi, Lj)最 大值小于8,就創(chuàng)建一個新詞匯鏈,并把詞Wi加入到該新建的詞匯鏈中;
[0050] (6)對全部候選詞匯依次進(jìn)行計算,重復(fù)步驟(4巧Ij步驟(6),直到全部詞匯計算完 畢。
[0051 ]在上述算法中,通過觀察發(fā)現(xiàn),詞語相似度闊值S選擇得越大,構(gòu)建的詞匯鏈數(shù)目 就越多。反之,詞語相似度闊值S選擇得越小,構(gòu)建的詞匯鏈數(shù)目就越少。
[0052] 如圖2所示,基于深度學(xué)習(xí)算法進(jìn)行圖片分類,首先,采集圖像,對獲取的圖像進(jìn)行 標(biāo)注,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將標(biāo)注好的圖像送至構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)中,進(jìn)行訓(xùn)練;輸 出新聞分類結(jié)果。具體步驟是:
[0053] 步驟一:采集圖像,所有圖片均來源于網(wǎng)絡(luò)新聞插圖配圖圖片。
[0054] 步驟二:數(shù)據(jù)標(biāo)定:對獲得圖片進(jìn)行人工標(biāo)注分類。
[0055] 步驟構(gòu)建卷積網(wǎng)絡(luò)結(jié)構(gòu):本發(fā)明采用卷積神經(jīng)網(wǎng)絡(luò),使用227x227像素的輸入 圖片大小,共5層卷積層,每批次訓(xùn)練圖片個數(shù)為256,測試圖片個數(shù)為256。網(wǎng)絡(luò)的每一層是 一個大小為W X h X d的=維矩陣,其中h和W代表圖像的高度和寬度,d是濾波器的個數(shù)或者 信道維數(shù),利用上述=維矩陣可得出網(wǎng)絡(luò)每一層的神經(jīng)單元個數(shù)。
[0056] 將標(biāo)注好的圖像送至構(gòu)建的神經(jīng)網(wǎng)絡(luò)中,進(jìn)行分類器訓(xùn)練;訓(xùn)練一個可W快速對 輸入圖片進(jìn)行分類的分類器。具體實現(xiàn)方法是:
[0057] 計算神經(jīng)網(wǎng)絡(luò)特征,根據(jù)訓(xùn)練圖片和標(biāo)簽分類器,選取SOfmax函數(shù)作為損失函數(shù), 訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)進(jìn)行分類任務(wù)。
[0058] 對得到的特征在后續(xù)新聞圖片中進(jìn)行測試,網(wǎng)絡(luò)最后一層輸出該圖片屬于某一類 別的概率值,并將概率最大的那一類最為最終類別,至此,圖片分類結(jié)束。
[0059] W上兩大步是針對網(wǎng)絡(luò)新聞的文字部分關(guān)鍵詞提取W及新聞圖片的分類,接著建 立新聞ID。新聞ID示意圖如圖3所示。將建立好ID的新聞放入新聞庫中,如圖4所示。新聞庫 中既包含文字信息也包含圖片信息,當(dāng)需要按文字索取時檢索關(guān)鍵字關(guān)聯(lián)到相應(yīng)的圖片及 對應(yīng)的新聞ID。圖5所示為新聞相似對比系統(tǒng)?;谏疃葘W(xué)習(xí)的圖像分類系統(tǒng)可將同一類相 似新聞圖片分類便于對比。對于某一則未入庫新聞,先需入庫或者尋找類似新聞,首先將待 比較新聞輸入,經(jīng)過本系統(tǒng)中關(guān)鍵字W及圖片提取系統(tǒng),進(jìn)而經(jīng)過基于深度學(xué)習(xí)中的卷積 神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,找出最相似的圖片或者最相近的關(guān)鍵詞,根據(jù)找出的新聞圖片對應(yīng)著 已經(jīng)入庫相應(yīng)的新聞ID,提取出該新聞的關(guān)鍵詞,效果圖則如圖6所示。
[0060] 具體的,首先,用戶輸入需要捜索的相似新聞個數(shù)KW及輸入待對比且未錄入新聞 庫的一則新聞;用戶輸入需要捜索的相似新聞個數(shù)K一般為3-5個。經(jīng)過新聞中的文字基于 中文詞匯鏈提取關(guān)鍵詞、基于深度學(xué)習(xí)算法進(jìn)行圖片分類,建立待對比且未錄入新聞庫的 一則新聞的新聞ID,并入庫;根據(jù)該新聞的圖片,利用基于深度學(xué)習(xí)的圖片分類中的soft- max 函數(shù)輸出 K 個由高到低的函數(shù)值,對應(yīng)與該新聞相似程度由高到低的 K 個新聞 ,輸出 K 個 新聞的新聞ID。最后,對輸出K個新聞的新聞ID進(jìn)行判斷,若為同一類則輸出所述的K個新聞 作為相似新聞,若不是同一類,則重復(fù)步驟(5.2)。
[0061] 所述實施例為本發(fā)明的優(yōu)選的實施方式,但本發(fā)明并不限于上述實施方式,在不 背離本發(fā)明的實質(zhì)內(nèi)容的情況下,本領(lǐng)域技術(shù)人員能夠做出的任何顯而易見的改進(jìn)、替換 或變型均屬于本發(fā)明的保護(hù)范圍。
【主權(quán)項】
1. 一種網(wǎng)絡(luò)新聞概要提取方法,其特征在于,包括以下步驟: (1) 獲取網(wǎng)絡(luò)新聞; (2) 對網(wǎng)絡(luò)新聞中的文字基于中文詞匯鏈提取關(guān)鍵詞; (3) 基于深度學(xué)習(xí)算法進(jìn)行圖片分類; 首先,采集圖像,對獲取的圖像進(jìn)行標(biāo)注,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將標(biāo)注好的圖像送 至構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)中,進(jìn)行訓(xùn)練;輸出新聞分類結(jié)果; (4) 建立新聞ID,新聞入庫; (5) 新聞對比; (5.1) 用戶輸入需要搜索的相似新聞個數(shù)K以及輸入待對比且未錄入新聞庫的一則新 聞; (5.2) 經(jīng)過步驟(2)、(3)、(4),建立待對比且未錄入新聞庫的一則新聞的新聞ID,并入 庫;根據(jù)該新聞的圖片,利用基于深度學(xué)習(xí)的圖片分類中的soft-max函數(shù)輸出K個由高到低 的函數(shù)值,對應(yīng)與該新聞相似程度由高到低的K個新聞,輸出K個新聞的新聞ID; (5.3) 對輸出K個新聞的新聞ID進(jìn)行判斷,若為同一類則輸出所述的K個新聞作為相似 新聞,若不是同一類,則重復(fù)步驟(5.2)。2. 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)新聞概要提取方法,其特征在于,步驟(2)中提取關(guān)鍵詞 的方法包括以下步驟: (2.1) 設(shè)定抽取關(guān)鍵詞個數(shù)k,詞語相似度閾值δ,特征頻率閾值ε (2.2) 預(yù)處理文檔集,包括分詞、詞性標(biāo)注和詞過濾,并對每個詞的特征頻率TF和文檔 頻率DF進(jìn)行統(tǒng)計; (2.3) 選擇文本中預(yù)處理后的詞《1,《2,..,1作為候選詞匯集,并取《1構(gòu)建初始詞匯鏈 L1;對于未被《同義詞詞林》收錄的詞匯,但特征頻率TF大于特征頻率閾值ε詞單獨歸為詞匯 鏈L0; (2.4) 對候選詞匯集的詞《1(1£[2,11])依次進(jìn)行提取,構(gòu)建詞匯鏈1^,依次計算它與 除詞匯鏈Lo之外的詞匯鏈1^(1£[2,11])的語義擴展度^?(? 1,1^),該詞與某詞匯鏈1^ 中所有詞的語義擴展度最大值作為該詞匯鏈的擴展度S(Wl,Lj);然后對每個S( Wl,Lj) 進(jìn)行比較,選取其中的最大值作為該詞與所有詞匯鏈的語義擴展度exp (WllUdP exj?(i4^.,£)= max cxp(u;,L,) - max [ max cxp(\r(,.)] j=l工...+M J /=1,2;....,m 』 式中,為詞匯鏈L沖包含詞匯的個數(shù);m為詞匯鏈的條數(shù)為詞匯鏈L沖第k個詞匯。 詞匯間語義擴展度exp (Wi ,Lj)按式(5)計算,exp (Wi ,Lj)表示詞匯Wi與詞匯鏈Lj的語義擴展 度; (2.5) 將語義擴展度exp(wi,Lj)的最大值和預(yù)設(shè)的詞語相似度閾值δ作比較,如果exp (Wi,Lj)的最大值大于δ,就把詞Wi加入到對應(yīng)的詞匯鏈Lj中;如果語義擴展度exp (Wi,Lj)最 大值小于S,就創(chuàng)建一個新詞匯鏈,并把詞^加入到該新建的詞匯鏈中; (2.6) 對全部候選詞匯依次進(jìn)行計算,重復(fù)步驟(2.4)到步驟(2.6),直到全部詞匯計算 完畢。3. 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)新聞概要提取方法,其特征在于,步驟(3)中構(gòu)建卷積網(wǎng) 絡(luò)結(jié)構(gòu)是使用227x227像素的輸入圖片大小,共5層卷積層,每批次訓(xùn)練圖片個數(shù)為256,測 試圖片個數(shù)為256;網(wǎng)絡(luò)的每一層是一個大小為wXhXd的三維矩陣,其中h和w代表圖像的 高度和寬度,d是濾波器的個數(shù)或者信道維數(shù),利用上述三維矩陣可得出網(wǎng)絡(luò)每一層的神經(jīng) 單元個數(shù)。4. 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)新聞概要提取方法,其特征在于,步驟(3)中卷積神經(jīng)網(wǎng) 絡(luò)的訓(xùn)練按如下步驟實現(xiàn): (3.1) 計算卷積神經(jīng)網(wǎng)絡(luò)特征,根據(jù)訓(xùn)練圖片和標(biāo)簽分類器,選取sofmax函數(shù)作為損失 函數(shù),訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類任務(wù); (3.2) 對(3.1)中得到的特征在后續(xù)新聞圖片中進(jìn)行測試,卷積神經(jīng)網(wǎng)絡(luò)最后一層輸出 該圖片屬于某一類別的概率值,并將概率最大的那一類最為最終類別,至此,圖片分類結(jié) 束。5. 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)新聞概要提取方法,其特征在于,步驟(5)中用戶輸入需 要搜索的相似新聞個數(shù)K為3-5個。
【文檔編號】G06F17/30GK106021442SQ201610323611
【公開日】2016年10月12日
【申請日】2016年5月16日
【發(fā)明人】梁軍, 張飛云, 陳龍, 馬世典, 蔡英鳳, 劉擎超, 陳小波, 周衛(wèi)琪, 袁朝春, 景鵬
【申請人】江蘇大學(xué)