利用文檔聚類的多文檔概括的制作方法

文檔序號：6578865閱讀：205來源：國知局

專利名稱：：利用文檔聚類的多文檔概括的制作方法利用文檔聚類的多文檔概括本申請要求于2008年5月28日提交的臨時申請序號61/056,595的優(yōu)先權，其內容結合于此以供參考。
技術領域：
本申請涉及用于生成多文檔概要(summaiy)的系統(tǒng)和方法。技術背景多文檔概括(multi-documentsummarization)^il過在保持原始文檔主要特征的同時減少文檔大小以產生一般或集中于主題的概要的過程。由于導致數(shù)據(jù)超載(overload)問題的一個原因是許多文檔共享相同或相似的主題，所以近年來自動多文檔概括獲得了很大關注?；ミB網(wǎng)上文檔爆炸式的增加已促進了對概括應用的需求。例如，WEB搜索中提供信息片段(informativesnippet)的生成能夠幫助用戶進一步探索片段，以及在問/答系統(tǒng)中，經常需要基于問題的概要來提供問題中所提問的信息。另一個例子是在新聞服務中用于新聞組的短概要，其能夠促進用戶更好地理解新聞組中的新聞文章。文檔概括可以是一般的或者是查詢相關的。一般的多文檔概括應當反映文檔的一般內容而沒有任何額外信息。查詢相關的多文檔概括應當集中于給定査詢中所表示的信息上，即概要必須側重于給定査詢。所述系統(tǒng)能夠處理一般的和查詢相關的多文檔概括。多文檔概括的主要問題如下首先，包含在不同文檔中的信息經常彼此交迭，因此在識別并刪除冗余時必須找到一種有效的方式對文檔進行融合。另一個問題在于，識別文檔之間重要的區(qū)別并覆蓋盡可能多的問題的信息內容。目前的多文檔概括方法通常集中在詞i敔巨陣(termmatrix)的句子上，或者對其執(zhí)行矩陣因子分解或者對其進行句子相似性分析，并且將句子分組形成聚類(duster)。接著，可通過從每個句子聚類中提取代表性句子建立概要?，F(xiàn)有這些方法的問題在于它們忽視/句子的上下文關聯(lián)，并且在句子形成聚類和提取期間認為它們是彼此獨立的。然而，同一文檔或同文檔聚類中的句子的確存在相互的影響，這種影響能夠被用作附加知識以幫助概括。因此，給定文檔的集合，通過文檔聚類發(fā)現(xiàn)文檔中隱藏的主題能夠在概括期間有助于句子上下文的分析。表l示出了一個簡單的示例，用于證明^A在文檔聚類中的隱藏主題的有用性。合成的數(shù)據(jù)集包含四篇非常短的文章，其中每篇僅包含兩個句子(共8個句子)。任務是為這些文章生成兩個句子的一般概要。<table>tableseeoriginaldocumentpage5</column></row><table>在表l示意性示例中，D,表示第/個文檔，并且s是第乂個句子。直接考慮數(shù)據(jù)，A和D/談論蘋果產品的良好設計，而D3和Dj步及高的價格。高質量的概要應該包括蘋果產品的上述兩個特鄰:。然而，如果僅基于句子的相似性將這八個句子聚類成兩組，則&、&、&和&相同并且應該被分在個聚類中。并且其余句子為討論蘋果的產品的另一組。如果概要被限制為兩個句子的長度，則所述概要僅能覆蓋蘋果產品的一個特征，或者是良好的設計，或者是高的價格。因此該概要并不全面。
發(fā)明內容在一個方面，公開了系統(tǒng)和方法，所述系統(tǒng)和方法用于通過生成作為文檔聚類混合體(mixture)的文檔模型概括多文檔，每個文檔又具有句子混合體，其中所述模型同時表示概括信息和文檔聚類結構；并且確定用于評估模型和優(yōu)化模型的損失函數(shù)。在另一方面，一種用于概括文檔的方法包括接收用于文檔的文檔語言模型;從文檔中提取候選句子，并且接收用于每個候選句子的句子語言模型；根據(jù)所括二者的多文檔概括系統(tǒng)是基于語言模型的，其肯,同時聚類和概括多個文檔。該模型將聚婁概括問題轉換為對給定文檔和模型重構詞語之間的Kullback-Leibler散度(diveiBence)進行最小化。最小f^ii禾驢生^^合定聚類(隱含主題)下句子的概率(probabilityofsentencesgivenclusters(hiddentopics))的矩陣。iM^h聚類中具有高概率的句子形要。所述模型顯示出與文檔聚類的隱含主題相關的附加知識能夠影響/幫助句子的聚類和提取。tte實施例的優(yōu)點可能包括以下中的一個或多個系統(tǒng)在將文檔聚類為給定大小的目標性(tainted)概括的同時概括多個文檔。系統(tǒng)按照針對廣泛使用的DUC文檔和ROUGE度量的評估，aa使用簡單的詞袋(bag力f-word)特征產生更高質量的概要。該系統(tǒng)也具有如下效果通過估計參數(shù)來獲得給定聚類下句子的概率，其就選^ti要句子的評分(score)。圖1示出了示例性多文檔概括系統(tǒng)的框架結構。圖2示出了用于概括多個文檔的示例性過程。圖3提供了用來學習模型參數(shù)的詳細框圖。具體實施方式圖1示出了示例性多文檔概括系統(tǒng)的框架結構。首先，接收多個文檔(io)。通過去除格式化字符和無用詞(stoppingword)對文檔進行預處理(20)。然后，使用一元語言模型(unigramlanguagemodel)^il過詞語獲得文檔并且M31詞語矩陣獲得句子。如果任務是查詢相關的概括，則通過詞語矩陣所獲得的句子將被投影到子空間，其中每個候選句子與該查詢相關。之后，給定兩個矩陣，系統(tǒng)針對該文檔執(zhí)行非負因子分解(nonnegativefactorization),并且同時將文檔和句子聚類為隱含主題(30)。采用主題中具有高概率的句子形成概括(40)。圖2示出了用于概括多個文檔的示例性過程。在圖IB中，在框101中提供許多文檔作為輸入。在框102中，該過程獲得用于每^t入文檔的語言模型。在一個實施例中，^f寺征表示文檔中特定單詞(詞語)出現(xiàn)的數(shù)量。文檔的特征形戯巨陣，用A表示。A的大小是該特征的數(shù)量乘以文檔的數(shù)量。A中的每一列表示一個文檔，A中的每一行表示一個待征(或一元語言模型中的詞語)。A中的每一個條目表示給定文檔中特定詞語出現(xiàn)的數(shù)量。與框102平行，該過程在框103中從文檔中提取句子。該文檔被拆分成句子。僅j爐用于概要的那些句子l雌作fl魏句子。接下來，在框104中，該過程獲取用于在框102中所識別出的齡{1魏句子的語言模型。該語言，魏可以與一元語言模型(也就是詞袋特征)一樣簡單，其中每個特征表示句子中特定單詞(詞語)出現(xiàn)的數(shù)量。該特征集與用于框102中的文檔的特征集相同。句子的特征形戯臥車，用B表示。B的大小是特征的數(shù)量乘以候選句子的數(shù)量。B中的每一列表示一個句子，B中的每一行表示一個特征(或一元語言模型中的詞語)。B中的每一個條目表示給定句子中特定詞語出現(xiàn)的比例?？?05中，該過禾雖左用X寸來自A和B的模型參數(shù)的學習(leaming)。該框在圖3中詳細描述。在框106中，為在每個聚類(框206中的U)中具有高概率的句子形成概要。在框107中，生》劃既要作為輸出。圖3更詳細地示出了框105。在框201中，該過程接收來自102的文檔語言模型A和來自104的句子語言模型B作為輸入。在框202中，對模型BUV7，進行制定(formulate),其中U是句子聚類矩陣而V是文檔聚類矩陣。矩陣U的大小是候選句子的數(shù)量乘以聚類的數(shù)量。U的條目是非負的。U中的每一列的和(sum)是1。矩陣U中的每個條目代表給定聚類下句子的概率。矩陣V的大小是文檔數(shù)量乘以聚類的數(shù)量。V的條目是非負的。V中的每一行的和是1。矩陣V中的每個條冃代表給定文檔下聚類的概率。因此，模型BUV『中的每一列為具有參數(shù)U和V的模型生成的對應文檔的特征。損失(loss)A和BUV7'之間可以是Kullback-Leibler散度，或Frobenius矩陣范數(shù)。在框203中，該過程更新U以減少損失，并且在框204中，該過程更新V以減少損失，以下將更加詳細地討論。在框205，該過程重復框203和204直到損失收斂(convene)到預定水平。在框206中，該過程返回參數(shù)矩陣U和V作為輸出。如下所述為用于圖3的流程圖的示意性偽代碼算法1給定基(Base)情況下的非負因子分解7AlgorUhm1No,egativeFactork誠i進withgivenBasInput:A:documentsbywordsmatrix,13:woi'dsbysen^ncesmatrix;Output:U:訓t^ce-topie腿lxix;V:docu騰nMopkmatrix,beginLInitiaHzatioii:InitklizeUandVfolbwDirieWetdistritario踐，withhypei'-jpanuinietero^/andf^sj^ctiveiy,2JCo.rnpjte=A4j/[B'U'VTij;■2,2AssignTJ"一BTCJ\L丄"andno隱alkeeachcohimnto1;2:3Compute=A。/[BUVT]^+ox"andn()r腦lizeeachrowtol''im川convergenceend而口接下來將詳細討論語言模型和算法。在上述算法中，對于詞語的生成過程weW，給定文檔c/GD，該操作包括*衫隨主題，ZET，符合多項式分布p(糾，*Mi^句子，ses，符令多項式分布p(刺，*扭隨詞語，weW，符合多項式分布p(wl力。此處，文檔、主題、句子和詞語形成元組，("Uw)。該過程使用用于^vvk)的所觀察句子的經驗分布，并且使得Bw,外小)。該模型參數(shù)是(U,V)，其屮u、,齡)，(i)VCI力.(2)對于U和V的先驗分布(priordistribution)而言，按多項式分布的共軛先驗(conjugatepriorofmultinomialdistribution)獲得Dirichl改分布。U.fDir(《)，(3)v一ir(《).(4)信息上(informatively),偽實例(pseudoinstance)的總數(shù)是a，并且它們均勻分布在所有可能的元組上。由于《,和《，分別被看作具有("A')值和("，"值的偽元組的數(shù)量—:a/(|S|x|r|),(5)《=a/(|Z)|x|r|).(6)參數(shù)估計是N個所觀察文檔的MAP估計(或最大似然估計)，順w，力。任務是(7>u,v=argmin其中f(U'V)=KL(A||BUVT)—lnPr(U.V)。;于表1所給示例，使用上述算法過程，輸入矩陣表示如下:對于表2AT=2211111110111111011111000011110000000000、1I0000000110001111以及0.200.250.200.170.200.330.200.200.200.200.200.200.200.200.200.200.200.200.200.200.200.200.200.20、0.250.250.250.170.170.170.170.170.330.330.200,200.200.209該過程對U和V進行隨機初始化并相M它們進行歸一化(normalize)(在收斂(convergence)和歸一tt^后<formula>formulaseeoriginaldocumentpage10</formula>根據(jù)U和V，A和A屬于一個聚類而A和A屬于另一組。并且&和&是被選中用于形^1要的兩^U子。結果與人的感知一致。±^系纟過{柳文檔聚^(寸多個文檔進行概括。該系統(tǒng)l頓生成文檔作為聚類混合體的模型，該混合體又是文檔中句子的混合體。通過估計參數(shù)，該系統(tǒng)得出給定聚類下句子的概率，其給出了對選擇概要句子的評分。實驗數(shù)據(jù)說明該系統(tǒng)優(yōu)于其他方法。圖3的模型同時代表概括和聚類，并且相應的損失函數(shù)(lossflmction)用于評估該模型。該方法將概括和聚類問題轉換為對給定文檔和模型重構詞語之間的特定損失進行最小化。這樣的損失包括Kullback-Leibler散度、Frobenius矩陣范數(shù)。該最小化過程產生表示纟合定聚類下句子的概率的矩陣。采用每個聚類中具有高概率的那些句子形成概要。給定文檔下詞語的生成處理的模型可以表示如下參給定文檔，扭隨符合多項式分布的聚類，*給定聚類，衫隨符合多項式分布的句子，給定句子，衫隨符合多項式分布的詞語。本發(fā)明可以以硬件、固件或軟件或者三者的結^在可編程的計算機上執(zhí)行的計算機程序來實現(xiàn)，該計儲系統(tǒng)、易失件和非易失性存儲器和/或存儲元件、辛-個輸出設備。根據(jù)小例，接下來討論支持該系統(tǒng)的計割L框圖。W腿地，該計算機包括現(xiàn)。tt^地，本發(fā)明以里器、數(shù)據(jù)存-^^入設備以及至少由CPU總線耦合的處理器、隨機訪問存儲器(RAM)、禾號存儲器(,為可寫的只讀存儲器(ROM)，如閃存ROM)和輸A/輸出(I/O)控制器。該計算機可任淑也包括硬盤控制器，其與石鵬和CPU總線耦合。硬盤可以被用來存儲應用禾號，如本發(fā)明和數(shù)據(jù)。可選地，應用禾驕可以保存在RAM或ROM上。I/O控制器借助于I/O總線耦合到I/O接口。I/O接口在通信鏈路上接收和錢模擬或數(shù)字形式的數(shù)據(jù)，該通信鏈路例如串行鏈路、局域網(wǎng)、無線鏈路以及并行鏈路。可選的，顯示器、,和指示設備(鼠標)也被連接到i/o總線?？商娲?，也可將^^蟲連接(^^蟲總線)用于I/0接口、顯示器、鵬和指示設備。可通過從另一個源(如軟盤、CD-ROM或另一臺計飾下載辦而對可編程處理系統(tǒng)預編程或被編程(以及預編程)。每個計算機程序被明確地保存在機器可讀存儲介質上或通過通用或專用的可編程計算機可讀取的設備(如程序存儲器或磁盤)上，當存儲介質或設備被計算機讀取以執(zhí)行其中所描述的程序時，該計算機程序用于配置和控制計算機的操作。本發(fā)明的系統(tǒng)也可以考慮包含在計算機可讀存儲介質中，其配置有計算機超芊，其中這樣配置的存儲介質使得計算機以特定的、預定義方式操作以執(zhí)行在此描述的功能。此處已對本發(fā)明進行了詳細描述，以便符合專利法并且為本領域技術人員提供了應用該新的原理以及構造和使用該專門部件所需的信息。然而，應當理解本發(fā)明能夠通過特定地不同設備和裝置來實施，并且關于設備細節(jié)和操作過程的各種修改能在不背離本發(fā)明自身范圍的情況下被實現(xiàn)。雖然以上己經結合附圖詳細描述了本發(fā)明的特定實施例，但應當理解本發(fā)明并不局限于所示出的特定實施例，而是能夠進行大量的重新配置、修改和替代而不背離本發(fā)明的范圍。所附權利要求意在包含所有這些修改。權利要求1.一種用于概括文檔的方法，包括a.生成作為文檔聚類混合體的文檔模型，每個文檔又具有句子的混合體，其中所述模型同時表示概括信息和文檔聚類結構；以及b.確定損失函數(shù)，用于評估所述模型和優(yōu)化所述模型。2.如權利要求1所述的方法，包括接收用于文檔的文檔語言模型。3.如權利要求2戶脫的方法，其中文檔語言模型包括一元語言模型。4.如權利要求1戶，的方法，包括從文檔中提取fl魏句子，并且接收用于每個候選句子的句子語言模型。5.如權利要求4所述的方法，其中句子語言模型包括一元語言模型。6.如權利要求1所述的方法，包括根據(jù)文檔語言模型和句子語言模型確定模型參數(shù)。7.如權利要求1所述的方法，包括基于戶腿模型為所述文檔生成概要。8.如權利要求1所述的方法，包括生;^^f述文檔或戶;M句子的特征矩陣。9.如權禾腰求10M的方法，包括生/^莫型BUV、其中U是句子聚類矩陣并且V是文檔聚類矩陣。10.如權利要求9所述的方法，其中模型BUV'中的每一列包括由具有參數(shù)U和V的所述模Mi^生成的相應文檔的特征。11.如權利要求9所述的方法，包括制定模型BUV『以對文檔語言模型進微似。12.如權利要求l戶脫的方法，其中損失函數(shù)包括Kullback-Leibler散度函數(shù)或Frobenius矢巨陣范數(shù)。13.如權禾腰求l戶腿的方法，包括最小化所述損失函數(shù)。14.一種用于概括文檔的方法，包括a.接收用于文檔的文檔語言模型；b.從所述文檔中提取候選句子并且接收用于每個候選句子的句子語言模型；c.根據(jù)文檔語言模型和句子語言模型確定模型參數(shù)；以及d.為戶皿文檔生淑既要。15.如權利要求14所述的方法，其中文檔或句子語言模型包括一元語言模型。16.如權利要求15戶脫的方法，包括生j^腿文檔的特征矩陣。17.如權禾腰求15戶腿的方法，包括生^^M句子的特征矩陣。18.如權利要求14所述的方法，包括生成模型BUV、其中U是句子聚類矩陣并且V是文檔聚類矩陣。19.如權利要求18所述的方法，其中模型BUV^中的每一列包括由具有參數(shù)U和V的所述模型生成的相應文檔的特征。20.如權利要求18所述的方法，包括制定模型BUV^以對文檔語言1tM進，測以。21.如權利要求14所述的方法，包括確定損失函數(shù)。全文摘要本發(fā)明涉及利用文檔聚類的多文檔概括。用于通過產生作為文檔聚類的混合體的文檔模型概括多文檔的系統(tǒng)和方法，每個文檔又具有句子混合體，其中所述模型同時表示概括信息和文檔聚類結構；以及確定損失函數(shù)，用于評估所述模型和優(yōu)化所述模型。文檔編號G06F17/27GK101676897SQ200910149778公開日2010年3月24日申請日期2009年5月27日優(yōu)先權日2008年5月28日發(fā)明者D·王,S·朱,Y·赤,Y·龔申請人:美國日本電氣實驗室公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：Ｓ.朱;Ｄ.王;Ｙ.赤;Ｙ.龔
技術所有人：美國日本電氣實驗室公司
我是此專利的發(fā)明人

上一篇：在主顯示器內提供安全顯示窗口的方法和設備的制作方法
上一篇：用于處理高維數(shù)據(jù)的系統(tǒng)和方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

利用spss進行聚類分析相關技術

各種聚類算法的比較相關技術

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

利用文檔聚類的多文檔概括的制作方法