基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種基于編碼?解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成系統(tǒng)及方法,系統(tǒng)包括:互聯(lián)網(wǎng)文本獲取模塊,用于獲取互聯(lián)網(wǎng)上的文本信息;數(shù)據(jù)預(yù)處理模塊,用于對所述文本信息進行預(yù)處理;摘要模型訓(xùn)練模塊,用于對進行預(yù)處理后的文本信息抽取定量文本信息根據(jù)編碼?解碼深度神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,得到摘要訓(xùn)練模型;摘要生成模塊,用于根據(jù)所述編碼?解碼深度神經(jīng)網(wǎng)絡(luò)模型對預(yù)處理后的文本信息作于出入,輸出預(yù)設(shè)長度的摘要信息。本發(fā)明具有如下優(yōu)點:利用計算機自動分析并提取或生成文本所表述的中心內(nèi)容,將文本信息壓縮為一個簡介連貫的摘要文本,方便用戶了解文本內(nèi)容,從而快速閱讀和選擇感興趣的信息;摘要能壓縮文本,減少用戶的瀏覽負擔。
【專利說明】
基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成系統(tǒng)及方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及計算機應(yīng)用技術(shù)與文本挖掘領(lǐng)域,具體涉及一種基于編碼-解碼深度 神經(jīng)網(wǎng)絡(luò)的文本摘要生成系統(tǒng)及方法。
【背景技術(shù)】
[0002] 目前計算機技術(shù)正以前所未有的速度飛速發(fā)展,尤其隨著互聯(lián)網(wǎng)技術(shù)的成熟和普 及,計算機網(wǎng)絡(luò)深刻改變著人們的生活。同時,一些問題也隨之產(chǎn)生,特別是網(wǎng)絡(luò)資源呈現(xiàn) 出爆炸式增長,給信息獲取帶來了極大的困擾。
[0003] 我們正處于一個"信息爆炸"的時代。一方面,互聯(lián)網(wǎng)存儲的海量信息遠遠超出人 們想象;另一方面,面對信息的汪洋大海,人們往往感到束手無策,導(dǎo)致"信息過載"現(xiàn)象。于 是,一個極富挑戰(zhàn)而又充滿實際意義的技術(shù):如何幫助人們快速有效地選擇和利用感興趣 的信息,即信息處理技術(shù),成為學(xué)術(shù)界和工業(yè)界所關(guān)注的焦點。近年來,網(wǎng)絡(luò)文本的日益增 加,包括新聞、電子雜志、電子郵件、博客、微博等,如此眾多的信息,僅僅依靠人工來收集和 整理顯然是不現(xiàn)實的。所以如何自動收集和整理所需要的各類信息成為了信息處理領(lǐng)域面 臨的新挑戰(zhàn)。
[0004] 傳統(tǒng)的網(wǎng)絡(luò)服務(wù)為上網(wǎng)用戶提供了一種基于目錄的瀏覽方式,但是隨著網(wǎng)絡(luò)的擴 張,網(wǎng)絡(luò)的組織形式也千變?nèi)f化,從早期的BBS到新聞?wù)军c,從論壇到博客,不同的網(wǎng)站呈現(xiàn) 方式、不同的信息發(fā)布渠道,使得普通用戶很難在短時間內(nèi)獲取到所需要的信息。
[0005] 后來出現(xiàn)的搜索引擎技術(shù),改變了傳統(tǒng)網(wǎng)絡(luò)提供的瀏覽模式,引入了搜索手段來 幫助用戶獲取信息。搜索引擎根據(jù)特定的算法通過程序從互聯(lián)網(wǎng)上搜集信息,在對其進行 存儲和處理后,為用戶提供即時的結(jié)果展現(xiàn)服務(wù)。搜索引擎技術(shù)比傳統(tǒng)網(wǎng)絡(luò)服務(wù)更容易獲 取有效信息,是當前最常見的信息獲取工具,但是由于搜索引擎大多是基于全網(wǎng)絡(luò)的搜索, 用戶仍然無法及時獲取單一文本內(nèi)的信息。
[0006] 面對日益增長的互聯(lián)網(wǎng)文本信息,人們無法通過一一閱讀來了解信息。如何能夠 信息進行壓縮,從而幫助人們快速閱讀并選擇感興趣的信息成為一個亟待解決的問題。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明旨在至少解決上述技術(shù)問題之一。
[0008] 為此,本發(fā)明的一個目的在于提出一種基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要 生成系統(tǒng)。
[0009] 為了實現(xiàn)上述目的,本發(fā)明的實施例公開了一種基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的 文本摘要生成系統(tǒng),包括:互聯(lián)網(wǎng)文本獲取模塊,用于獲取互聯(lián)網(wǎng)上的文本信息;數(shù)據(jù)預(yù)處 理模塊,用于對所述文本信息進行預(yù)處理;摘要模型訓(xùn)練模塊,用于對進行預(yù)處理后的文本 信息抽取定量文本信息根據(jù)編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,得到摘要訓(xùn)練模型;摘 要生成模塊,用于根據(jù)所述編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型對預(yù)處理后的文本信息作于出入, 輸出預(yù)設(shè)長度的摘要信息;其中,所述編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型包括:編碼模型,用于對 輸入序列X進行向量化,得到固定長度的隱含狀態(tài)h,其中,入序列X= (X1,X2, ???,XT),ht = f (Xt,1^),f()是非線性激活函數(shù),t為時間狀態(tài);解碼模型,用于對所述固定長度的向量進 行解碼,得到整個模型輸出。
[0010] 根據(jù)本發(fā)明實施例的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成系統(tǒng),利用計 算機自動分析并提取或生成文本所表述的中心內(nèi)容,將文本信息壓縮為一個簡介連貫的摘 要文本,人們可以通過閱讀摘要來了解文本內(nèi)容,從而快速閱讀和選擇感興趣的信息;摘要 不僅能壓縮文本,減少用戶的瀏覽負擔,又可以為其他文本處理技術(shù)提供支持。
[0011] 另外,根據(jù)本發(fā)明上述實施例的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成系 統(tǒng),還可以具有如下附加的技術(shù)特征:
[0012] 進一步地,所述編碼模型進一步根據(jù)第一循環(huán)神經(jīng)網(wǎng)絡(luò)和第二循環(huán)神經(jīng)網(wǎng)絡(luò)分別 以兩個互為相反的方向?qū)σ粋€句子進行編碼得到第一隱含狀態(tài)hi和第二隱含狀態(tài)h2,所述 將編碼模型還用于將所述第一隱含狀態(tài)hi和所述第二隱含狀態(tài)h2進行拼接作為所述隱含 狀態(tài)h。
[0013] 進一步地,所述數(shù)據(jù)預(yù)處理模塊對所述文本信息進行預(yù)處理包括對所述文本信息 進行分詞處理、去除低詞頻詞語和停用詞中的一種或多種。
[0014] 進一步地,所述f()為邏輯斯蒂函數(shù)或長短期記憶單元。
[0015] 為了實現(xiàn)上述目的,本發(fā)明的實施例公開了一種基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的 文本摘要生成方法,包括以下步驟:S1:獲取互聯(lián)網(wǎng)上的文本信息;S2:對所述文本信息進行 預(yù)處理;S3:對進行預(yù)處理后的文本信息抽取定量文本信息根據(jù)編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模 型進行訓(xùn)練,得到摘要訓(xùn)練模型;S4:根據(jù)所述編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型對預(yù)處理后的 文本信息作于輸入,輸出預(yù)設(shè)長度的摘要信息;其中,所述編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型包 括:編碼模型,用于對輸入序列x進行向量化,得到固定長度的隱含狀態(tài)h,其中,輸入序列x = (X1,X2,H_,XT),ht = f(Xt,ht-l),f 0是非線性激活函數(shù),t為時間狀態(tài);解碼模型,用于對所 述固定長度的向量進行解碼,得到整個模型輸出。
[0016] 根據(jù)本發(fā)明實施例的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成方法,利用計 算機自動分析并提取或生成文本所表述的中心內(nèi)容,將文本信息壓縮為一個簡介連貫的摘 要文本,人們可以通過閱讀摘要來了解文本內(nèi)容,從而快速閱讀和選擇感興趣的信息;摘要 不僅能壓縮文本,減少用戶的瀏覽負擔,又可以為其他文本處理技術(shù)提供支持。
[0017] 另外,根據(jù)本發(fā)明上述實施例的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成方 法,還可以具有如下附加的技術(shù)特征:
[0018] 進一步地,所述編碼模型進一步根據(jù)第一循環(huán)神經(jīng)網(wǎng)絡(luò)和第二循環(huán)神經(jīng)網(wǎng)絡(luò)分別 以兩個互為相反的方向?qū)σ粋€句子進行編碼得到第一隱含狀態(tài)hi和第二隱含狀態(tài)h2,所述 將編碼模型還用于將所述第一隱含狀態(tài)hi和所述第二隱含狀態(tài)h2進行拼接作為所述隱含 狀態(tài)h。
[0019] 進一步地,在步驟S2中,所述對所述文本信息進行預(yù)處理進一步包括對所述文本 信息進行分詞處理、去除低詞頻詞語和停用詞中的一種或多種。
[0020] 進一步地,所述f()為邏輯斯蒂函數(shù)或長短期記憶單元。
[0021] 本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0022] 本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得 明顯和容易理解,其中:
[0023] 圖1是本發(fā)明一個實施例的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成系統(tǒng)的 結(jié)構(gòu)示意圖;
[0024] 圖2是本發(fā)明一個實施例的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)文本摘要生成 方法的流程圖。
【具體實施方式】
[0025] 下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0026] 參照下面的描述和附圖,將清楚本發(fā)明的實施例的這些和其他方面。在這些描述 和附圖中,具體公開了本發(fā)明的實施例中的一些特定實施方式,來表示實施本發(fā)明的實施 例的原理的一些方式,但是應(yīng)當理解,本發(fā)明的實施例的范圍不受此限制。相反,本發(fā)明的 實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0027] 以下結(jié)合附圖描述根據(jù)本發(fā)明實施例的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要 生成系統(tǒng)。
[0028] 請參考圖1,一種基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)文本摘要生成系統(tǒng),包括 互聯(lián)網(wǎng)文本獲取模塊101、數(shù)據(jù)預(yù)處理模塊102、摘要模型訓(xùn)練模塊103、摘要生成模塊104。 [0029]其中,互聯(lián)網(wǎng)文本獲取模塊101用于獲取互聯(lián)網(wǎng)上的文本信息。
[0030]具體地,互聯(lián)網(wǎng)文本獲取模塊101利用爬蟲技術(shù)獲取互聯(lián)網(wǎng)上的文本信息。這里文 本信息主要指的是各類新聞內(nèi)容。本模塊利用Python語言撰寫爬蟲程序,對門戶網(wǎng)站的新 聞進行爬取并儲存到后臺MongoDB數(shù)據(jù)庫中。本模塊涉及到的新聞內(nèi)容均是中文文本信息。 [0031]數(shù)據(jù)預(yù)處理模塊102用于對所述文本信息進行預(yù)處理。
[0032] 具體地,數(shù)據(jù)預(yù)處理模塊102第一步抽取文本內(nèi)容。由于爬蟲獲取的是原始數(shù)據(jù), 其中含有大量對文本摘要無關(guān)的雜亂信息,比如html標簽、URL、圖片等,將這些無關(guān)內(nèi)容清 除。然后對清理后的文本內(nèi)容做中文分詞處理。進一步對分詞后的詞語計算詞頻,將大量的 低頻詞語去掉,并且針對特定領(lǐng)域的新聞內(nèi)容采用不同的停用詞表去除各類停用詞。神經(jīng) 網(wǎng)絡(luò)的輸入格式是低維度的向量格式,在本發(fā)明的實施例中利用W 〇rd2VeC工具得到每個詞 的向量表示。
[0033] 摘要模型訓(xùn)練模塊103用于對進行預(yù)處理后的文本信息抽取定量文本信息根據(jù)編 碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,得到摘要訓(xùn)練模型。
[0034] 具體地,基于編碼-解碼的深度神經(jīng)網(wǎng)絡(luò)模型是監(jiān)督學(xué)習(xí)模型,本發(fā)明的實施例從 爬取的新聞中抽取出定量的新聞文本利用人工進行摘要生成。
[0035] 解碼模型用于對所述固定長度的向量進行解碼,得到整個模型輸出。
[0036] 編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型,是由兩個神經(jīng)網(wǎng)絡(luò)模型組成。一般地,編碼模型和 解碼模型都是循環(huán)神經(jīng)網(wǎng)絡(luò)模型。
[0037]編碼模型作用是對輸入序列進行向量化,得到固定長度的輸出向量,解碼模型對 此固定長度的向量進行解碼,得到整個模型輸出。編碼模型將輸入序列x編碼為一個固定長 度的隱含狀態(tài)h。
[0038] x=(X1,X2,…,XT)是輸入序列,比如編碼為數(shù)字的一系列詞語,整個序列就是句 子。htifUt,!^)是隨著時間更新的隱含狀態(tài)。當新的詞語輸入到方程中,之前的狀態(tài)hH 就轉(zhuǎn)換為和當前輸入相關(guān)的向量,距離當前時間越長,越早輸入的序列,在更新后的狀態(tài)中 所占權(quán)重越小,從而表現(xiàn)出時間上的相關(guān)性。而有了隱含狀態(tài)序列,就可以對下一個出現(xiàn)的 詞語進行預(yù)測。
[0039] 其中,f是非線性激活函數(shù),既可以是簡單的邏輯斯蒂函數(shù),也可能是復(fù)雜的長短 期記憶單元。循環(huán)神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練可以通過隨時間進行反向傳播算法。假設(shè)神經(jīng)網(wǎng)絡(luò) 在每個時刻t都有一個監(jiān)督信息,損失為J t。則整個序列的損失為J=^f=:jt。
[0040] 每一個神經(jīng)元在預(yù)測下一個輸出單元時都能夠得到一個概率分布:
[0042]編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型是一種監(jiān)督模型,利用數(shù)據(jù)預(yù)處理模塊得到的訓(xùn)練 集數(shù)據(jù),對編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,由于深度神經(jīng)網(wǎng)絡(luò)的參數(shù)眾多,導(dǎo)致訓(xùn) 練時間長,本發(fā)明實施例采用基于GHJ的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式最終得到訓(xùn)練好的模型。
[0043] 在本發(fā)明的一個實施例中,編碼模型進一步根據(jù)第一循環(huán)神經(jīng)網(wǎng)絡(luò)和第二循環(huán)神 經(jīng)網(wǎng)絡(luò)分別以兩個互為相反的方向?qū)σ粋€句子進行編碼得到第一隱含狀態(tài)hi和第二隱含 狀態(tài)h2,所述將編碼模型還用于將所述第一隱含狀態(tài)hi和所述第二隱含狀態(tài)h2進行拼接作 為所述隱含狀態(tài)h。
[0044] 具體地,解碼器的作用是將隱含向量解碼為人類可識別的信息。在解碼過程中,h 隱含狀態(tài)因為是解碼器的參數(shù),所以為了發(fā)揮時間序列的特性,需要對h進行迭代。
[0045] 用兩個循環(huán)神經(jīng)網(wǎng)絡(luò)雙向讀取一個序列可以使人工智能獲得注意力。簡單的做法 是將一個句子分別從兩個方向編碼為兩個隱含狀態(tài),然后將兩個h拼接在一起作為隱含狀 態(tài)。這種方法能夠提高模型表現(xiàn)的原因之一是因為不同方向的讀取在輸入和輸出之間創(chuàng)造 了更多短期依賴關(guān)系,從而被循環(huán)神經(jīng)網(wǎng)絡(luò)捕捉。
[0046] 以下結(jié)合附圖描述根據(jù)本發(fā)明實施例的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)文 本摘要生成方法。
[0047] 請參考圖2,一種基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)文本摘要生成方法,包括 以下步驟:
[0048] S1:獲取互聯(lián)網(wǎng)上的文本信息。
[0049] 具體地,利用爬蟲技術(shù)獲取互聯(lián)網(wǎng)上的文本信息。這里文本信息主要指的是各類 新聞內(nèi)容。本實施例利用Python語言撰寫爬蟲程序,對門戶網(wǎng)站的新聞進行爬取并儲存到 后臺MongoDB數(shù)據(jù)庫中。本實施例涉及到的新聞內(nèi)容均是中文文本信息。
[0050] S2:對所述文本信息進行預(yù)處理。
[0051 ]具體地,第一步抽取文本內(nèi)容。由于爬蟲獲取的是原始數(shù)據(jù),其中含有大量對文本 摘要無關(guān)的雜亂信息,比如html標簽、URL、圖片等,將這些無關(guān)內(nèi)容清除。然后對清理后的 文本內(nèi)容做中文分詞處理。進一步對分詞后的詞語計算詞頻,將大量的低頻詞語去掉,并且 針對特定領(lǐng)域的新聞內(nèi)容采用不同的停用詞表去除各類停用詞。神經(jīng)網(wǎng)絡(luò)的輸入格式是低 維度的向量格式,在本發(fā)明的實施例中利用W〇rd2Vec工具得到每個詞的向量表示。
[0052] S3:對進行預(yù)處理后的文本信息抽取定量文本信息根據(jù)編碼-解碼深度神經(jīng)網(wǎng)絡(luò) 模型進行訓(xùn)練,得到摘要訓(xùn)練模型。其中,所述編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型包括:編碼模 型,用于對輸入序列x進行向量化,得到固定長度的隱含狀態(tài)h,其中,輸入序列X=(X1, X2,…,燈),匕=汽^1^1)彳()是非線性激活函數(shù)3為時間狀態(tài);解碼模型,用于對所述固 定長度的向量進行解碼,得到整個模型輸出。
[0053] 具體地,編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型,是由兩個神經(jīng)網(wǎng)絡(luò)模型組成。一般地,編碼 模型和解碼模型都是循環(huán)神經(jīng)網(wǎng)絡(luò)模型。
[0054] 編碼模型作用是對輸入序列進行向量化,得到固定長度的輸出向量,解碼模型對 此固定長度的向量進行解碼,得到整個模型輸出。編碼模型將輸入序列x編碼為一個固定長 度的隱含狀態(tài)h。
[0055] x=(X1,X2,…,XT)是輸入序列,比如編碼為數(shù)字的一系列詞語,整個序列就是句 子。htifUt,!^)是隨著時間更新的隱含狀態(tài)。當新的詞語輸入到方程中,之前的狀態(tài)hH 就轉(zhuǎn)換為和當前輸入相關(guān)的向量,距離當前時間越長,越早輸入的序列,在更新后的狀態(tài)中 所占權(quán)重越小,從而表現(xiàn)出時間上的相關(guān)性。而有了隱含狀態(tài)序列,就可以對下一個出現(xiàn)的 詞語進行預(yù)測。
[0056] 其中,f是非線性激活函數(shù),既可以是簡單的邏輯斯蒂函數(shù),也可能是復(fù)雜的長短 期記憶單元。循環(huán)神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練可以通過隨時間進行反向傳播算法。假設(shè)神經(jīng)網(wǎng)絡(luò) 在每個時刻t都有一個監(jiān)督信息,損失為Jt。則整個序列的損失為J=5^=1/t。
[0057] 每一個神經(jīng)元在預(yù)測下一個輸出單元時都能夠得到一個概率分布:
[0059]編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型是一種監(jiān)督模型,利用數(shù)據(jù)預(yù)處理模塊得到的訓(xùn)練 集數(shù)據(jù),對編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,由于深度神經(jīng)網(wǎng)絡(luò)的參數(shù)眾多,導(dǎo)致訓(xùn) 練時間長,本發(fā)明實施例采用基于GHJ的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式最終得到訓(xùn)練好的模型。
[0060] 在本發(fā)明的一個實施例中,編碼模型進一步根據(jù)第一循環(huán)神經(jīng)網(wǎng)絡(luò)和第二循環(huán)神 經(jīng)網(wǎng)絡(luò)分別以兩個互為相反的方向?qū)σ粋€句子進行編碼得到第一隱含狀態(tài)hi和第二隱含 狀態(tài)h2,所述將編碼模型還用于將所述第一隱含狀態(tài)hi和所述第二隱含狀態(tài)h2進行拼接作 為所述隱含狀態(tài)h。
[0061] 具體地,解碼器的作用是將隱含向量解碼為人類可識別的信息。在解碼過程中,h 隱含狀態(tài)因為是解碼器的參數(shù),所以為了發(fā)揮時間序列的特性,需要對h進行迭代。
[0062] 用兩個循環(huán)神經(jīng)網(wǎng)絡(luò)雙向讀取一個序列可以使人工智能獲得注意力。簡單的做法 是將一個句子分別從兩個方向編碼為兩個隱含狀態(tài),然后將兩個h拼接在一起作為隱含狀 態(tài)。這種方法能夠提高模型表現(xiàn)的原因之一是因為不同方向的讀取在輸入和輸出之間創(chuàng)造 了更多短期依賴關(guān)系,從而被循環(huán)神經(jīng)網(wǎng)絡(luò)捕捉。
[0063] S4:根據(jù)所述編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型對預(yù)處理后的文本信息作于輸入,輸出 預(yù)設(shè)長度的摘要信息。
[0064]另外,本發(fā)明實施例的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成系統(tǒng)及方法 的其它構(gòu)成以及作用對于本領(lǐng)域的技術(shù)人員而言都是已知的,為了減少冗余,不做贅述。
[0065]在本說明書的描述中,參考術(shù)語"一個實施例"、"一些實施例"、"示例"、"具體示 例"、或"一些示例"等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特 點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不 一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何 的一個或多個實施例或示例中以合適的方式結(jié)合。
[0066]盡管已經(jīng)示出和描述了本發(fā)明的實施例,本領(lǐng)域的普通技術(shù)人員可以理解:在不 脫離本發(fā)明的原理和宗旨的情況下可以對這些實施例進行多種變化、修改、替換和變型,本 發(fā)明的范圍由權(quán)利要求及其等同限定。
【主權(quán)項】
1. 一種基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成系統(tǒng),其特征在于,包括: 互聯(lián)網(wǎng)文本獲取模塊,用于獲取互聯(lián)網(wǎng)上的文本信息; 數(shù)據(jù)預(yù)處理模塊,用于對所述文本信息進行預(yù)處理; 摘要模型訓(xùn)練模塊,用于對進行預(yù)處理后的文本信息抽取定量文本信息根據(jù)編碼-解 碼深度神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練,得到摘要訓(xùn)練模型; 摘要生成模塊,用于根據(jù)所述編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型對預(yù)處理后的文本信息作 于出入,輸出預(yù)設(shè)長度的摘要信息; 其中,所述編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型包括: 編碼模型,用于對輸入序列X進行向量化,得到固定長度的隱含狀態(tài)h,其中,輸入序列X = (X1,X2,···,XT),ht = f(xt,ht-I),f ()是非線性激活函數(shù),t為時間狀態(tài); 解碼模型,用于對所述固定長度的向量進行解碼,得到整個模型輸出。2. 根據(jù)權(quán)利要求1所述的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成系統(tǒng),其特征在 于,所述編碼模型進一步根據(jù)第一循環(huán)神經(jīng)網(wǎng)絡(luò)和第二循環(huán)神經(jīng)網(wǎng)絡(luò)分別以兩個互為相反 的方向?qū)σ粋€句子進行編碼得到第一隱含狀態(tài)hi和第二隱含狀態(tài)h2,所述將編碼模型還用 于將所述第一隱含狀態(tài)hi和所述第二隱含狀態(tài)h2進行拼接作為所述隱含狀態(tài)h。3. 根據(jù)權(quán)利要求1所述的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成系統(tǒng),其特征在 于,所述數(shù)據(jù)預(yù)處理模塊對所述文本信息進行預(yù)處理包括對所述文本信息進行分詞處理、 去除低詞頻詞語和停用詞中的一種或多種。4. 根據(jù)權(quán)利要求1所述的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成系統(tǒng),其特征在 于,所述f()為邏輯斯蒂函數(shù)或長短期記憶單元。5. -種基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成方法,其特征在于,包括以下步 驟: Sl:獲取互聯(lián)網(wǎng)上的文本信息; S2:對所述文本信息進行預(yù)處理; S3:對進行預(yù)處理后的文本信息抽取定量文本信息根據(jù)編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型 進行訓(xùn)練,得到摘要訓(xùn)練模型; S4:根據(jù)所述編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型對預(yù)處理后的文本信息作于輸入,輸出預(yù)設(shè) 長度的摘要信息; 其中,所述編碼-解碼深度神經(jīng)網(wǎng)絡(luò)模型包括: 編碼模型,用于對輸入序列X進行向量化,得到固定長度的隱含狀態(tài)h,其中,輸入序列X = (X1,X2,···,XT),ht = f(xt,ht-I),f ()是非線性激活函數(shù),t為時間狀態(tài); 解碼模型,用于對所述固定長度的向量進行解碼,得到整個模型輸出。6. 根據(jù)權(quán)利要求5所述的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成方法,其特征在 于,所述編碼模型進一步根據(jù)第一循環(huán)神經(jīng)網(wǎng)絡(luò)和第二循環(huán)神經(jīng)網(wǎng)絡(luò)分別以兩個互為相反 的方向?qū)σ粋€句子進行編碼得到第一隱含狀態(tài)hi和第二隱含狀態(tài)h2,所述將編碼模型還用 于將所述第一隱含狀態(tài)hi和所述第二隱含狀態(tài)h2進行拼接作為所述隱含狀態(tài)h。7. 根據(jù)權(quán)利要求5所述的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成方法,其特征在 于,在步驟S2中,所述對所述文本信息進行預(yù)處理進一步包括對所述文本信息進行分詞處 理、去除低詞頻詞語和停用詞中的一種或多種。8.根據(jù)權(quán)利要求5所述的基于編碼-解碼深度神經(jīng)網(wǎng)絡(luò)的文本摘要生成方法,其特征在 于,所述f()為邏輯斯蒂函數(shù)或長短期記憶單元。
【文檔編號】G06F17/30GK105930314SQ201610232659
【公開日】2016年9月7日
【申請日】2016年4月14日
【發(fā)明人】徐華, 李佳, 鄧俊輝, 孫曉民
【申請人】清華大學(xué)