演講摘要生成方法及裝置的制造方法
【專利摘要】一種演講摘要生成方法及裝置,包括:對內(nèi)容筆記、演講幻燈片進行分析生成演講大綱;利用演講大綱和相關(guān)閱讀材料生成擴展演講大綱;對擴展演講大綱分析得到與演講知識內(nèi)容相關(guān)的演講關(guān)鍵字并找到演講關(guān)鍵字在知識庫中對應的解釋條目,生成最終摘要。該方法通過對多方面的內(nèi)容如內(nèi)容筆記、演講幻燈片和擴展閱讀進行知識整合和擴展得到演講摘要,并利用外部的知識庫得到演講關(guān)鍵字的精確解釋。得到演講內(nèi)容的精確、結(jié)構(gòu)化的摘要。本發(fā)明還公開了一種基于演講幻燈片、內(nèi)容筆記和擴展閱讀的演講摘要生成裝置,包括演講大綱生成模塊、擴展演講大綱生成模塊和演講關(guān)鍵字實體鏈接模塊。
【專利說明】
演講摘要生成方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及的是一種文字處理領(lǐng)域的技術(shù),具體是一種基于演講幻燈片、內(nèi)容筆記和擴展閱讀的演講摘要生成方法及裝置。
【背景技術(shù)】
[0002]在當今信息爆炸的時代,信息技術(shù)的進步和普及使得人們每天產(chǎn)生海量的數(shù)據(jù),這些數(shù)據(jù)的數(shù)量遠遠超過人們的學習閱讀范圍。為了幫助人們更高效的獲取知識,自然語言處理技術(shù)能有效自動處理海量文本,并提取出其中用戶可能最關(guān)心的部分。
[0003]在生活中,我們每天通過講座、課堂等渠道聽取大量的演講,有效總結(jié)這些演講的內(nèi)容能方便人們進行回顧和復習,找到演講的重點,并進行知識的結(jié)構(gòu)化整理。而利用自然語言理解技術(shù)可高效準確的理解分析演講幻燈片,內(nèi)容筆記和擴展閱讀材料,并對他們進行知識整合和擴展,很好的達到整理知識的目的。
[0004]經(jīng)過現(xiàn)有的技術(shù)檢索發(fā)現(xiàn),中國專利文獻號CN103034657B,公開了一種“文檔摘要生成方法和裝置”,該方法涉及一種根據(jù)文檔內(nèi)容自動進行摘要提取的方法和裝置,能夠根據(jù)文檔的內(nèi)容自動實現(xiàn)信息的整理,方便用戶快速的獲取文檔中有效的知識。但該方法僅包括對于單文本的摘要生成,不包括對于多種文檔的內(nèi)容整理,不能有效的整合來自多個文檔的信息。
[0005]進一步檢索發(fā)現(xiàn),中國專利文獻號CN 101008941 A,公開了一種“多文檔自動摘要的逐次主軸篩選法”,該系統(tǒng)是對QR轉(zhuǎn)軸法的改進,提出一種多文檔自動摘要的方法,求解主軸并逐步去除冗余信息,形成摘要。但該系統(tǒng)不根據(jù)不同文檔的重要程度生成摘要,如演講幻燈片是對于演講內(nèi)容的高度抽象,而擴展閱讀材料則是其中一些知識的擴展,摘要應側(cè)重于幻燈片中的內(nèi)容。另外,該方法僅針對純文本進行摘要,不能有效利用演講幻燈片中的結(jié)構(gòu)信息來得到演講內(nèi)容結(jié)構(gòu)的有效表示。
【發(fā)明內(nèi)容】
[0006]本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提出一種演講摘要生成方法及裝置,通過對多方面的內(nèi)容如內(nèi)容筆記、演講幻燈片和擴展閱讀進行知識整合和擴展得到演講摘要,并利用外部的知識庫得到演講關(guān)鍵字的精確解釋。得到演講內(nèi)容的精確、結(jié)構(gòu)化的摘要。
[0007]本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
[0008]本發(fā)明涉及一種演講摘要生成方法,包括:
[0009]步驟I)對內(nèi)容筆記、演講幻燈片進行分析生成演講大綱;
[0010]步驟2)利用演講大綱和相關(guān)閱讀材料生成擴展演講大綱;
[0011]步驟3)對擴展演講大綱分析得到與演講知識內(nèi)容相關(guān)的演講關(guān)鍵字并找到演講關(guān)鍵字在知識庫中對應的解釋條目,生成最終摘要。
[0012]所述的演講大綱的生成為解析內(nèi)容筆記和演講幻燈片中與演講最相關(guān)的部分,并對兩部分信息進行融合,生成演講大綱。
[0013]所述的擴展演講大綱的生成為分析得到相關(guān)閱讀材料與演講大綱中知識內(nèi)容的匹配,根據(jù)相關(guān)閱讀材料補全演講大綱得到擴展演講大綱。
[0014]所述的演講關(guān)鍵字為與演講知識內(nèi)容的概念。
[0015]本發(fā)明涉及一種實現(xiàn)上述方法的基于交互式輸入的數(shù)據(jù)搜索裝置,包括:用于對內(nèi)容筆記、演講幻燈片進行分析生成演講大綱的演講大綱生成模塊、根據(jù)演講大綱和相關(guān)閱讀材料生成擴展演講大綱的擴展演講大綱生成模塊以及用于對擴展演講大綱分析得到與演講知識內(nèi)容相關(guān)的演講關(guān)鍵字并找到演講關(guān)鍵字在知識庫中對應的解釋條目,生成最終摘要的演講關(guān)鍵字實體鏈接模塊。
[0016]所述的演講大綱生成模塊用于解析內(nèi)容筆記和演講幻燈片中與演講最相關(guān)的部分,并對兩部分信息進行融合,生成演講大綱。
[0017]所述的擴展演講大綱生成模塊用于分析得到相關(guān)閱讀材料與演講大綱中知識內(nèi)容的匹配,根據(jù)相關(guān)閱讀材料補全演講大綱得到擴展演講大綱。
[0018]所述的演講關(guān)鍵字實體鏈接模塊提取的關(guān)鍵字為與演講知識內(nèi)容的概念。
技術(shù)效果
[0019]與現(xiàn)有技術(shù)相比,本發(fā)明對多方面的內(nèi)容如內(nèi)容筆記、演講幻燈片和擴展閱讀進行知識整合和擴展得到演講摘要,并利用外部的知識庫得到演講關(guān)鍵字的精確解釋。得到演講內(nèi)容的精確、結(jié)構(gòu)化的摘要。
【附圖說明】
[0020]圖1為本發(fā)明方法流程圖;
[0021 ]圖2是本發(fā)明裝置結(jié)構(gòu)示意圖。
【具體實施方式】
實施例1
[0022]本實施例包括以下步驟:
[0023]101、對內(nèi)容筆記、演講幻燈片進行分析生成演講大綱;
[0024]在本發(fā)明實施例中,演講大綱的生成為解析內(nèi)容筆記和演講幻燈片中與演講最相關(guān)的部分,并對兩部分信息進行融合,生成演講大綱。
[0025]102、利用演講大綱和相關(guān)閱讀材料生成擴展演講大綱;
[0026]在本發(fā)明實施例中,擴展演講大綱的生成為分析得到相關(guān)閱讀材料與演講大綱中知識內(nèi)容的匹配,根據(jù)相關(guān)閱讀材料補全演講大綱得到擴展演講大綱。
[0027]103、對擴展演講大綱分析得到與演講知識內(nèi)容相關(guān)的演講關(guān)鍵字并找到演講關(guān)鍵字在知識庫中對應的解釋條目,生成最終摘要。
[0028]在本發(fā)明實施例中,演講關(guān)鍵字實體鏈接模塊提取的關(guān)鍵字為與演講知識內(nèi)容的概念。
實施例2
[0029]如圖2所示,為本發(fā)明提供的基于演講幻燈片、內(nèi)容筆記和擴展閱讀的演講摘要生成裝置結(jié)構(gòu)示意圖,該裝置包括:演講大綱生成模塊21、擴展演講大綱生成模塊22和演講關(guān)鍵字實體鏈接模塊23。
[0030]所述的演講大綱生成模塊21用于利用內(nèi)容筆記、演講幻燈片生成演講大綱,其中:演講大綱生成模塊用于解析內(nèi)容筆記和演講幻燈片中與演講最相關(guān)的部分,并對兩部分信息進行融合,生成演講大綱。
[0031 ]具體地,計算演講幻燈片中每個內(nèi)容要點的句向量跟內(nèi)容筆記中每句話子句句向量的點積,若點積大于一定閾值,則把內(nèi)容筆記中的此句話放在相應要點之后作為解釋。
[0032]當內(nèi)容筆記為:“對于很多機器學習算法,包括線性回歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等等,算法的實現(xiàn)都是通過得出某個代價函數(shù)或者某個最優(yōu)化的目標來實現(xiàn)的,然后使用梯度下降這樣的方法來作為優(yōu)化算法求得代價函數(shù)的最小值。當訓練集較大時,批量梯度下降算法則顯得計算量非常大。在本次課程中,我想介紹一種跟批量梯度下降不同的方法:隨機梯度下降?!?,
[0033]演講幻燈片中的內(nèi)容為
[0034]批量梯度下降算法
[0035]優(yōu)化常用算法
[0036]計算量大
[0037]隨機梯度下降
[0038]適合大量數(shù)據(jù)
[0039]若閾值為0.7,內(nèi)容要點“計算量大”與內(nèi)容筆記中子句“計算量非常大”的句向量的點積為0.9,內(nèi)容要點“優(yōu)化常用算法”與“優(yōu)化算法”的句向量點積為0.8,類似的可以得到其他內(nèi)容要點與子句的匹配,則生成的演講大綱為
[0040]批量梯度下降算法:當訓練集較大時,批量梯度下降算法則顯得計算量非常大。
[0041]優(yōu)化常用算法:對于很多機器學習算法,包括線性回歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等等,算法的實現(xiàn)都是通過得出某個代價函數(shù)或者某個最優(yōu)化的目標來實現(xiàn)的,然后使用梯度下降這樣的方法來作為優(yōu)化算法求得代價函數(shù)的最小值。
[0042]計算量大:當我們的訓練集較大時,批量梯度下降算法則顯得計算量非常大。
[0043]隨機梯度下降:在本次課程中,我想介紹一種跟批量梯度下降不同的方法:隨機梯度下降。
[0044]適合大量數(shù)據(jù)
[0045]所述的擴展演講大綱生成模塊22用于利用演講大綱和相關(guān)閱讀材料生成擴展演講大綱,其中:
[0046]擴展演講大綱生成模塊用于分析得到相關(guān)閱讀材料與演講大綱中知識內(nèi)容的匹配,根據(jù)相關(guān)閱讀材料補全演講大綱得到擴展演講大綱。
[0047 ]具體地,計算演講大綱中每個內(nèi)容要點的句向量跟相關(guān)閱讀材料中每句話子句句向量的距離,若點積大于一定閾值,則把相關(guān)閱讀材料中的此句話放在相應要點之后作為解釋。
[0048]例如相關(guān)閱讀材料為:“梯度下降(GD)是最小化風險函數(shù)、損失函數(shù)的一種常用方法,隨機梯度下降和批量梯度下降是兩種迭代求解思路。批量梯度下降一最小化所有訓練樣本的損失函數(shù),使得最終求解的是全局的最優(yōu)解,即求解的參數(shù)是使得風險函數(shù)最小。隨機梯度下降一最小化每條樣本的損失函數(shù),雖然不是每次迭代得到的損失函數(shù)都向著全局最優(yōu)方向,但是大的整體的方向是向全局最優(yōu)解的,最終的結(jié)果往往是在全局最優(yōu)解附'匕 ”近。
[0049]若閾值為0.7,內(nèi)容要點“批量梯度下降算法”的句向量與相關(guān)閱讀材料中的子句“批量梯度下降”的句向量點積為0.8,知識要點“隨機梯度下降”的句向量與相關(guān)閱讀材料中的子句“隨機梯度下降”的句向量點積為I。則生成的擴展演講大綱為:
[0050]批量梯度下降算法:當訓練集較大時,批量梯度下降算法則顯得計算量非常大。梯度下降(GD)是最小化風險函數(shù)、損失函數(shù)的一種常用方法,隨機梯度下降和批量梯度下降是兩種迭代求解思路。批量梯度下降一最小化所有訓練樣本的損失函數(shù),使得最終求解的是全局的最優(yōu)解,即求解的參數(shù)是使得風險函數(shù)最小。
[0051]優(yōu)化常用算法:對于很多機器學習算法,包括線性回歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等等,算法的實現(xiàn)都是通過得出某個代價函數(shù)或者某個最優(yōu)化的目標來實現(xiàn)的,然后使用梯度下降這樣的方法來作為優(yōu)化算法求得代價函數(shù)的最小值。
[0052]計算量大:當我們的訓練集較大時,批量梯度下降算法則顯得計算量非常大。
[0053]隨機梯度下降:在本次課程中,我想介紹一種跟批量梯度下降不同的方法:隨機梯度下降。梯度下降(GD)是最小化風險函數(shù)、損失函數(shù)的一種常用方法,隨機梯度下降和批量梯度下降是兩種迭代求解思路。隨機梯度下降一最小化每條樣本的損失函數(shù),雖然不是每次迭代得到的損失函數(shù)都向著全局最優(yōu)方向,但是大的整體的方向是向全局最優(yōu)解的,最終的結(jié)果往往是在全局最優(yōu)解附近。
[0054]適合大量數(shù)據(jù)
[0055]所述的演講關(guān)鍵字實體鏈接模塊23用于對擴展演講大綱分析得到與演講知識內(nèi)容相關(guān)的演講關(guān)鍵字并找到演講關(guān)鍵字在知識庫中對應的解釋條目,生成最終摘要,其中:所述的演講關(guān)鍵字實體鏈接模塊提取的關(guān)鍵字為與演講知識內(nèi)容的概念。
[0056]具體地,從大量數(shù)據(jù)中提取逆文檔頻率,并計算每個詞的詞頻,使用TF-1DF找到在其他文檔中出現(xiàn)少而在本文檔中出現(xiàn)多的詞匯標為關(guān)鍵詞。如“批量梯度下降”,“隨機梯度下降”,“梯度下降”,“風險函數(shù)”,“損失函數(shù)”等。查詢知識庫中的條目并把他們列在擴展演講大綱下作為最終摘要。
[0057]批量梯度下降算法:當訓練集較大時,批量梯度下降算法則顯得計算量非常大。梯度下降(GD)是最小化風險函數(shù)、損失函數(shù)的一種常用方法,隨機梯度下降和批量梯度下降是兩種迭代求解思路。批量梯度下降一最小化所有訓練樣本的損失函數(shù),使得最終求解的是全局的最優(yōu)解,即求解的參數(shù)是使得風險函數(shù)最小。
[0058]優(yōu)化常用算法:對于很多機器學習算法,包括線性回歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等等,算法的實現(xiàn)都是通過得出某個代價函數(shù)或者某個最優(yōu)化的目標來實現(xiàn)的,然后使用梯度下降這樣的方法來作為優(yōu)化算法求得代價函數(shù)的最小值。
[0059]計算量大:當我們的訓練集較大時,批量梯度下降算法則顯得計算量非常大。
[0060]隨機梯度下降:在本次課程中,我想介紹一種跟批量梯度下降不同的方法:隨機梯度下降。梯度下降(GD)是最小化風險函數(shù)、損失函數(shù)的一種常用方法,隨機梯度下降和批量梯度下降是兩種迭代求解思路。隨機梯度下降一最小化每條樣本的損失函數(shù),雖然不是每次迭代得到的損失函數(shù)都向著全局最優(yōu)方向,但是大的整體的方向是向全局最優(yōu)解的,最終的結(jié)果往往是在全局最優(yōu)解附近。
[0061 ]適合大量數(shù)據(jù)
[0062]關(guān)鍵詞:
[0063]梯度下降:梯度下降法是一個最優(yōu)化算法,通常也稱為最速下降法。最速下降法是求解無約束優(yōu)化問題最簡單和最古老的方法之一,雖然現(xiàn)在已經(jīng)不具有實用性,但是許多有效算法都是以它為基礎(chǔ)進行改進和修正而得到的。最速下降法是用負梯度方向為搜索方向的,最速下降法越接近目標值,步長越小,前進越慢。
[0064]損失函數(shù):在統(tǒng)計學,統(tǒng)計決策理論和經(jīng)濟學中,損失函數(shù)是指一種將一個事件(在一個樣本空間中的一個元素)映射到一個表達與其事件相關(guān)的經(jīng)濟成本或機會成本的實數(shù)上的一種函數(shù)。
[0065]本發(fā)明實施例提供的裝置,通過對多方面的內(nèi)容如內(nèi)容筆記、演講幻燈片和擴展閱讀進行知識整合和擴展得到演講摘要,并利用外部的知識庫得到演講關(guān)鍵字的精確解釋。得到演講內(nèi)容的精確、結(jié)構(gòu)化的摘要。
[0066]本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關(guān)的硬件完成,該程序可以存儲于一種計算機可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0067]上述具體實施可由本領(lǐng)域技術(shù)人員在不背離本發(fā)明原理和宗旨的前提下以不同的方式對其進行局部調(diào)整,本發(fā)明的保護范圍以權(quán)利要求書為準且不由上述具體實施所限,在其范圍內(nèi)的各個實現(xiàn)方案均受本發(fā)明之約束。
【主權(quán)項】
1.一種演講摘要生成方法,其特征在于,包括: 步驟I)對內(nèi)容筆記、演講幻燈片進行分析生成演講大綱; 步驟2)利用演講大綱和相關(guān)閱讀材料生成擴展演講大綱; 步驟3)對擴展演講大綱分析得到與演講知識內(nèi)容相關(guān)的演講關(guān)鍵字并找到演講關(guān)鍵字在知識庫中對應的解釋條目,生成最終摘要。2.根據(jù)權(quán)利要求1所述的方法,其特征是,所述的演講大綱的生成為解析內(nèi)容筆記和演講幻燈片中與演講最相關(guān)的部分,并對兩部分信息進行融合,生成演講大綱。3.根據(jù)權(quán)利要求1所述的方法,其特征是,所述的擴展演講大綱的生成為分析得到相關(guān)閱讀材料與演講大綱中知識內(nèi)容的匹配,根據(jù)相關(guān)閱讀材料補全演講大綱得到擴展演講大綱。4.根據(jù)權(quán)利要求1所述的方法,其特征是,所述的演講關(guān)鍵字為與演講知識內(nèi)容的概念。5.一種實現(xiàn)上述任一權(quán)利要求所述方法的裝置,其特征在于,包括: 演講大綱生成模塊,用于對內(nèi)容筆記、演講幻燈片進行分析生成演講大綱; 擴展演講大綱生成模塊,利用演講大綱和相關(guān)閱讀材料生成擴展演講大綱; 演講關(guān)鍵字實體鏈接模塊,用于對擴展演講大綱分析得到與演講知識內(nèi)容相關(guān)的演講關(guān)鍵字并找到演講關(guān)鍵字在知識庫中對應的解釋條目,生成最終摘要。6.根據(jù)權(quán)利要求5所述的裝置,其特征是,所述的演講大綱生成模塊用于解析內(nèi)容筆記和演講幻燈片中與演講最相關(guān)的部分,并對兩部分信息進行融合,生成演講大綱。7.根據(jù)權(quán)利要求5所述的裝置,其特征是,所述的擴展演講大綱生成模塊用于分析得到相關(guān)閱讀材料與演講大綱中知識內(nèi)容的匹配,根據(jù)相關(guān)閱讀材料補全演講大綱得到擴展演講大綱。8.根據(jù)權(quán)利要求5所述的裝置,其特征是,所述的演講關(guān)鍵字實體鏈接模塊提取的關(guān)鍵字為與演講知識內(nèi)容的概念。
【文檔編號】G06F17/30GK105930471SQ201610259492
【公開日】2016年9月7日
【申請日】2016年4月25日
【發(fā)明人】俞凱, 謝其哲, 吳學陽, 李文博, 郭運奇
【申請人】上海交通大學