摘要評(píng)估裝置和方法及含摘要評(píng)估程序的可機(jī)讀記錄媒體的制作方法

文檔序號(hào)：6599347閱讀：348來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：摘要評(píng)估裝置和方法及含摘要評(píng)估程序的可機(jī)讀記錄媒體的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及利用計(jì)算機(jī)評(píng)估文章段的摘要的技術(shù)。更具體來(lái)說(shuō)，本發(fā)明涉及利用有監(jiān)督的機(jī)器學(xué)習(xí)方法自動(dòng)地進(jìn)行文章段的摘要的評(píng)估處理的技術(shù)。
摘要處理主要可化分為兩種類(lèi)型通過(guò)從目標(biāo)文章段抽取重要句子進(jìn)行概括；和通過(guò)以目標(biāo)文章段的內(nèi)容為根據(jù)自由地生成句子進(jìn)行概括。在通過(guò)抽取重要句子進(jìn)行概括的處理中，按照規(guī)定的概括比率(rate)抽取目標(biāo)文章段中出現(xiàn)的句子，以構(gòu)成摘要。在通過(guò)自由地生成句子進(jìn)行概括的處理中，人根據(jù)目標(biāo)文章段的內(nèi)容自由地生成句子。
作為評(píng)估通過(guò)抽取重要句子進(jìn)行概括的一種方法，有可能通過(guò)利用應(yīng)當(dāng)從文章某段中抽取哪些句子的信息的自動(dòng)處理進(jìn)行評(píng)估。例如，將一個(gè)表示當(dāng)?shù)竭_(dá)某個(gè)程度時(shí)該句子就應(yīng)當(dāng)被抽取作為摘要的重要度預(yù)先分配給文章段中的每個(gè)句子，然后通過(guò)把每個(gè)被抽取句子的重要度相加來(lái)評(píng)估該摘要。
另一方面，自動(dòng)評(píng)估自由構(gòu)成的摘要是困難的。這是因?yàn)?，可能?yīng)當(dāng)獲得一個(gè)文章段的多個(gè)合適的摘要，因此為所有合適的摘要準(zhǔn)備正確信息是非常困難的。
于是，在有關(guān)技術(shù)中，就根據(jù)個(gè)人的知識(shí)和經(jīng)驗(yàn)手工地進(jìn)行對(duì)自由構(gòu)成的摘要的評(píng)估。在下面引用的文獻(xiàn)1中所示的方法，就是在相關(guān)技術(shù)中存在的一種自動(dòng)評(píng)估摘要的方法。在引用文獻(xiàn)1的處理方法中，利用再調(diào)用比(recall ratio)、相關(guān)比(relevance ratio)、基于計(jì)算機(jī)處理所抽取的句子與人事先選擇的重要句子之間的一致性的F值，進(jìn)行摘要評(píng)估。
也可以通過(guò)利用字的頻率向量(frequency vector of words)確定自由生成的(freely made)摘要與人事先準(zhǔn)備好的正確摘要之間的相似度(degree of similarity)而認(rèn)識(shí)自由生成的摘要的評(píng)估?！耙梦墨I(xiàn)1Shu Nobata等，集成多個(gè)評(píng)估標(biāo)準(zhǔn)的重要句子抽取系統(tǒng)，第七屆語(yǔ)言處理學(xué)會(huì)年會(huì)論文集，pp301-304，2001。
在引用文獻(xiàn)1中所示的評(píng)估自由制作的摘要的處理中，利用字頻率向量確定目標(biāo)摘要與準(zhǔn)備好的正確摘要之間的相似度。因此有這樣的趨勢(shì)，即如果表示摘要的內(nèi)容的關(guān)鍵字的分布類(lèi)似于被認(rèn)為是正確的摘要的關(guān)鍵字的分布，則摘要的評(píng)估值變高。就是說(shuō)，如果某摘要包括某些在正確摘要中存在的字，該摘要將獲得一個(gè)確定的好評(píng)估，即使該摘要的形式作為一段文章來(lái)說(shuō)是極其難讀的。因此，這種摘要獲得好摘要的評(píng)估是有問(wèn)題的。
在相關(guān)技術(shù)中，專(zhuān)家評(píng)估手工構(gòu)成的摘要。然而毫無(wú)疑問(wèn)，專(zhuān)家的評(píng)估取決于評(píng)估者的經(jīng)驗(yàn)和技巧。因此，有的時(shí)候，對(duì)同一個(gè)摘要的評(píng)估可能因評(píng)估者的不同而不同，有的時(shí)候，即使在評(píng)估者相同時(shí)也因評(píng)估的時(shí)間不同而有不同的評(píng)估。因此，如果像相關(guān)技術(shù)中那樣，根據(jù)專(zhuān)家的經(jīng)驗(yàn)和技巧來(lái)評(píng)估手工構(gòu)成的摘要，則不但沒(méi)有摘要的評(píng)估的可重復(fù)性，而且要做到公平地評(píng)估摘要也很困難。
需要不受評(píng)估者的主觀影響并且可重復(fù)的客觀評(píng)估的、對(duì)包括自由構(gòu)造的摘要在內(nèi)的摘要的自動(dòng)評(píng)估處理。
現(xiàn)在考察對(duì)由計(jì)算機(jī)自動(dòng)生成的摘要的評(píng)估與由專(zhuān)家自由構(gòu)成的摘要的評(píng)估的比較。計(jì)算機(jī)生成的摘要在概括內(nèi)容和句子流暢的適當(dāng)性方面的概括精確度一般比由人制作的摘要低。因此許多情況下，由計(jì)算機(jī)生成的摘要，其逼真度達(dá)不到與人工摘要相同的程度。
假設(shè)“好摘要”具有這樣的逼真度，該逼真度達(dá)到使得難以區(qū)分該摘要與手工摘要的程度，這個(gè)“好摘要”使得由計(jì)算機(jī)生成的該摘要的句子結(jié)構(gòu)和摘要內(nèi)容達(dá)到與由人工生成的摘要相似的程度。因此應(yīng)當(dāng)明白，按“計(jì)算機(jī)摘要”和“手工摘要”劃分類(lèi)別可用作為摘要的評(píng)估。
因此本發(fā)明的目的是提供一種自動(dòng)執(zhí)行不僅評(píng)估通過(guò)抽取重要句子作出的摘要而且也評(píng)估利用計(jì)算機(jī)自由地生成的摘要的處理的方法。
本發(fā)明的另一個(gè)目的是提供一種實(shí)現(xiàn)這個(gè)處理方法的裝置。
本發(fā)明的另一個(gè)目的是提供一種其中記錄有用于在計(jì)算機(jī)上執(zhí)行這個(gè)自動(dòng)摘要評(píng)估處理的程序的計(jì)算機(jī)可讀的記錄媒體。
本發(fā)明的另一個(gè)目的是提供一種把各種用于獲得摘要的處理裝置分成類(lèi)別(classification)并執(zhí)行自動(dòng)評(píng)估利用這些類(lèi)別的裝置獲得的摘要的處理方法，提供一種用于實(shí)現(xiàn)這個(gè)處理的裝置和在計(jì)算機(jī)上執(zhí)行這個(gè)處理的程序。
因此，本發(fā)明提供的摘要評(píng)估方法包含下述步驟訪(fǎng)問(wèn)用于存儲(chǔ)解決方案(solution)數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置，其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成，該組包括由文章段及其摘要構(gòu)成的一個(gè)問(wèn)題、以及由該摘要的評(píng)估構(gòu)成的解決方案；從解決方案數(shù)據(jù)存儲(chǔ)裝置中獲取解決方案數(shù)據(jù)；從解決方案數(shù)據(jù)的問(wèn)題中抽取特征并建立解決方案和特征的集合的組；用有監(jiān)督的機(jī)器學(xué)習(xí)方法，從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的，并存儲(chǔ)該學(xué)習(xí)的結(jié)果；從輸入的文本抽取特征的集合；和根據(jù)學(xué)習(xí)的結(jié)果，推斷在從特征抽取步驟中獲得的特征而抽取了集合的情況下，哪種解決方案是最容易得到成功的。
因此，本發(fā)明提供的摘要評(píng)估裝置包含用于存儲(chǔ)解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置，其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成，該組包括由文章段及其摘要構(gòu)成的一個(gè)問(wèn)題、以及由該摘要的評(píng)估構(gòu)成的解決方案；解決方案/特征對(duì)抽取裝置，用于獲得解決方案數(shù)據(jù)、從解決方案數(shù)據(jù)的問(wèn)題中抽取特征并建立解決方案和特征的集合的組；機(jī)器學(xué)習(xí)裝置，用于用有監(jiān)督的機(jī)器學(xué)習(xí)方法，從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的，并存儲(chǔ)該學(xué)習(xí)的結(jié)果；特征抽取裝置，用于從輸入的文本抽取特征的集合；和評(píng)估推斷裝置，用于根據(jù)學(xué)習(xí)的結(jié)果，推斷在從特征抽取裝置獲得的特征而抽取了的集合的情況下，哪種解決方案是最容易得到成功的。
本發(fā)明提供一種其中記錄有使計(jì)算機(jī)執(zhí)行這個(gè)摘要評(píng)估方法的各步驟的摘要評(píng)估程序的計(jì)算機(jī)可讀的記錄媒體。
本發(fā)明中，事先準(zhǔn)備大量的由例子構(gòu)成的解決方案數(shù)據(jù)，各個(gè)例子被分配由對(duì)每個(gè)由機(jī)器生成的摘要和每個(gè)由人建立的摘要的摘要評(píng)估構(gòu)成的解決方案。對(duì)于每個(gè)例子，抽取解決方案和特征的集合的組，并用機(jī)器學(xué)習(xí)技術(shù)從所抽取的解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案(摘要評(píng)估)是最容易獲得成功的。之后，當(dāng)構(gòu)成某主題的摘要被輸入時(shí)，從所輸入的摘要中抽取特征的集合，然后通過(guò)參考機(jī)器學(xué)習(xí)的結(jié)果，通過(guò)推斷就哪種特征的集合而言哪種解決方案是容易得到成功的。
這樣就有可能提供一種可重復(fù)的、無(wú)偏見(jiàn)的評(píng)估，而不受評(píng)估者的經(jīng)驗(yàn)和技巧的影響。
例如，表示摘要是用計(jì)算機(jī)生成的“機(jī)器摘要”和表示摘要是由人制作的的“手工摘要”這兩種類(lèi)別可用作分配給解決方案數(shù)據(jù)的解決方案。在這種情況下，在本發(fā)明中，要對(duì)輸入的摘要是“機(jī)器摘要”還是“手工摘要”作出判定。這兩種類(lèi)別可以利用處理計(jì)算機(jī)由機(jī)器處理來(lái)作分配，以便從作為解決方案數(shù)據(jù)準(zhǔn)備的摘要本身中自動(dòng)地獲得。在通過(guò)機(jī)器處理分配類(lèi)別時(shí)，在分配解決方案中所涉及的處理負(fù)荷能得到減輕。在考慮解決方案數(shù)據(jù)的精確性時(shí)，用方案是由專(zhuān)家分配的解決方案數(shù)據(jù)也是可能的。在這種情況下，也可能按照評(píng)估分配三個(gè)或五個(gè)類(lèi)別，以便執(zhí)行多階段評(píng)估，諸如三個(gè)階段、五個(gè)階段的評(píng)估，等等。
在計(jì)算機(jī)上實(shí)現(xiàn)本發(fā)明的裝置、功能或元件的程序，可以存儲(chǔ)在適當(dāng)?shù)挠?jì)算機(jī)可讀的記錄媒體上，諸如便攜式存儲(chǔ)媒體、半導(dǎo)體存儲(chǔ)器或硬盤(pán)等中，可以通過(guò)在這種記錄媒體上的記錄而提供，或者通過(guò)利用通過(guò)通信接口的通信網(wǎng)絡(luò)的交換而提供。
解決方案數(shù)據(jù)存儲(chǔ)單元11是用于存儲(chǔ)構(gòu)成用于機(jī)器學(xué)習(xí)過(guò)程中的有監(jiān)督的數(shù)據(jù)的數(shù)據(jù)(解決方案數(shù)據(jù))的裝置。由問(wèn)題和解決方案的集構(gòu)成的例子作為解決方案數(shù)據(jù)被存儲(chǔ)在解決方案數(shù)據(jù)存儲(chǔ)單元11中。問(wèn)題包括概括之前的一個(gè)文章段和一個(gè)摘要本身。摘要既可以由計(jì)算機(jī)制作，也可以由人制作。解決方案是對(duì)摘要的評(píng)估，有兩個(gè)類(lèi)別“由計(jì)算機(jī)產(chǎn)生的摘要(計(jì)算機(jī)摘要)”和“由人產(chǎn)生的摘要(手工摘要)”。這兩個(gè)類(lèi)別可以根據(jù)一種用于生成摘要的處理技術(shù)自動(dòng)地分配，或者可以由人分配。使用“計(jì)算機(jī)摘要”和“手工摘要”這兩種類(lèi)別作為解決方案的理由是，為了能根據(jù)生成摘要的處理裝置機(jī)械地分配類(lèi)別。就是說(shuō)，“計(jì)算機(jī)摘要”的解決方案(類(lèi)別)被自動(dòng)地分配給計(jì)算機(jī)自動(dòng)地生成的摘要。被分配以解決方案“手工摘要”的解決方案數(shù)據(jù)，被用于由人制作的摘要。這就減輕了在分配解決方案中所牽涉到的處理負(fù)荷。此外，在解決方案的準(zhǔn)確性重要時(shí)，可以由專(zhuān)家把解決方案分配給每個(gè)例子。
解決方案/特征對(duì)抽取單元12，是用于從存儲(chǔ)在解決方案數(shù)據(jù)存儲(chǔ)單元11中的每個(gè)例子中抽取解決方案和特征的集的組的裝置?？梢猿槿∫粋€(gè)特征，作為(1)指示句子是否流暢的信息，(2)指示內(nèi)容是否被適當(dāng)表達(dá)的信息，(3)用于自動(dòng)概括的特征信息，等等。
(1)作為指示句子流暢性的信息，可以抽取k語(yǔ)法形態(tài)序列(k-gram morph sequence)的出現(xiàn)的百分率或者以主體(corpus)的形式實(shí)現(xiàn)的解決方案數(shù)據(jù)存儲(chǔ)單元11中的修飾從句之間的語(yǔ)義一致的程度。
(2)作為指示該文章段的內(nèi)容是否被適當(dāng)表達(dá)的信息，在作概括之前該文章段中存在的關(guān)鍵短語(yǔ)(key-phrases)的包含率被抽取。
此外，(3)抽取句子的位置、關(guān)于句子是否是起始句子的信息、TF/IDF(Term Frequency/Inversed Document Frequency-術(shù)語(yǔ)頻率/逆文件頻率)、句子長(zhǎng)度、或者諸如特征表達(dá)/連接詞/功能字之類(lèi)的關(guān)鍵表達(dá)的存在，作為用于自動(dòng)概括的特征信息。
機(jī)器學(xué)習(xí)單元13是用于用有監(jiān)督的機(jī)器學(xué)習(xí)方法從由解決方案/特征對(duì)抽取單元12抽取的解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最直截了當(dāng)?shù)难b置。這個(gè)學(xué)習(xí)的結(jié)果然后被存儲(chǔ)在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲(chǔ)單元14中。如果機(jī)器學(xué)習(xí)單元13用有監(jiān)督的機(jī)器學(xué)習(xí)方法學(xué)習(xí)，則可以用這種方法執(zhí)行處理。這種技術(shù)例如可以是判定樹(shù)技術(shù)、支持向量技術(shù)、參數(shù)調(diào)整技術(shù)、簡(jiǎn)單貝葉斯(Baysian)技術(shù)、最大熵(entropy)技術(shù)或判定表技術(shù)。
特征抽取單元15是用于從評(píng)估目標(biāo)的摘要2中抽取一組特征并把所抽取的該組特征傳送給評(píng)估推斷單元16的裝置。
評(píng)估推斷單元16是用于參考學(xué)習(xí)結(jié)果數(shù)據(jù)存儲(chǔ)單元14的學(xué)習(xí)結(jié)果數(shù)據(jù)并在特征集合被從特征抽取單元15傳送過(guò)來(lái)時(shí)推斷對(duì)其來(lái)說(shuō)某解決方案(評(píng)估)是最直截了當(dāng)?shù)慕Y(jié)果、然后輸出一個(gè)由該推斷結(jié)果構(gòu)成的評(píng)估3的裝置。
圖2表示本發(fā)明的一個(gè)處理流程圖。在自動(dòng)摘要評(píng)估處理裝置1的解決方案數(shù)據(jù)存儲(chǔ)單元11中存儲(chǔ)著大量的例子作為解決方案數(shù)據(jù)，其中將解決方案信息分配給多種語(yǔ)言的數(shù)據(jù)。例如，在下面的示例1中表示了取作為輸入的文本的一個(gè)例子。
示例1
首先，在解決方案/特征對(duì)抽取單元12，從解決方案數(shù)據(jù)存儲(chǔ)單元11為每個(gè)例子抽取一解決方案和特征的集的一組(步驟S1)。例如，抽取以下作為特征特征e1主體中k語(yǔ)法形態(tài)序列的出現(xiàn)；特征e2修飾從句之間的語(yǔ)義一致的程度；特征e3在概括之后具有大的TF/IDF值的“自然語(yǔ)言用詞”的包含率；特征e4對(duì)輸入文章段的第一個(gè)句子是否在被使用的確定；特征e5輸出摘要的長(zhǎng)度；和特征e6確定在摘要被抽取的位置之前是否有連接詞“tsumari(換言之)”。
解決方案/特征對(duì)抽取單元12檢查對(duì)于每個(gè)例子來(lái)說(shuō)，是否在主體中出現(xiàn)一個(gè)k語(yǔ)法形態(tài)序列，作為特征e1，如果存在，就抽取之。k語(yǔ)法形態(tài)序列例如是一個(gè)三語(yǔ)法詞素的“動(dòng)詞を(doushi-wo)<|>する(suru)(其中<|>表示一個(gè)分割)”，這是從“動(dòng)詞を(doushi-wo)<|>省略(syouryaku)<|>する(suru)”中省略“省略(syouryaku)”得出的。如果形態(tài)序列“動(dòng)詞を(doushi-wo)<|>する(suru)”不在主體中出現(xiàn)，就推斷是因?yàn)樵摫磉_(dá)作為句子看起來(lái)不流暢。k語(yǔ)法形態(tài)序列在主體中的出現(xiàn)，可以被用作特征e1，以便確定摘要的流暢性。
解決方案/特征對(duì)抽取單元12通過(guò)檢查例如是否在從“動(dòng)詞を(doushi-wo)<|>省略(syouryaku)<|>すゐ(suru)”中省略“省略(syouryaku)”得出的“動(dòng)詞を(doushi-wo)<|>する(suru)”的主體中存在修飾“する(suru)”從句的從句“動(dòng)詞を(doushi-wo)”，抽取修飾從句之間的一致程度作為特征e2。如果在“動(dòng)詞を(doushi-wo)”和“する(suru)”之間沒(méi)有修飾(modification)，則可以推斷該表達(dá)不是一個(gè)流暢的句子。
解決方案/特征對(duì)抽取單元12抽取例如一個(gè)關(guān)于是否在概括之前的文章段中出現(xiàn)的關(guān)鍵短語(yǔ)(自然語(yǔ)言的短語(yǔ)的字)被包含在摘要中的關(guān)鍵短語(yǔ)包含率，作為特征e3。如果這些短語(yǔ)被盡可能多地包含在摘要中，則可以確定該摘要是個(gè)準(zhǔn)確表達(dá)這個(gè)文章段(文本)的內(nèi)容的好摘要。
TF/IDF技術(shù)主要可以用于關(guān)鍵短語(yǔ)自動(dòng)抽取處理。TF是一個(gè)表示某字在某文章段中的出現(xiàn)次數(shù)或頻率的值。IDF是已經(jīng)具有的某字在其中出現(xiàn)的一組大量的文件(documents)的文件數(shù)的倒數(shù)。通常，其TF與IDF之和的值大的字適合作為關(guān)鍵短語(yǔ)。假設(shè)“自然言語(yǔ)(shizengengo)(自然語(yǔ)言)”、“動(dòng)詞(doushi)(動(dòng)詞)”、“省略(syouyaku)(omission)”、“復(fù)元(fukugen)(恢復(fù))”、“表層の表現(xiàn)(hyousou-no-hyougen)(表面情況表示)(surface caserepresentation)”和“用例(yourei)(例子)”對(duì)應(yīng)于圖3中所示的文章段中的短語(yǔ)。這些字在表達(dá)這個(gè)文本的內(nèi)容時(shí)是重要字，因此希望在摘要中出現(xiàn)這些字。
解決方案/特征對(duì)抽取單元12利用例如TF/IDF技術(shù)來(lái)抽取構(gòu)成前面所述的那種關(guān)鍵短語(yǔ)的字。它然后檢查T(mén)F或IDF的值是否高，以及這些字是否被包含在摘要中，然后抽取這些字的包含率，作為特征e3。
解決方案/特征對(duì)抽取單元12然后抽取對(duì)輸入文本中的第一個(gè)句子是否被使用的確定，作為特征e4。重要句子出現(xiàn)在一個(gè)文章段的開(kāi)頭一般是非常普遍的。因此可以確定，如果采用靠近文件的開(kāi)頭的句子作為摘要?jiǎng)t能得到好的摘要。
解決方案/特征對(duì)抽取單元12也檢查摘要的長(zhǎng)度并抽取這個(gè)長(zhǎng)度，作為特征e5。摘要的目標(biāo)一般是要短句子。因此可以確定，短摘要是好摘要。
解決方案/特征對(duì)抽取單元12也抽取對(duì)是否在被作為摘要抽取的位置之前有“つまり(tsumari)(換言之)”之類(lèi)的連接詞的確定，作為特征e6。還存在著一些關(guān)鍵的表達(dá)，例如連接詞、功能字，它們指示希望作為摘要來(lái)抽取的句子和位置。例如，當(dāng)存在“tsumari”之類(lèi)的連接詞時(shí)，在這個(gè)連接詞“tsumari”的后面就存在概括這個(gè)文本的內(nèi)容的表達(dá)。這意味著，如果這部分被抽取，則可以確定是好摘要。
機(jī)器學(xué)習(xí)單元13然后用機(jī)器學(xué)習(xí)方法從由解決方案/特征對(duì)抽取單元12抽取解決方案和特征的集的組學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的(例如“機(jī)器摘要”、或“手工摘要”)(步驟S2)。機(jī)器學(xué)習(xí)單元13例如采用簡(jiǎn)單貝葉斯方法、判定表技術(shù)、最大熵方法或支持向量機(jī)器方法等等作為有監(jiān)督的機(jī)器學(xué)習(xí)方法。
簡(jiǎn)單貝葉斯方法是根據(jù)貝葉斯定理推斷每個(gè)類(lèi)別的概率的方法，該方法將概率值最高的類(lèi)別作為要采用的類(lèi)別。
判定表技術(shù)定義由特征和類(lèi)別組成的各組，用于在一個(gè)有預(yù)定優(yōu)先級(jí)的表中存儲(chǔ)。當(dāng)要被提交作檢查的輸入然后被提供時(shí)，用該表從最高優(yōu)先級(jí)開(kāi)始按順序比較該輸入數(shù)據(jù)和所定義的特征。如果特征匹配，則所定義的類(lèi)別被作為輸入類(lèi)別。
在最大熵方法中，當(dāng)采用預(yù)定集合的特征fj(1≤j≤k)作為F集合時(shí)，獲得在滿(mǎn)足規(guī)定約束條件的同時(shí)某個(gè)表達(dá)何時(shí)意味著熵最大的概率分布，然后按照這個(gè)概率分布獲得的每個(gè)類(lèi)別的概率，獲得概率值較大的類(lèi)別。
支持向量機(jī)器方法是一種將空間劃分成超平面對(duì)兩個(gè)類(lèi)別中的數(shù)據(jù)分類(lèi)的方法。
判定表技術(shù)和最大熵方法在下文引用的參考文獻(xiàn)2中有說(shuō)明，支持向量機(jī)器方法在下文引用的參考文獻(xiàn)3和4中有說(shuō)明。
“引用參考文獻(xiàn)2Society for language analysis in electronicinformation communication studies and communications(電子信息通信研究和通信中的語(yǔ)言分析學(xué)會(huì))，NCL2001-2，(2001)，Ambiguityresolution trials employing various machine learningtechniques(采用各種機(jī)器學(xué)習(xí)方法的歧義解析試驗(yàn))(村田真樹(shù)、內(nèi)山將夫、內(nèi)元清貴、馬青、井佐原均、種々の機(jī)械學(xué)習(xí)法を用いた多羲解消実験、電子情報(bào)通信學(xué)會(huì)言語(yǔ)理解とコミユニケ一ション研究會(huì))。”“引用參考文獻(xiàn)3Nello Cristianini和John Shawe-TaylorAn Introduction to Support Vector Machines and otherkernel-based learning methods(Cambridge University Press，2000)(支持向量機(jī)和其它基于內(nèi)核的學(xué)習(xí)方法的介紹，劍橋大學(xué)出版社，2000年)”“引用參考文獻(xiàn)4Taku Kudoh，TinysvmSupport VectorMachines(支持向量機(jī))(http//cl.aist-nara.ac.jp/taku-ku//software/TinySVM/index.html，2000)”。
之后，將希望評(píng)估的摘要2輸入到特征抽取單元15(步驟S3)。
特征抽取單元15采用與解決方案/特征對(duì)抽取單元12的基本相同的處理從輸入的摘要2中抽取一組特征，并把這些特征傳送給評(píng)估推斷單元16(步驟S4)。
評(píng)估推斷單元16根據(jù)在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲(chǔ)單元14中的學(xué)習(xí)結(jié)果收集在到傳送過(guò)來(lái)的特征時(shí)推斷哪種解決方案是最直截了當(dāng)?shù)?，然后輸出該推斷解即評(píng)估3(步驟S5)。例如，評(píng)估推斷單元16如果推斷，作為根據(jù)從摘要2中抽取的特征集用機(jī)器學(xué)習(xí)技術(shù)執(zhí)行處理的結(jié)果，摘要2的解決方案是“手工摘要”，則可以輸出一個(gè)“手工摘要”或“好摘要”的評(píng)估3。評(píng)估推斷單元16在推斷出摘要2的解決方案是“機(jī)器摘要”時(shí)，也可以輸出一個(gè)“機(jī)器摘要”或“壞摘要”的評(píng)估3。
以上給出了本發(fā)明的實(shí)際實(shí)現(xiàn)的說(shuō)明，但是在本發(fā)明的范圍內(nèi)可以有各種修改。例如，在舉例說(shuō)明的本發(fā)明的一個(gè)實(shí)施例中，將“機(jī)器摘要”和“手工摘要”這兩個(gè)類(lèi)別作為存儲(chǔ)在解決方案數(shù)據(jù)存儲(chǔ)單元11中的解決方案數(shù)據(jù)，但是也可以采用三種或更多的類(lèi)別作為解決方案。
按照本發(fā)明，將原始文本和摘要作為問(wèn)題，為摘要生成裝置準(zhǔn)備大量的解決方案數(shù)據(jù)，作為“人工的”或“機(jī)器的”解決方案。然后根據(jù)利用這個(gè)解決方案數(shù)據(jù)的機(jī)器學(xué)習(xí)得出的結(jié)果，對(duì)作為處理對(duì)象的摘要推斷出是“機(jī)器摘要”還是“手工摘要”的評(píng)估。因此，即使處理的對(duì)象是自由建立的摘要，也有可能對(duì)這個(gè)評(píng)估進(jìn)行自動(dòng)處理。因此即使對(duì)自由制作的摘要也能進(jìn)行可重復(fù)的、無(wú)偏見(jiàn)的評(píng)估。
按照本發(fā)明，對(duì)于同一個(gè)摘要總是輸出等同的評(píng)估。因此可以對(duì)相同的摘要多次重復(fù)進(jìn)行相同的評(píng)估處理，當(dāng)把執(zhí)行本發(fā)明的處理系統(tǒng)調(diào)整得性能優(yōu)異時(shí)，則能直截了當(dāng)?shù)孬@得關(guān)于這個(gè)處理系統(tǒng)的評(píng)估。
按照本發(fā)明，有可能對(duì)相同的摘要重復(fù)相同的評(píng)估，能共享摘要處理方法的評(píng)估。
權(quán)利要求
1.一種采用計(jì)算機(jī)的摘要評(píng)估方法，包含以下步驟訪(fǎng)問(wèn)用于存儲(chǔ)解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置，其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成，該組包括由文章段及其摘要構(gòu)成的一個(gè)問(wèn)題、以及由來(lái)自解決方案數(shù)據(jù)存儲(chǔ)器的摘要的評(píng)估構(gòu)成的一個(gè)解決方案；從解決方案數(shù)據(jù)存儲(chǔ)裝置獲得解決方案數(shù)據(jù)；從解決方案數(shù)據(jù)的問(wèn)題中抽取特征并建立解決方案和特征的集合的組；用有監(jiān)督的機(jī)器學(xué)習(xí)方法，從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的，并存儲(chǔ)該學(xué)習(xí)的結(jié)果；從輸入的文本抽取特征的集合；和根據(jù)學(xué)習(xí)的結(jié)果，推斷在從特征抽取步驟中獲得的特征而抽取了的集合的情況下，哪種解決方案是最容易得到成功的。
2.按照權(quán)利要求1的摘要評(píng)估方法，其中，解決方案由兩個(gè)類(lèi)別組成機(jī)器處理的摘要、及人制作的摘要。
3.一種摘要評(píng)估裝置，包含用于存儲(chǔ)解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置，其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成，該組包括由文章段及其摘要構(gòu)成的一個(gè)問(wèn)題、以及由該摘要的評(píng)估構(gòu)成的一個(gè)解決方案；解決方案/特征對(duì)抽取裝置，用于從解數(shù)據(jù)存儲(chǔ)裝置獲得解決方案數(shù)據(jù)、從該解決方案數(shù)據(jù)的問(wèn)題中抽取特征并建立解決方案和特征的集合的組；機(jī)器學(xué)習(xí)裝置，用于用有監(jiān)督的機(jī)器學(xué)習(xí)方法，從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的，并存儲(chǔ)該學(xué)習(xí)的結(jié)果；特征抽取裝置，用于從輸入的文本抽取特征的集；和評(píng)估推斷裝置，用于根據(jù)學(xué)習(xí)的結(jié)果，推斷在從特征抽取裝置獲得的特征而抽取了的集合的情況下，哪種解決方案是最容易得到成功的。
4.按照權(quán)利要求3的摘要評(píng)估裝置，其中，解決方案由兩個(gè)類(lèi)別組成機(jī)器處理的摘要、及人制作的摘要。
5.一種記錄有摘要評(píng)估程序的計(jì)算機(jī)可讀的記錄媒體，該程序使計(jì)算機(jī)執(zhí)行以下處理訪(fǎng)問(wèn)用于存儲(chǔ)解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置，其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成，該組包括由文章段及其摘要構(gòu)成的一個(gè)問(wèn)題、以及由來(lái)自解決方案存儲(chǔ)器的摘要的評(píng)估構(gòu)成的一個(gè)解決方案；從解決方案數(shù)據(jù)存儲(chǔ)裝置獲得解決方案數(shù)據(jù)；存儲(chǔ)解決方案數(shù)據(jù)，該解決方案數(shù)據(jù)由一個(gè)組構(gòu)成，該組包括由文章段及其摘要構(gòu)成的一個(gè)問(wèn)題、以及由摘要的評(píng)估構(gòu)成的一個(gè)解決方案。從解決方案數(shù)據(jù)的問(wèn)題中抽取特征并建立解決方案和特征的集合的組；用有監(jiān)督的機(jī)器學(xué)習(xí)方法，從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的，并存儲(chǔ)該學(xué)習(xí)的結(jié)果；從輸入的文本抽取特征的集合；和根據(jù)學(xué)習(xí)的結(jié)果，推斷在從特征抽取處理中獲得的特征而抽取了的集合的情況下，哪種解決方案是最容易得到成功的。
6.按照權(quán)利要求5的計(jì)算機(jī)可讀的記錄媒體，其中，解決方案由兩個(gè)類(lèi)別組成機(jī)器處理的摘要、及人制作的摘要。
全文摘要
按照本發(fā)明的裝置在解決方案數(shù)據(jù)存儲(chǔ)單元中存儲(chǔ)由文章段、文章段的摘要和對(duì)摘要的評(píng)估構(gòu)成的例子。從所存儲(chǔ)的例子中抽取解決方案和特征的集合的組，并用機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)在哪種情況下哪種解決方案是最直截了當(dāng)?shù)?，學(xué)習(xí)的結(jié)果被存儲(chǔ)在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲(chǔ)單元中。然后，從輸入的摘要中抽取特征的集，推斷就所抽取的特征集合而言哪種解決方案是容易得到成功的，并將其作為評(píng)估輸出。
文檔編號(hào)G06F17/30GK1435774SQ0310217
公開(kāi)日2003年8月13日申請(qǐng)日期2003年1月30日優(yōu)先權(quán)日2002年1月31日
發(fā)明者村田真樹(shù) 申請(qǐng)人:獨(dú)立行政法人通訊綜合研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：村田真樹(shù)
技術(shù)所有人：獨(dú)立行政法人情報(bào)通信研究機(jī)構(gòu)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

化工裝置開(kāi)車(chē)風(fēng)險(xiǎn)評(píng)估相關(guān)技術(shù)

乙烯裝置能效評(píng)估相關(guān)技術(shù)

射線(xiàn)裝置年度評(píng)估報(bào)告相關(guān)技術(shù)

化工裝置風(fēng)險(xiǎn)評(píng)估費(fèi)用相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

摘要評(píng)估裝置和方法及含摘要評(píng)估程序的可機(jī)讀記錄媒體的制作方法