專(zhuān)利名稱(chēng):摘要評(píng)估裝置和方法及含摘要評(píng)估程序的可機(jī)讀記錄媒體的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及利用計(jì)算機(jī)評(píng)估文章段的摘要的技術(shù)。更具體來(lái)說(shuō),本發(fā)明涉及利用有監(jiān)督的機(jī)器學(xué)習(xí)方法自動(dòng)地進(jìn)行文章段的摘要的評(píng)估處理的技術(shù)。
摘要處理主要可化分為兩種類(lèi)型通過(guò)從目標(biāo)文章段抽取重要句子進(jìn)行概括;和通過(guò)以目標(biāo)文章段的內(nèi)容為根據(jù)自由地生成句子進(jìn)行概括。在通過(guò)抽取重要句子進(jìn)行概括的處理中,按照規(guī)定的概括比率(rate)抽取目標(biāo)文章段中出現(xiàn)的句子,以構(gòu)成摘要。在通過(guò)自由地生成句子進(jìn)行概括的處理中,人根據(jù)目標(biāo)文章段的內(nèi)容自由地生成句子。
作為評(píng)估通過(guò)抽取重要句子進(jìn)行概括的一種方法,有可能通過(guò)利用應(yīng)當(dāng)從文章某段中抽取哪些句子的信息的自動(dòng)處理進(jìn)行評(píng)估。例如,將一個(gè)表示當(dāng)?shù)竭_(dá)某個(gè)程度時(shí)該句子就應(yīng)當(dāng)被抽取作為摘要的重要度預(yù)先分配給文章段中的每個(gè)句子,然后通過(guò)把每個(gè)被抽取句子的重要度相加來(lái)評(píng)估該摘要。
另一方面,自動(dòng)評(píng)估自由構(gòu)成的摘要是困難的。這是因?yàn)?,可能?yīng)當(dāng)獲得一個(gè)文章段的多個(gè)合適的摘要,因此為所有合適的摘要準(zhǔn)備正確信息是非常困難的。
于是,在有關(guān)技術(shù)中,就根據(jù)個(gè)人的知識(shí)和經(jīng)驗(yàn)手工地進(jìn)行對(duì)自由構(gòu)成的摘要的評(píng)估。在下面引用的文獻(xiàn)1中所示的方法,就是在相關(guān)技術(shù)中存在的一種自動(dòng)評(píng)估摘要的方法。在引用文獻(xiàn)1的處理方法中,利用再調(diào)用比(recall ratio)、相關(guān)比(relevance ratio)、基于計(jì)算機(jī)處理所抽取的句子與人事先選擇的重要句子之間的一致性的F值,進(jìn)行摘要評(píng)估。
也可以通過(guò)利用字的頻率向量(frequency vector of words)確定自由生成的(freely made)摘要與人事先準(zhǔn)備好的正確摘要之間的相似度(degree of similarity)而認(rèn)識(shí)自由生成的摘要的評(píng)估?!耙梦墨I(xiàn)1Shu Nobata等,集成多個(gè)評(píng)估標(biāo)準(zhǔn)的重要句子抽取系統(tǒng),第七屆語(yǔ)言處理學(xué)會(huì)年會(huì)論文集,pp301-304,2001。
在引用文獻(xiàn)1中所示的評(píng)估自由制作的摘要的處理中,利用字頻率向量確定目標(biāo)摘要與準(zhǔn)備好的正確摘要之間的相似度。因此有這樣的趨勢(shì),即如果表示摘要的內(nèi)容的關(guān)鍵字的分布類(lèi)似于被認(rèn)為是正確的摘要的關(guān)鍵字的分布,則摘要的評(píng)估值變高。就是說(shuō),如果某摘要包括某些在正確摘要中存在的字,該摘要將獲得一個(gè)確定的好評(píng)估,即使該摘要的形式作為一段文章來(lái)說(shuō)是極其難讀的。因此,這種摘要獲得好摘要的評(píng)估是有問(wèn)題的。
在相關(guān)技術(shù)中,專(zhuān)家評(píng)估手工構(gòu)成的摘要。然而毫無(wú)疑問(wèn),專(zhuān)家的評(píng)估取決于評(píng)估者的經(jīng)驗(yàn)和技巧。因此,有的時(shí)候,對(duì)同一個(gè)摘要的評(píng)估可能因評(píng)估者的不同而不同,有的時(shí)候,即使在評(píng)估者相同時(shí)也因評(píng)估的時(shí)間不同而有不同的評(píng)估。因此,如果像相關(guān)技術(shù)中那樣,根據(jù)專(zhuān)家的經(jīng)驗(yàn)和技巧來(lái)評(píng)估手工構(gòu)成的摘要,則不但沒(méi)有摘要的評(píng)估的可重復(fù)性,而且要做到公平地評(píng)估摘要也很困難。
需要不受評(píng)估者的主觀影響并且可重復(fù)的客觀評(píng)估的、對(duì)包括自由構(gòu)造的摘要在內(nèi)的摘要的自動(dòng)評(píng)估處理。
現(xiàn)在考察對(duì)由計(jì)算機(jī)自動(dòng)生成的摘要的評(píng)估與由專(zhuān)家自由構(gòu)成的摘要的評(píng)估的比較。計(jì)算機(jī)生成的摘要在概括內(nèi)容和句子流暢的適當(dāng)性方面的概括精確度一般比由人制作的摘要低。因此許多情況下,由計(jì)算機(jī)生成的摘要,其逼真度達(dá)不到與人工摘要相同的程度。
假設(shè)“好摘要”具有這樣的逼真度,該逼真度達(dá)到使得難以區(qū)分該摘要與手工摘要的程度,這個(gè)“好摘要”使得由計(jì)算機(jī)生成的該摘要的句子結(jié)構(gòu)和摘要內(nèi)容達(dá)到與由人工生成的摘要相似的程度。因此應(yīng)當(dāng)明白,按“計(jì)算機(jī)摘要”和“手工摘要”劃分類(lèi)別可用作為摘要的評(píng)估。
因此本發(fā)明的目的是提供一種自動(dòng)執(zhí)行不僅評(píng)估通過(guò)抽取重要句子作出的摘要而且也評(píng)估利用計(jì)算機(jī)自由地生成的摘要的處理的方法。
本發(fā)明的另一個(gè)目的是提供一種實(shí)現(xiàn)這個(gè)處理方法的裝置。
本發(fā)明的另一個(gè)目的是提供一種其中記錄有用于在計(jì)算機(jī)上執(zhí)行這個(gè)自動(dòng)摘要評(píng)估處理的程序的計(jì)算機(jī)可讀的記錄媒體。
本發(fā)明的另一個(gè)目的是提供一種把各種用于獲得摘要的處理裝置分成類(lèi)別(classification)并執(zhí)行自動(dòng)評(píng)估利用這些類(lèi)別的裝置獲得的摘要的處理方法,提供一種用于實(shí)現(xiàn)這個(gè)處理的裝置和在計(jì)算機(jī)上執(zhí)行這個(gè)處理的程序。
因此,本發(fā)明提供的摘要評(píng)估方法包含下述步驟訪(fǎng)問(wèn)用于存儲(chǔ)解決方案(solution)數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置,其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個(gè)問(wèn)題、以及由該摘要的評(píng)估構(gòu)成的解決方案;從解決方案數(shù)據(jù)存儲(chǔ)裝置中獲取解決方案數(shù)據(jù);從解決方案數(shù)據(jù)的問(wèn)題中抽取特征并建立解決方案和特征的集合的組;用有監(jiān)督的機(jī)器學(xué)習(xí)方法,從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的,并存儲(chǔ)該學(xué)習(xí)的結(jié)果;從輸入的文本抽取特征的集合;和根據(jù)學(xué)習(xí)的結(jié)果,推斷在從特征抽取步驟中獲得的特征而抽取了集合的情況下,哪種解決方案是最容易得到成功的。
因此,本發(fā)明提供的摘要評(píng)估裝置包含用于存儲(chǔ)解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置,其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個(gè)問(wèn)題、以及由該摘要的評(píng)估構(gòu)成的解決方案;解決方案/特征對(duì)抽取裝置,用于獲得解決方案數(shù)據(jù)、從解決方案數(shù)據(jù)的問(wèn)題中抽取特征并建立解決方案和特征的集合的組;機(jī)器學(xué)習(xí)裝置,用于用有監(jiān)督的機(jī)器學(xué)習(xí)方法,從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的,并存儲(chǔ)該學(xué)習(xí)的結(jié)果;特征抽取裝置,用于從輸入的文本抽取特征的集合;和評(píng)估推斷裝置,用于根據(jù)學(xué)習(xí)的結(jié)果,推斷在從特征抽取裝置獲得的特征而抽取了的集合的情況下,哪種解決方案是最容易得到成功的。
本發(fā)明提供一種其中記錄有使計(jì)算機(jī)執(zhí)行這個(gè)摘要評(píng)估方法的各步驟的摘要評(píng)估程序的計(jì)算機(jī)可讀的記錄媒體。
本發(fā)明中,事先準(zhǔn)備大量的由例子構(gòu)成的解決方案數(shù)據(jù),各個(gè)例子被分配由對(duì)每個(gè)由機(jī)器生成的摘要和每個(gè)由人建立的摘要的摘要評(píng)估構(gòu)成的解決方案。對(duì)于每個(gè)例子,抽取解決方案和特征的集合的組,并用機(jī)器學(xué)習(xí)技術(shù)從所抽取的解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案(摘要評(píng)估)是最容易獲得成功的。之后,當(dāng)構(gòu)成某主題的摘要被輸入時(shí),從所輸入的摘要中抽取特征的集合,然后通過(guò)參考機(jī)器學(xué)習(xí)的結(jié)果,通過(guò)推斷就哪種特征的集合而言哪種解決方案是容易得到成功的。
這樣就有可能提供一種可重復(fù)的、無(wú)偏見(jiàn)的評(píng)估,而不受評(píng)估者的經(jīng)驗(yàn)和技巧的影響。
例如,表示摘要是用計(jì)算機(jī)生成的“機(jī)器摘要”和表示摘要是由人制作的的“手工摘要”這兩種類(lèi)別可用作分配給解決方案數(shù)據(jù)的解決方案。在這種情況下,在本發(fā)明中,要對(duì)輸入的摘要是“機(jī)器摘要”還是“手工摘要”作出判定。這兩種類(lèi)別可以利用處理計(jì)算機(jī)由機(jī)器處理來(lái)作分配,以便從作為解決方案數(shù)據(jù)準(zhǔn)備的摘要本身中自動(dòng)地獲得。在通過(guò)機(jī)器處理分配類(lèi)別時(shí),在分配解決方案中所涉及的處理負(fù)荷能得到減輕。在考慮解決方案數(shù)據(jù)的精確性時(shí),用方案是由專(zhuān)家分配的解決方案數(shù)據(jù)也是可能的。在這種情況下,也可能按照評(píng)估分配三個(gè)或五個(gè)類(lèi)別,以便執(zhí)行多階段評(píng)估,諸如三個(gè)階段、五個(gè)階段的評(píng)估,等等。
在計(jì)算機(jī)上實(shí)現(xiàn)本發(fā)明的裝置、功能或元件的程序,可以存儲(chǔ)在適當(dāng)?shù)挠?jì)算機(jī)可讀的記錄媒體上,諸如便攜式存儲(chǔ)媒體、半導(dǎo)體存儲(chǔ)器或硬盤(pán)等中,可以通過(guò)在這種記錄媒體上的記錄而提供,或者通過(guò)利用通過(guò)通信接口的通信網(wǎng)絡(luò)的交換而提供。
解決方案數(shù)據(jù)存儲(chǔ)單元11是用于存儲(chǔ)構(gòu)成用于機(jī)器學(xué)習(xí)過(guò)程中的有監(jiān)督的數(shù)據(jù)的數(shù)據(jù)(解決方案數(shù)據(jù))的裝置。由問(wèn)題和解決方案的集構(gòu)成的例子作為解決方案數(shù)據(jù)被存儲(chǔ)在解決方案數(shù)據(jù)存儲(chǔ)單元11中。問(wèn)題包括概括之前的一個(gè)文章段和一個(gè)摘要本身。摘要既可以由計(jì)算機(jī)制作,也可以由人制作。解決方案是對(duì)摘要的評(píng)估,有兩個(gè)類(lèi)別“由計(jì)算機(jī)產(chǎn)生的摘要(計(jì)算機(jī)摘要)”和“由人產(chǎn)生的摘要(手工摘要)”。這兩個(gè)類(lèi)別可以根據(jù)一種用于生成摘要的處理技術(shù)自動(dòng)地分配,或者可以由人分配。使用“計(jì)算機(jī)摘要”和“手工摘要”這兩種類(lèi)別作為解決方案的理由是,為了能根據(jù)生成摘要的處理裝置機(jī)械地分配類(lèi)別。就是說(shuō),“計(jì)算機(jī)摘要”的解決方案(類(lèi)別)被自動(dòng)地分配給計(jì)算機(jī)自動(dòng)地生成的摘要。被分配以解決方案“手工摘要”的解決方案數(shù)據(jù),被用于由人制作的摘要。這就減輕了在分配解決方案中所牽涉到的處理負(fù)荷。此外,在解決方案的準(zhǔn)確性重要時(shí),可以由專(zhuān)家把解決方案分配給每個(gè)例子。
解決方案/特征對(duì)抽取單元12,是用于從存儲(chǔ)在解決方案數(shù)據(jù)存儲(chǔ)單元11中的每個(gè)例子中抽取解決方案和特征的集的組的裝置??梢猿槿∫粋€(gè)特征,作為(1)指示句子是否流暢的信息,(2)指示內(nèi)容是否被適當(dāng)表達(dá)的信息,(3)用于自動(dòng)概括的特征信息,等等。
(1)作為指示句子流暢性的信息,可以抽取k語(yǔ)法形態(tài)序列(k-gram morph sequence)的出現(xiàn)的百分率或者以主體(corpus)的形式實(shí)現(xiàn)的解決方案數(shù)據(jù)存儲(chǔ)單元11中的修飾從句之間的語(yǔ)義一致的程度。
(2)作為指示該文章段的內(nèi)容是否被適當(dāng)表達(dá)的信息,在作概括之前該文章段中存在的關(guān)鍵短語(yǔ)(key-phrases)的包含率被抽取。
此外,(3)抽取句子的位置、關(guān)于句子是否是起始句子的信息、TF/IDF(Term Frequency/Inversed Document Frequency-術(shù)語(yǔ)頻率/逆文件頻率)、句子長(zhǎng)度、或者諸如特征表達(dá)/連接詞/功能字之類(lèi)的關(guān)鍵表達(dá)的存在,作為用于自動(dòng)概括的特征信息。
機(jī)器學(xué)習(xí)單元13是用于用有監(jiān)督的機(jī)器學(xué)習(xí)方法從由解決方案/特征對(duì)抽取單元12抽取的解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最直截了當(dāng)?shù)难b置。這個(gè)學(xué)習(xí)的結(jié)果然后被存儲(chǔ)在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲(chǔ)單元14中。如果機(jī)器學(xué)習(xí)單元13用有監(jiān)督的機(jī)器學(xué)習(xí)方法學(xué)習(xí),則可以用這種方法執(zhí)行處理。這種技術(shù)例如可以是判定樹(shù)技術(shù)、支持向量技術(shù)、參數(shù)調(diào)整技術(shù)、簡(jiǎn)單貝葉斯(Baysian)技術(shù)、最大熵(entropy)技術(shù)或判定表技術(shù)。
特征抽取單元15是用于從評(píng)估目標(biāo)的摘要2中抽取一組特征并把所抽取的該組特征傳送給評(píng)估推斷單元16的裝置。
評(píng)估推斷單元16是用于參考學(xué)習(xí)結(jié)果數(shù)據(jù)存儲(chǔ)單元14的學(xué)習(xí)結(jié)果數(shù)據(jù)并在特征集合被從特征抽取單元15傳送過(guò)來(lái)時(shí)推斷對(duì)其來(lái)說(shuō)某解決方案(評(píng)估)是最直截了當(dāng)?shù)慕Y(jié)果、然后輸出一個(gè)由該推斷結(jié)果構(gòu)成的評(píng)估3的裝置。
圖2表示本發(fā)明的一個(gè)處理流程圖。在自動(dòng)摘要評(píng)估處理裝置1的解決方案數(shù)據(jù)存儲(chǔ)單元11中存儲(chǔ)著大量的例子作為解決方案數(shù)據(jù),其中將解決方案信息分配給多種語(yǔ)言的數(shù)據(jù)。例如,在下面的示例1中表示了取作為輸入的文本的一個(gè)例子。
示例1
首先,在解決方案/特征對(duì)抽取單元12,從解決方案數(shù)據(jù)存儲(chǔ)單元11為每個(gè)例子抽取一解決方案和特征的集的一組(步驟S1)。例如,抽取以下作為特征特征e1主體中k語(yǔ)法形態(tài)序列的出現(xiàn);特征e2修飾從句之間的語(yǔ)義一致的程度;特征e3在概括之后具有大的TF/IDF值的“自然語(yǔ)言用詞”的包含率;特征e4對(duì)輸入文章段的第一個(gè)句子是否在被使用的確定;特征e5輸出摘要的長(zhǎng)度;和特征e6確定在摘要被抽取的位置之前是否有連接詞“tsumari(換言之)”。
解決方案/特征對(duì)抽取單元12檢查對(duì)于每個(gè)例子來(lái)說(shuō),是否在主體中出現(xiàn)一個(gè)k語(yǔ)法形態(tài)序列,作為特征e1,如果存在,就抽取之。k語(yǔ)法形態(tài)序列例如是一個(gè)三語(yǔ)法詞素的“動(dòng)詞を(doushi-wo)<|>する(suru)(其中<|>表示一個(gè)分割)”,這是從“動(dòng)詞を(doushi-wo)<|>省略(syouryaku)<|>する(suru)”中省略“省略(syouryaku)”得出的。如果形態(tài)序列“動(dòng)詞を(doushi-wo)<|>する(suru)”不在主體中出現(xiàn),就推斷是因?yàn)樵摫磉_(dá)作為句子看起來(lái)不流暢。k語(yǔ)法形態(tài)序列在主體中的出現(xiàn),可以被用作特征e1,以便確定摘要的流暢性。
解決方案/特征對(duì)抽取單元12通過(guò)檢查例如是否在從“動(dòng)詞を(doushi-wo)<|>省略(syouryaku)<|>すゐ(suru)”中省略“省略(syouryaku)”得出的“動(dòng)詞を(doushi-wo)<|>する(suru)”的主體中存在修飾“する(suru)”從句的從句“動(dòng)詞を(doushi-wo)”,抽取修飾從句之間的一致程度作為特征e2。如果在“動(dòng)詞を(doushi-wo)”和“する(suru)”之間沒(méi)有修飾(modification),則可以推斷該表達(dá)不是一個(gè)流暢的句子。
解決方案/特征對(duì)抽取單元12抽取例如一個(gè)關(guān)于是否在概括之前的文章段中出現(xiàn)的關(guān)鍵短語(yǔ)(自然語(yǔ)言的短語(yǔ)的字)被包含在摘要中的關(guān)鍵短語(yǔ)包含率,作為特征e3。如果這些短語(yǔ)被盡可能多地包含在摘要中,則可以確定該摘要是個(gè)準(zhǔn)確表達(dá)這個(gè)文章段(文本)的內(nèi)容的好摘要。
TF/IDF技術(shù)主要可以用于關(guān)鍵短語(yǔ)自動(dòng)抽取處理。TF是一個(gè)表示某字在某文章段中的出現(xiàn)次數(shù)或頻率的值。IDF是已經(jīng)具有的某字在其中出現(xiàn)的一組大量的文件(documents)的文件數(shù)的倒數(shù)。通常,其TF與IDF之和的值大的字適合作為關(guān)鍵短語(yǔ)。假設(shè)“自然言語(yǔ)(shizengengo)(自然語(yǔ)言)”、“動(dòng)詞(doushi)(動(dòng)詞)”、“省略(syouyaku)(omission)”、“復(fù)元(fukugen)(恢復(fù))”、“表層の表現(xiàn)(hyousou-no-hyougen)(表面情況表示)(surface caserepresentation)”和“用例(yourei)(例子)”對(duì)應(yīng)于圖3中所示的文章段中的短語(yǔ)。這些字在表達(dá)這個(gè)文本的內(nèi)容時(shí)是重要字,因此希望在摘要中出現(xiàn)這些字。
解決方案/特征對(duì)抽取單元12利用例如TF/IDF技術(shù)來(lái)抽取構(gòu)成前面所述的那種關(guān)鍵短語(yǔ)的字。它然后檢查T(mén)F或IDF的值是否高,以及這些字是否被包含在摘要中,然后抽取這些字的包含率,作為特征e3。
解決方案/特征對(duì)抽取單元12然后抽取對(duì)輸入文本中的第一個(gè)句子是否被使用的確定,作為特征e4。重要句子出現(xiàn)在一個(gè)文章段的開(kāi)頭一般是非常普遍的。因此可以確定,如果采用靠近文件的開(kāi)頭的句子作為摘要?jiǎng)t能得到好的摘要。
解決方案/特征對(duì)抽取單元12也檢查摘要的長(zhǎng)度并抽取這個(gè)長(zhǎng)度,作為特征e5。摘要的目標(biāo)一般是要短句子。因此可以確定,短摘要是好摘要。
解決方案/特征對(duì)抽取單元12也抽取對(duì)是否在被作為摘要抽取的位置之前有“つまり(tsumari)(換言之)”之類(lèi)的連接詞的確定,作為特征e6。還存在著一些關(guān)鍵的表達(dá),例如連接詞、功能字,它們指示希望作為摘要來(lái)抽取的句子和位置。例如,當(dāng)存在“tsumari”之類(lèi)的連接詞時(shí),在這個(gè)連接詞“tsumari”的后面就存在概括這個(gè)文本的內(nèi)容的表達(dá)。這意味著,如果這部分被抽取,則可以確定是好摘要。
機(jī)器學(xué)習(xí)單元13然后用機(jī)器學(xué)習(xí)方法從由解決方案/特征對(duì)抽取單元12抽取解決方案和特征的集的組學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的(例如“機(jī)器摘要”、或“手工摘要”)(步驟S2)。機(jī)器學(xué)習(xí)單元13例如采用簡(jiǎn)單貝葉斯方法、判定表技術(shù)、最大熵方法或支持向量機(jī)器方法等等作為有監(jiān)督的機(jī)器學(xué)習(xí)方法。
簡(jiǎn)單貝葉斯方法是根據(jù)貝葉斯定理推斷每個(gè)類(lèi)別的概率的方法,該方法將概率值最高的類(lèi)別作為要采用的類(lèi)別。
判定表技術(shù)定義由特征和類(lèi)別組成的各組,用于在一個(gè)有預(yù)定優(yōu)先級(jí)的表中存儲(chǔ)。當(dāng)要被提交作檢查的輸入然后被提供時(shí),用該表從最高優(yōu)先級(jí)開(kāi)始按順序比較該輸入數(shù)據(jù)和所定義的特征。如果特征匹配,則所定義的類(lèi)別被作為輸入類(lèi)別。
在最大熵方法中,當(dāng)采用預(yù)定集合的特征fj(1≤j≤k)作為F集合時(shí),獲得在滿(mǎn)足規(guī)定約束條件的同時(shí)某個(gè)表達(dá)何時(shí)意味著熵最大的概率分布,然后按照這個(gè)概率分布獲得的每個(gè)類(lèi)別的概率,獲得概率值較大的類(lèi)別。
支持向量機(jī)器方法是一種將空間劃分成超平面對(duì)兩個(gè)類(lèi)別中的數(shù)據(jù)分類(lèi)的方法。
判定表技術(shù)和最大熵方法在下文引用的參考文獻(xiàn)2中有說(shuō)明,支持向量機(jī)器方法在下文引用的參考文獻(xiàn)3和4中有說(shuō)明。
“引用參考文獻(xiàn)2Society for language analysis in electronicinformation communication studies and communications(電子信息通信研究和通信中的語(yǔ)言分析學(xué)會(huì)),NCL2001-2,(2001),Ambiguityresolution trials employing various machine learningtechniques(采用各種機(jī)器學(xué)習(xí)方法的歧義解析試驗(yàn))(村田真樹(shù)、內(nèi)山將夫、內(nèi)元清貴、馬青、井佐原均、種々の機(jī)械學(xué)習(xí)法を用いた多羲解消実験、電子情報(bào)通信學(xué)會(huì)言語(yǔ)理解とコミユニケ一ション研究會(huì))。”“引用參考文獻(xiàn)3Nello Cristianini和John Shawe-TaylorAn Introduction to Support Vector Machines and otherkernel-based learning methods(Cambridge University Press,2000)(支持向量機(jī)和其它基于內(nèi)核的學(xué)習(xí)方法的介紹,劍橋大學(xué)出版社,2000年)”“引用參考文獻(xiàn)4Taku Kudoh,TinysvmSupport VectorMachines(支持向量機(jī))(http//cl.aist-nara.ac.jp/taku-ku//software/TinySVM/index.html,2000)”。
之后,將希望評(píng)估的摘要2輸入到特征抽取單元15(步驟S3)。
特征抽取單元15采用與解決方案/特征對(duì)抽取單元12的基本相同的處理從輸入的摘要2中抽取一組特征,并把這些特征傳送給評(píng)估推斷單元16(步驟S4)。
評(píng)估推斷單元16根據(jù)在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲(chǔ)單元14中的學(xué)習(xí)結(jié)果收集在到傳送過(guò)來(lái)的特征時(shí)推斷哪種解決方案是最直截了當(dāng)?shù)?,然后輸出該推斷解即評(píng)估3(步驟S5)。例如,評(píng)估推斷單元16如果推斷,作為根據(jù)從摘要2中抽取的特征集用機(jī)器學(xué)習(xí)技術(shù)執(zhí)行處理的結(jié)果,摘要2的解決方案是“手工摘要”,則可以輸出一個(gè)“手工摘要”或“好摘要”的評(píng)估3。評(píng)估推斷單元16在推斷出摘要2的解決方案是“機(jī)器摘要”時(shí),也可以輸出一個(gè)“機(jī)器摘要”或“壞摘要”的評(píng)估3。
以上給出了本發(fā)明的實(shí)際實(shí)現(xiàn)的說(shuō)明,但是在本發(fā)明的范圍內(nèi)可以有各種修改。例如,在舉例說(shuō)明的本發(fā)明的一個(gè)實(shí)施例中,將“機(jī)器摘要”和“手工摘要”這兩個(gè)類(lèi)別作為存儲(chǔ)在解決方案數(shù)據(jù)存儲(chǔ)單元11中的解決方案數(shù)據(jù),但是也可以采用三種或更多的類(lèi)別作為解決方案。
按照本發(fā)明,將原始文本和摘要作為問(wèn)題,為摘要生成裝置準(zhǔn)備大量的解決方案數(shù)據(jù),作為“人工的”或“機(jī)器的”解決方案。然后根據(jù)利用這個(gè)解決方案數(shù)據(jù)的機(jī)器學(xué)習(xí)得出的結(jié)果,對(duì)作為處理對(duì)象的摘要推斷出是“機(jī)器摘要”還是“手工摘要”的評(píng)估。因此,即使處理的對(duì)象是自由建立的摘要,也有可能對(duì)這個(gè)評(píng)估進(jìn)行自動(dòng)處理。因此即使對(duì)自由制作的摘要也能進(jìn)行可重復(fù)的、無(wú)偏見(jiàn)的評(píng)估。
按照本發(fā)明,對(duì)于同一個(gè)摘要總是輸出等同的評(píng)估。因此可以對(duì)相同的摘要多次重復(fù)進(jìn)行相同的評(píng)估處理,當(dāng)把執(zhí)行本發(fā)明的處理系統(tǒng)調(diào)整得性能優(yōu)異時(shí),則能直截了當(dāng)?shù)孬@得關(guān)于這個(gè)處理系統(tǒng)的評(píng)估。
按照本發(fā)明,有可能對(duì)相同的摘要重復(fù)相同的評(píng)估,能共享摘要處理方法的評(píng)估。
權(quán)利要求
1.一種采用計(jì)算機(jī)的摘要評(píng)估方法,包含以下步驟訪(fǎng)問(wèn)用于存儲(chǔ)解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置,其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個(gè)問(wèn)題、以及由來(lái)自解決方案數(shù)據(jù)存儲(chǔ)器的摘要的評(píng)估構(gòu)成的一個(gè)解決方案;從解決方案數(shù)據(jù)存儲(chǔ)裝置獲得解決方案數(shù)據(jù);從解決方案數(shù)據(jù)的問(wèn)題中抽取特征并建立解決方案和特征的集合的組;用有監(jiān)督的機(jī)器學(xué)習(xí)方法,從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的,并存儲(chǔ)該學(xué)習(xí)的結(jié)果;從輸入的文本抽取特征的集合;和根據(jù)學(xué)習(xí)的結(jié)果,推斷在從特征抽取步驟中獲得的特征而抽取了的集合的情況下,哪種解決方案是最容易得到成功的。
2.按照權(quán)利要求1的摘要評(píng)估方法,其中,解決方案由兩個(gè)類(lèi)別組成機(jī)器處理的摘要、及人制作的摘要。
3.一種摘要評(píng)估裝置,包含用于存儲(chǔ)解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置,其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個(gè)問(wèn)題、以及由該摘要的評(píng)估構(gòu)成的一個(gè)解決方案;解決方案/特征對(duì)抽取裝置,用于從解數(shù)據(jù)存儲(chǔ)裝置獲得解決方案數(shù)據(jù)、從該解決方案數(shù)據(jù)的問(wèn)題中抽取特征并建立解決方案和特征的集合的組;機(jī)器學(xué)習(xí)裝置,用于用有監(jiān)督的機(jī)器學(xué)習(xí)方法,從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的,并存儲(chǔ)該學(xué)習(xí)的結(jié)果;特征抽取裝置,用于從輸入的文本抽取特征的集;和評(píng)估推斷裝置,用于根據(jù)學(xué)習(xí)的結(jié)果,推斷在從特征抽取裝置獲得的特征而抽取了的集合的情況下,哪種解決方案是最容易得到成功的。
4.按照權(quán)利要求3的摘要評(píng)估裝置,其中,解決方案由兩個(gè)類(lèi)別組成機(jī)器處理的摘要、及人制作的摘要。
5.一種記錄有摘要評(píng)估程序的計(jì)算機(jī)可讀的記錄媒體,該程序使計(jì)算機(jī)執(zhí)行以下處理訪(fǎng)問(wèn)用于存儲(chǔ)解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲(chǔ)裝置,其中解決方案數(shù)據(jù)由一個(gè)組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個(gè)問(wèn)題、以及由來(lái)自解決方案存儲(chǔ)器的摘要的評(píng)估構(gòu)成的一個(gè)解決方案;從解決方案數(shù)據(jù)存儲(chǔ)裝置獲得解決方案數(shù)據(jù);存儲(chǔ)解決方案數(shù)據(jù),該解決方案數(shù)據(jù)由一個(gè)組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個(gè)問(wèn)題、以及由摘要的評(píng)估構(gòu)成的一個(gè)解決方案。從解決方案數(shù)據(jù)的問(wèn)題中抽取特征并建立解決方案和特征的集合的組;用有監(jiān)督的機(jī)器學(xué)習(xí)方法,從解決方案和特征的集合的組中學(xué)習(xí)在哪種特征時(shí)哪種解決方案是最容易的,并存儲(chǔ)該學(xué)習(xí)的結(jié)果;從輸入的文本抽取特征的集合;和根據(jù)學(xué)習(xí)的結(jié)果,推斷在從特征抽取處理中獲得的特征而抽取了的集合的情況下,哪種解決方案是最容易得到成功的。
6.按照權(quán)利要求5的計(jì)算機(jī)可讀的記錄媒體,其中,解決方案由兩個(gè)類(lèi)別組成機(jī)器處理的摘要、及人制作的摘要。
全文摘要
按照本發(fā)明的裝置在解決方案數(shù)據(jù)存儲(chǔ)單元中存儲(chǔ)由文章段、文章段的摘要和對(duì)摘要的評(píng)估構(gòu)成的例子。從所存儲(chǔ)的例子中抽取解決方案和特征的集合的組,并用機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)在哪種情況下哪種解決方案是最直截了當(dāng)?shù)?,學(xué)習(xí)的結(jié)果被存儲(chǔ)在學(xué)習(xí)結(jié)果數(shù)據(jù)存儲(chǔ)單元中。然后,從輸入的摘要中抽取特征的集,推斷就所抽取的特征集合而言哪種解決方案是容易得到成功的,并將其作為評(píng)估輸出。
文檔編號(hào)G06F17/30GK1435774SQ0310217
公開(kāi)日2003年8月13日 申請(qǐng)日期2003年1月30日 優(yōu)先權(quán)日2002年1月31日
發(fā)明者村田真樹(shù) 申請(qǐng)人:獨(dú)立行政法人通訊綜合研究所