專利名稱:語言處理系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及詞素分析技術(shù),特別涉及語言處理系統(tǒng)。
背景技術(shù):
在從文本合成聲音的系統(tǒng)中,利用以下的功能,即與預(yù)先登記在系統(tǒng)中的系統(tǒng)單詞相比,優(yōu)先將系統(tǒng)使用者所追加登記的用戶登記單詞用于聲音合成中。例如,即使在系統(tǒng)中登記了“神戸(こうべ)”這樣的系統(tǒng)單詞,如果系統(tǒng)使用者向系統(tǒng)追加了“神戸(かんべ)”這樣的用戶登記單詞,則以后也使“神戸(かんべ)”比“神戸(こうべ)”的發(fā)音優(yōu)先,而合成聲音。
但是,在不是如日語那樣將單詞隔開寫(例如日語中,為了容易念懂而將詞與詞之間分隔開的寫法)的語言中,即使在連續(xù)寫的階段,文本中包含系統(tǒng)使用者所追加的用戶登記單詞的情況下,在詞素分析的過程中也有可能生成不包含與用戶登記單詞對應(yīng)的詞素的單詞序列。例如,針對“在阪神戸の”這樣的文本,假設(shè)系統(tǒng)使用者希望以“神戸(かんべ)”這樣的讀法輸出“神戸”的部分,并登記為用戶登記單詞。但是,在系統(tǒng)進(jìn)行詞素分析的過程中,生成了隔開寫為“在—阪神—戸—の”的單詞序列的情況下,為了分割“阪神”和“戸”之間,而不輸出“神戸(かんべ)”這樣的讀法。相反,提出了以下的技術(shù)在文本中包含播放禁止用語等對于系統(tǒng)使用者來說是不理想的單詞的情況下,在通過詞素分析確定了單詞序列后,檢測出與記載在列表中的播放禁止用語一致的詞素,然后跳過與播放禁止用語一致的詞素地讀出,或者改讀為其他的單詞(例如參考專利文獻(xiàn)1)。但是,并沒有在確定隔開寫的單詞序列之前,預(yù)先防止生成包含對于系統(tǒng)使用者來說不理想的單詞的單詞序列的系統(tǒng)。
在將單詞隔開寫的語言中,也依然存在同樣的問題。這是因?yàn)榧词箚卧~的分界是明顯的,如果在詞素分析中評價(jià)與前后相連的單詞的連接性的強(qiáng)度而確定單詞序列,則即使在登記有用戶登記單詞的情況下,也并不一定只限于生成包含與用戶登記單詞對應(yīng)的詞素的單詞序列。
專利文獻(xiàn)1特開平5-165486號公報(bào)發(fā)明內(nèi)容本發(fā)明提供一種預(yù)先防止生成包含對于系統(tǒng)使用者來說不理想的單詞的單詞序列的語言處理系統(tǒng)。
根據(jù)本發(fā)明的第一形式,提供一種語言處理系統(tǒng),具備保存使用禁止詞素的禁止詞素存儲部件;根據(jù)連續(xù)寫的文本生成分別用多個(gè)詞素隔開寫了的多個(gè)單詞序列候選的序列候選生成部件;從禁止詞素存儲部件中讀出使用禁止詞素,從多個(gè)單詞序列候選中排除包含使用禁止詞素的候選,在多個(gè)單詞序列候選中選擇多個(gè)詞素之間連接的可能性最高的最優(yōu)單詞序列的最優(yōu)序列選擇部件。
根據(jù)本發(fā)明的第二形式,提供一種語言處理系統(tǒng),具備保存使用禁止詞素的禁止詞素存儲部件;讀出保存在禁止詞素存儲部件中的使用禁止詞素,禁止使用禁止詞素的使用,根據(jù)連續(xù)寫的文本生成分別用多個(gè)詞素隔開寫了的多個(gè)單詞序列候選的序列候選生成部件;在多個(gè)單詞序列候選中選擇多個(gè)詞素之間連接的可能性最高的最優(yōu)單詞序列的最優(yōu)序列選擇部件。
根據(jù)本發(fā)明,能夠提供一種預(yù)先防止生成包含對于系統(tǒng)使用者來說不理想的單詞的單詞序列的語言處理系統(tǒng)。
圖1是表示本發(fā)明的實(shí)施例1的語言處理系統(tǒng)的框圖。
圖2是本發(fā)明的實(shí)施例1的語言處理系統(tǒng)所生成的日語的一個(gè)例子的格子(lattice)構(gòu)造的第一模式圖。
圖3是本發(fā)明的實(shí)施例1的語言處理系統(tǒng)所生成的中國語的一個(gè)例子的格子構(gòu)造的第一模式圖。
圖4是本發(fā)明的實(shí)施例1的語言處理系統(tǒng)所生成的英語的一個(gè)例子的格子構(gòu)造的第一模式圖。
圖5是表示本發(fā)明的實(shí)施例1的保存在禁止詞素存儲部件中的日語的一個(gè)例子的禁止詞素的第一表。
圖6是表示本發(fā)明的實(shí)施例1的保存在禁止詞素存儲部件中的中國語的一個(gè)例子的禁止詞素的第一表。
圖7是表示本發(fā)明的實(shí)施例1的保存在禁止詞素存儲部件中的英語的一個(gè)例子的禁止詞素的第一表。
圖8是本發(fā)明的實(shí)施例1的語言處理系統(tǒng)所生成的日語的一個(gè)例子的格子構(gòu)造的第二模式圖。
圖9是本發(fā)明的實(shí)施例1的語言處理系統(tǒng)所生成的中國語的一個(gè)例子的格子構(gòu)造的第二模式圖。
圖10是本發(fā)明的實(shí)施例1的語言處理系統(tǒng)所生成的英語的一個(gè)例子的格子構(gòu)造的第二模式圖。
圖11是表示本發(fā)明的實(shí)施例1的語言處理方法的流程圖。
圖12是表示本發(fā)明的實(shí)施例1的保存在禁止詞素存儲部件中的禁止詞素的第二表。
圖13是本發(fā)明的實(shí)施例1的語言處理系統(tǒng)所生成的英語的其他例子的格子構(gòu)造的第一模式圖。
圖14是表示本發(fā)明的實(shí)施例1的保存在禁止詞素存儲部件中的英語的其他例子的禁止詞素的第一表。
圖15是本發(fā)明的實(shí)施例1的語言處理系統(tǒng)所生成的英語的其他例子的格子構(gòu)造的第二模式圖。
圖16是表示本發(fā)明的實(shí)施例2的語言處理系統(tǒng)的框圖。
圖17是本發(fā)明的實(shí)施例2的語言處理系統(tǒng)所生成的日語的一個(gè)例子的格子構(gòu)造的模式圖。
圖18是本發(fā)明的實(shí)施例2的語言處理系統(tǒng)所生成的中國語的一個(gè)例子的格子構(gòu)造的模式圖。
圖19是本發(fā)明的實(shí)施例2的語言處理系統(tǒng)所生成的英語的一個(gè)例子的格子構(gòu)造的模式圖。
圖20是本發(fā)明的實(shí)施例2的語言處理系統(tǒng)所生成的英語的其他例子的格子構(gòu)造的模式圖。
圖21是表示本發(fā)明的實(shí)施例2的語言處理方法的流程圖。
圖22是表示本發(fā)明的實(shí)施例3的語言處理系統(tǒng)的框圖。
圖23是表示本發(fā)明的實(shí)施例3的語言處理方法的流程圖。
圖24是表示本發(fā)明的實(shí)施例4的語言處理系統(tǒng)的框圖。
圖25是表示本發(fā)明的實(shí)施例4的保存在禁止詞素存儲部件中的日語的一個(gè)例子的禁止詞素的表。
圖26是用于說明本發(fā)明的實(shí)施例4的將禁止詞素追加保存到禁止詞素存儲部件中的中國語的一個(gè)例子的情況的圖。
圖27是用于說明本發(fā)明的實(shí)施例4的將禁止詞素追加保存到禁止詞素存儲部件中的英語的一個(gè)例子的情況的圖。
圖28是表示本發(fā)明的實(shí)施例4的語言處理方法的流程圖。
圖29是用于說明本發(fā)明的實(shí)施例4的將禁止詞素追加保存到禁止詞素存儲部件中的中國語的其他例子的圖。
圖30是表示本發(fā)明的實(shí)施例5的語言處理系統(tǒng)的框圖。
圖31是用于說明本發(fā)明的實(shí)施例5的將禁止詞素追加保存到禁止詞素存儲部件中的中國語的一個(gè)例子的圖。
圖32是用于說明本發(fā)明的實(shí)施例5的將禁止詞素追加保存到禁止詞素存儲部件中的英語的一個(gè)例子的圖。
圖33是表示本發(fā)明的實(shí)施例5的語言處理方法的流程圖。
圖34是用于說明本發(fā)明的實(shí)施例5的將禁止詞素追加保存到禁止詞素存儲部件中的中國語的其他例子的圖。
圖35是用于說明本發(fā)明的實(shí)施例5的將禁止詞素追加保存到禁止詞素存儲部件中的英語的其他例子的圖。
具體實(shí)施例方式
接著,參考附圖,說明本發(fā)明的實(shí)施例。在以下的附圖的記載中,對相同或類似的部分附加相同或類似的符號。另外,以下所示的實(shí)施例是示例用于對本發(fā)明的技術(shù)思想進(jìn)行具體化的裝置或方法的例子,本發(fā)明的技術(shù)思想的構(gòu)成部件的配置等并不只限于以下的說明。在權(quán)利要求范圍內(nèi),可以對本發(fā)明的技術(shù)思想進(jìn)行各種變更。
(實(shí)施例1)實(shí)施例1的語言處理系統(tǒng)如圖1所示,具備中央計(jì)算處理裝置(CPU)100a、與CPU100a連接的數(shù)據(jù)存儲裝置200。數(shù)據(jù)存儲裝置200進(jìn)而具備禁止詞素存儲部件202和系統(tǒng)辭典存儲部件201。禁止詞素存儲部件202保存以被禁止的讀法讀出的禁止詞素。系統(tǒng)辭典存儲部件201保存記錄了多個(gè)單詞的讀法和詞類的系統(tǒng)辭典。另外,CPU100a還具備序列候選生成部件111、最優(yōu)序列選擇部件112。序列候選生成部件111根據(jù)連續(xù)寫的文本生成分別用多個(gè)詞素隔開寫了的多個(gè)單詞序列候選。最優(yōu)序列選擇部件112從禁止詞素存儲部件202中讀出使用禁止詞素,從多個(gè)單詞序列候選中排除包含使用禁止詞素的候選,在多個(gè)單詞序列候選中選擇多個(gè)詞素之間連接的可能性最高的最優(yōu)單詞序列。
具體地說,序列候選生成部件111參照系統(tǒng)辭典將連續(xù)寫輸入了的文本分解為多個(gè)詞素,進(jìn)而生成將多個(gè)詞素配置在格子點(diǎn)上的格子(lattice)構(gòu)造。例如輸入日語的“主記憶上の空間が”這樣的文本,在系統(tǒng)辭典中登記了被分別附加了“主(ぬし)”、“主(しゆ)”、“主(あゐじ)”、“主(おも)”、“記憶(きおく)”、“上の空(うわのそら)”、“上(うえ)”、“上(かみ)”、“上(じよう)”、“の”、“空(そら)”、“空(くう)”、“空(から)”、“空間(くうかん)”、“間(かん)”、“間(あいだ)”、“間(はざま)”、“が”的讀法的詞素的情況下,序列候選生成部件111生成作為登記在系統(tǒng)辭典中的詞素的組合的圖2所示的格子(lattice)構(gòu)造50。在格子構(gòu)造50中包含多個(gè)單詞序列候選。例如如果以“主(ぬし)”為開始點(diǎn),則可以生成“主(ぬし)記憶(きおく)上の空(うわのそら)間(かん)が”這樣的單詞序列候選、“主(ぬし)記憶(きおく)上(うえ)の空間(くうかん)が”這樣的單詞序列候選等。
同樣,例如輸入中國語的“你看他拿著火車票”這樣的文本,在系統(tǒng)辭典中登記了分別被附加了“你(ni3)”、……“車票(che1piao4)”的讀法的詞素的情況下,序列候選生成部件111生成作為登記在系統(tǒng)辭典中的詞素的組合的圖3所示的格子構(gòu)造50。在格子構(gòu)造50中包含多個(gè)單詞序列候選。例如如果以“著”作為開始點(diǎn),則可以生成“著(zhe)火車票(huo3che1piao4)”這樣的單詞序列候選、“著火(zhao2huo3)車票(che1piao4)”這樣的單詞序列候選等。
另外,例如輸入英語的“Drink much mate”這樣的文本,在系統(tǒng)辭典中登記有分別被附加了“drink”……“mate”的讀法的詞素的情況下,序列候選生成部件111生成作為登記在系統(tǒng)辭典中的詞素的組合的圖4所示的格子構(gòu)造50。在格子構(gòu)造50中包含多個(gè)單詞序列候選。例如如果以“much”為開始點(diǎn),則可以生成“much mate[meit]”這樣的單詞序列候選、“much mate[matei]”這樣的單詞序列候選等。
圖1所示的禁止詞素存儲部件202保存以對于系統(tǒng)使用者來說不想輸出的“讀法”讀出的禁止詞素。例如如圖5所示,對于文字“主”,保存附加了作為對于系統(tǒng)使用者來說不想輸出的讀法的“おも”的讀法的禁止詞素“主(おも)”,對于字符串“上の空”,保存附加了作為對于系統(tǒng)使用者來說不想輸出的讀法的“うわのそら”的讀法的禁止詞素“上の空(うわのそら)”等。
同樣,例如如圖6所示,對于文字“看”,保存附加了作為對于系統(tǒng)使用者來說不想輸出的讀法的“ka1”的讀法的禁止詞素“看(ka1)”,對于字符串“著火”,保存附加了作為對于系統(tǒng)使用者來說不想輸出的讀法的“zhao2huo3”的讀法的禁止詞素“著火(zhao2huo3)”等。
另外,例如如圖7所示,對于字符串“mate”,保存附加了作為對于系統(tǒng)使用者來說不想輸出的讀法的“matei”的讀法的禁止詞素“mate[matei]”等。
圖1所示的最優(yōu)序列選擇部件112還具備禁止模塊114和選擇模塊12。禁止模塊114在包含在圖2所示的格子構(gòu)造50中的多個(gè)詞素中,檢索是否有與保存在禁止詞素存儲部件202中的禁止詞素對應(yīng)的詞素。進(jìn)而禁止模塊114在格子構(gòu)造50中檢索出禁止詞素的情況下,從格子構(gòu)造50中刪除禁止詞素。例如在如圖5所示在禁止詞素存儲部件202中分別保存了禁止詞素“主(おも)”和禁止詞素“上の空(うわのそら)”的情況下,如圖8所示,從格子構(gòu)造50中刪除禁止詞素“主(おも)”和“上の空(うわのそら)”。
同樣,如圖9所示,從格子構(gòu)造50中刪除禁止詞素“看(ka1)”和“著火(zhao2huo3)”。
另外,如圖10所示,從格子構(gòu)造50中刪除禁止詞素“mate[matei]”。
圖1所示的選擇模塊12利用深度優(yōu)先探索(depth-first search)、寬度優(yōu)先探索(breadth-first search)等探索算法,從圖8所示的刪除了禁止詞素后的格子構(gòu)造50中,選擇詞素間的連接可能性最高并且被判斷為讀法最接近的最優(yōu)單詞序列。在選擇時(shí),也同時(shí)利用最長一致法、文節(jié)數(shù)最小法、成本最小法等探索法(heuristics)。在此,作為最優(yōu)單詞序列,圖1所示的選擇模塊12從格子構(gòu)造50中選擇作為詞素間的連接可能性最高的單詞序列的“主(しゆ)記憶(きおく)上(じよう)の空間(くうかん)が”。聲音文件生成部件116生成用于輸出最優(yōu)單詞序列的讀法的聲音文件。
數(shù)據(jù)存儲裝置200還具備格子構(gòu)造存儲部件203和最優(yōu)序列存儲部件204。格子構(gòu)造存儲部件203保存序列候選生成部件111所生成的格子構(gòu)造50。最優(yōu)序列存儲部件204保存最優(yōu)序列選擇部件112所選擇出的最優(yōu)單詞序列。另外,CPU100a還與揚(yáng)聲器342、輸入裝置340、輸出裝置341、程序存儲裝置230、暫時(shí)存儲裝置231連接。揚(yáng)聲器342通過聲音輸出包含在聲音文件中的最優(yōu)單詞序列的讀法。作為輸入裝置340例如可以使用鍵盤、鼠標(biāo)等指針設(shè)備等。輸出裝置341可以使用液晶顯示器、監(jiān)視器等圖像顯示裝置、打印機(jī)等。程序存儲裝置230保存控制CPU100a的操作系統(tǒng)等。暫時(shí)存儲裝置231逐次存儲CPU100a的計(jì)算結(jié)果。作為程序存儲裝置230和暫時(shí)存儲裝置231,可以使用例如半導(dǎo)體存儲器、磁盤、光盤、光磁盤、磁帶等記錄程序的記錄介質(zhì)等。
接著,使用圖11所示的流程圖說明實(shí)施例1的語言處理方法。
(a)在步驟S100中,通過圖1所示的輸入裝置340向CPU100a的序列候選生成部件111輸入包含漢字的連續(xù)寫的文本。在此作為一個(gè)例子,假設(shè)輸入了“主記憶上の空間が”這樣的文本。接著,在步驟S101中,序列候選生成部件111參照保存在系統(tǒng)辭典存儲部件201中的系統(tǒng)辭典,將作為輸入文本的“主記憶上の空間が”分解為多個(gè)詞素,進(jìn)而生成用多個(gè)詞素形成的圖2所示的格子構(gòu)造50。序列候選生成部件111將生成的格子構(gòu)造50保存到格子構(gòu)造存儲部件203中。
(b)在步驟S102中,圖1所示的禁止模塊114從格子構(gòu)造存儲部件203中讀出圖2所示的格子構(gòu)造50。接著,圖1所示的禁止模塊114在包含在圖2所示的格子構(gòu)造50中的多個(gè)詞素中,檢索是否有與保存在禁止詞素存儲部件202中的禁止詞素對應(yīng)的詞素。在此,如圖5所示,在禁止詞素存儲部件202中保存了禁止詞素“主(おも)”和禁止詞素“上の空(うわのそら)”的情況下,禁止模塊114如圖8所示那樣,從格子構(gòu)造50中刪除禁止詞素“主(おも)”和“上の空(うわのそら)”。然后,圖1所示的禁止模塊114將刪除了禁止詞素后的格子構(gòu)造50寫入保存到格子構(gòu)造存儲部件203中。
(c)在步驟S103中,選擇模塊12從格子構(gòu)造存儲部件203中讀出刪除了禁止詞素后的格子構(gòu)造50。接著,選擇模塊12使用探索算法和探索法,從圖8所示的刪除了禁止詞素后的格子構(gòu)造50中,選擇被判斷為讀法最接近的最優(yōu)單詞序列。在此,作為最優(yōu)單詞序列,選擇模塊12選擇“主(しゆ)記憶(きおく)上(じよう)の空間(くうかん)が”。然后,最優(yōu)序列選擇部件112將選擇出的最優(yōu)單詞序列保存到最優(yōu)序列存儲部件204中。
(d)在步驟S104中,聲音文件生成部件116從最優(yōu)序列存儲部件204中讀出作為最優(yōu)單詞序列的“主(しゆ)記憶(きおく)上(じよう)の空間(くうかん)が”。接著,聲音文件生成部件116將最優(yōu)單詞序列“主(しゆ)記憶(きおく)上(じよう)の空間(くうかん)が”的讀法變換為聲音文件。然后,聲音文件生成部件116從揚(yáng)聲器342輸出包含在聲音文件中的最優(yōu)單詞序列的讀法,結(jié)束實(shí)施例1的語言處理方法。
以上,根據(jù)圖1和圖11所示的實(shí)施例1的語言處理系統(tǒng)和語言處理方法,在系統(tǒng)辭典中保存了以對于使用者來說不希望輸出的讀法而讀出的單詞,將禁止詞素預(yù)先保存在禁止詞素存儲部件202中,能夠防止對輸入的文本附加不希望的讀法。因此,能夠以更高的概率向文本附加使用者希望的讀法。另外,在圖5所示的例子中,表示了將標(biāo)題和發(fā)音的組合保存在禁止詞素存儲部件202中的例子。對此,也可以如圖12所示,將標(biāo)題、發(fā)音和詞類的組合保存在禁止詞素存儲部件202中。
例如,輸入英語的“Colored pencil leads break easily”這樣的文本,在系統(tǒng)辭典中登記了分別被附加了“colored”……“easily”的讀法的詞素的情況下,序列候選生成部件111生成作為登記在系統(tǒng)辭典中的詞素的組合的圖13所示的格子構(gòu)造50。
在此,例如如圖14所示,針對字符串“pencil”,將附加了對于系統(tǒng)使用者來說不希望輸出的詞類v、發(fā)音“pensl”的讀法的禁止詞素“pencil(v)[pensl]”等保存到禁止詞素存儲部件202中。
由此,禁止模塊114如圖15所示從格子構(gòu)造50中刪除禁止詞素“pencil(v)[pensl]”。
由此,不只是單詞的發(fā)音記號,還可以正確地處理句子構(gòu)造,提高了讀出時(shí)的抑揚(yáng)頓挫等自然性。
(實(shí)施例2)實(shí)施例2的語言處理系統(tǒng)與圖1所示的語言處理系統(tǒng)的不同點(diǎn)在于如圖16所示,禁止部件214與序列候選生成部件211連接。禁止部件214在系統(tǒng)辭典存儲部件201中保存有與保存在禁止詞素存儲部件202中的禁止詞素一致的詞素的情況下,進(jìn)行設(shè)置而禁止序列候選生成部件211參考與登記在系統(tǒng)辭典中的禁止詞素一致的詞素。
因此,例如在向序列候選生成部件211輸入了“主記憶上の空間が”這樣的文本的情況下,序列候選生成部件211不參考與包含在系統(tǒng)辭典中的禁止詞素一致的詞素“上の空(うわのそら)”和“間(かん)”,如圖17所示生成預(yù)先不包含禁止詞素的格子構(gòu)造51。由于圖16所示的語言處理系統(tǒng)的其他構(gòu)成要素與圖1一樣,所以省略說明。
同樣,例如在向序列候選生成部件211輸入了中國語的“你看他拿著火車票”這樣的文本的情況下,序列候選生成部件211不參考與包含在系統(tǒng)辭典中的禁止詞素一致的詞素“看(ka1)”和“著火(zhao2huo3)”,如圖18所示生成預(yù)先不包含禁止詞素的格子構(gòu)造51。
另外,同樣,例如在向序列候選生成部件211輸入了英語的“Drink much mate”這樣的文本的情況下,序列候選生成部件211不參考與包含在系統(tǒng)辭典中的禁止詞素一致的詞素“mate[matei]”,如圖19所示生成預(yù)先不包含禁止詞素的格子構(gòu)造51。
進(jìn)而,同樣,例如在向序列候選生成部件211輸入了英語的“Colored pencil leads break easily”這樣的文本的情況下,序列候選生成部件211不參考與包含在系統(tǒng)辭典中的禁止詞素一致的詞素“pencil(v)[pensl]”,如圖20所示生成預(yù)先不包含禁止詞素的格子構(gòu)造51。
接著,使用圖21所示的流程圖說明實(shí)施例2的語言處理方法。
(a)在步驟S200中,通過圖16所示的輸入裝置340向CPU100b的序列候選生成部件211輸入包含漢字的連續(xù)寫的文本“主記憶上の空間が”。在步驟S201中,禁止部件214在系統(tǒng)辭典存儲部件201中保存有與保存在禁止詞素存儲部件202中的禁止詞素一致的詞素的情況下,進(jìn)行設(shè)置而禁止序列候選生成部件211參考與登記在系統(tǒng)辭典中的禁止詞素一致的詞素。
(b)在步驟S202中,序列候選生成部件211參照保存在系統(tǒng)辭典存儲部件201中的系統(tǒng)辭典,將作為輸入文本的“主記憶上の空間が”分解為多個(gè)詞素,進(jìn)而生成用多個(gè)詞素形成的圖17所示的格子構(gòu)造51。這時(shí),由于在步驟S201中進(jìn)行設(shè)置而禁止序列候選生成部件211參考與登記在系統(tǒng)辭典中的禁止詞素一致的詞素,所以在所生成的格子構(gòu)造51中不包含禁止詞素。序列候選生成部件211將生成的不包含禁止詞素的格子構(gòu)造51保存到格子構(gòu)造存儲部件203中。
(c)在步驟S203中,最優(yōu)序列選擇部件212從格子構(gòu)造存儲部件203中讀出不包含禁止詞素的格子構(gòu)造51。接著,最優(yōu)序列選擇部件212使用探索算法和探索法,從格子構(gòu)造51中選擇被判斷為讀法最接近的最優(yōu)單詞序列。然后,與步驟S104一樣地實(shí)施步驟S204,結(jié)束實(shí)施例2的語言處理方法。
以上,根據(jù)圖16和圖21所示的實(shí)施例2的語言處理系統(tǒng)和語言處理方法,能夠防止對輸入文本附加不希望的讀法。
(實(shí)施例3)實(shí)施例3的語言處理系統(tǒng)與圖1所示的語言處理系統(tǒng)的不同點(diǎn)在于如圖22所示,禁止部件314與最優(yōu)序列選擇部件312連接。禁止部件214在系統(tǒng)辭典存儲部件201中保存有與保存在禁止詞素存儲部件202中的禁止詞素一致的詞素的情況下,進(jìn)行設(shè)置而禁止最優(yōu)序列選擇部件312選擇包含禁止詞素的單詞序列候選作為最優(yōu)單詞序列。因?yàn)閳D22所示的語言處理系統(tǒng)的其他構(gòu)成要素與圖1一樣,所以省略說明。
接著,使用圖23所示的流程圖說明實(shí)施例3的語言處理方法。
(a)在步驟S300中,通過圖1所示的輸入裝置340向CPU100c的序列候選生成部件111輸入包含漢字的連續(xù)寫的文本“主記憶上の空間が”。接著,在步驟S301中,序列候選生成部件111參照保存在系統(tǒng)辭典存儲部件201中的系統(tǒng)辭典,將作為輸入文本的“主記憶上の空間が”分解為多個(gè)詞素,進(jìn)而生成用多個(gè)詞素形成的圖2所示的格子構(gòu)造50。序列候選生成部件111將生成的格子構(gòu)造50保存到格子構(gòu)造存儲部件203中。
(b)在步驟S302中,禁止部件314在系統(tǒng)辭典存儲部件201中保存有與保存在禁止詞素存儲部件202中的禁止詞素一致的詞素的情況下,進(jìn)行設(shè)置而禁止最優(yōu)序列選擇部件312選擇包含禁止詞素的單詞序列候選作為最優(yōu)單詞序列。在步驟S303中,最優(yōu)序列選擇部件312從格子構(gòu)造存儲部件203中讀出格子構(gòu)造50。接著,最優(yōu)序列選擇部件312使用探索算法和探索法,從格子構(gòu)造50中選擇被判斷為讀法最接近的最優(yōu)單詞序列。然后,與步驟S104一樣地實(shí)施步驟S304,結(jié)束實(shí)施例3的語言處理方法。
以上,根據(jù)圖22和圖23所示的實(shí)施例3的語言處理系統(tǒng)和語言處理方法,能夠防止對輸入文本附加不希望的讀法。
(實(shí)施例4)實(shí)施例4的語言處理系統(tǒng)與圖1所示的語言處理系統(tǒng)的不同點(diǎn)在于如圖24所示,CPU100d還包含錯(cuò)誤范圍指定部件120和禁止詞素追加部件121。在此,例如針對輸入文本“主記憶上の空間が”,最優(yōu)序列選擇部件112錯(cuò)誤地選擇了“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”作為最優(yōu)單詞序列。在該情況下,錯(cuò)誤范圍指定部件120從系統(tǒng)使用者接受錯(cuò)誤選擇了的最優(yōu)單詞序列中的被附加了不理想的讀法的誤讀詞素的指定。例如,在指定了字符串“上の空間”的情況下,錯(cuò)誤范圍指定部件120通過將字符串“上の空間”與格子構(gòu)造50對照,而分割為詞素“上の空(うわのそら)”和詞素“間(かん)”,并將各個(gè)定義為誤讀詞素。禁止詞素追加部件121將誤讀詞素作為禁止詞素追加保存到禁止詞素存儲部件202中。在圖25中,表示這時(shí)向禁止詞素存儲部件追加保存了的禁止詞素的例子。由于圖24所示的語言處理系統(tǒng)的其他構(gòu)成要素與圖1一樣,所以省略說明。
同樣,如圖26所示,假設(shè)例如針對中國語的輸入文本“你看他拿著火車票”,最優(yōu)序列選擇部件112錯(cuò)誤地選擇了“你(ni3)”“看(kan4)”“他(ta1)”“拿(na2)”“著火(zhao2huo3)”“車票(che1piao4)”作為最優(yōu)單詞序列。錯(cuò)誤范圍指定部件120從系統(tǒng)使用者接受錯(cuò)誤選擇了的最優(yōu)單詞序列中的被附加了不理想的讀法的誤讀詞素的指定。例如在指定了字符串“著火車票”的情況下,錯(cuò)誤范圍指定部件120通過將字符串“著火車票”與格子構(gòu)造50對照,而分割為詞素“著火(zhao2huo3)”和詞素“車票(che1piao4)”,并將各個(gè)定義為誤讀詞素。禁止詞素追加部件121將誤讀詞素作為禁止詞素追加保存到禁止詞素存儲部件202中。
另外,如圖27所示,假設(shè)例如針對英語的輸入文本“Drink muchmate”,最優(yōu)序列選擇部件112錯(cuò)誤地選擇了“drink(v)”“much(adv)”“mate(n)[matei])”作為最優(yōu)單詞序列。錯(cuò)誤范圍指定部件120從系統(tǒng)使用者接受錯(cuò)誤選擇了的最優(yōu)單詞序列中的被附加了不理想的讀法的誤讀詞素的指定。例如在指定了字符串“mate”的情況下,錯(cuò)誤范圍指定部件120通過將字符串“mate”與格子構(gòu)造50對照,而確定為詞素“mate(n)[meit]”,并將各個(gè)定義為誤讀詞素。禁止詞素追加部件121將誤讀詞素作為禁止詞素追加保存到禁止詞素存儲部件202中。
接著,使用圖28所示的流程圖說明實(shí)施例4的語言處理方法。
(a)與圖11所示的步驟S100和步驟S101一樣地實(shí)施圖28所示的步驟S400和步驟S401。在步驟S402中,圖24所示的禁止模塊114從格子構(gòu)造存儲部件203中讀出格子構(gòu)造。接著,禁止模塊114在包含在格子構(gòu)造中的多個(gè)詞素中,刪除與保存在禁止詞素存儲部件202中的禁止詞素對應(yīng)的詞素。另外,假設(shè)這時(shí)在禁止詞素存儲部件202中沒有保存詞素“上の空(うわのそら)”和“間(かん)”。然后,禁止模塊114將刪除了禁止詞素后的格子構(gòu)造寫入保存到格子構(gòu)造存儲部件203中。
(b)在步驟S403中,選擇模塊12從格子構(gòu)造存儲部件203中讀出刪除了禁止詞素后的格子構(gòu)造。接著,選擇模塊12使用探索算法和探索法,從圖8所示的刪除了禁止詞素后的格子構(gòu)造中,選擇被判斷為讀法最接近的最優(yōu)單詞序列。在此,選擇模塊12選擇“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”作為最優(yōu)單詞序列。然后,最優(yōu)序列選擇部件112將錯(cuò)誤選擇出的最優(yōu)單詞序列保存到最優(yōu)序列存儲部件204中,輸出裝置341輸出錯(cuò)誤選擇出的最優(yōu)單詞序列。
(c)在步驟S404中,錯(cuò)誤范圍指定部件120經(jīng)由輸入裝置340從系統(tǒng)使用者接受錯(cuò)誤范圍的輸入。在作為錯(cuò)誤范圍由系統(tǒng)使用者輸入了包含在錯(cuò)誤選擇出的最優(yōu)單詞序列“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”中的字符串“上の空間”的情況下,錯(cuò)誤范圍指定部件120通過將字符串“上の空間”與格子構(gòu)造50對照,而分割為詞素“上の空(うわのそら)”和詞素“間(かん)”,并將各個(gè)定義為誤讀詞素。然后,錯(cuò)誤范圍指定部件120將誤讀詞素轉(zhuǎn)送到禁止詞素追加部件121。
同樣,在針對中國語的輸入文本“你看他拿著火車票”,系統(tǒng)使用者輸入了包含在錯(cuò)誤選擇出的最優(yōu)單詞序列“你(ni3)”“看(kan4)”“他(ta1)”“拿(na2)”“著火(zhao2huo3)”“車票(che1piao4)”中的字符串“著火車票”作為錯(cuò)誤范圍的情況下,錯(cuò)誤范圍指定部件120通過將字符串“著火車票”與格子構(gòu)造50對照,而分割為詞素“著火(zhao2huo3)”和詞素“車票(che1piao4)”,并將各個(gè)定義為誤讀詞素。然后,錯(cuò)誤范圍指定部件120將誤讀詞素轉(zhuǎn)送到禁止詞素追加部件121。
同樣,在針對英語的輸入文本“Drink much mate”,系統(tǒng)使用者輸入了包含在錯(cuò)誤選擇出的最優(yōu)單詞序列“drink(v)”“much(adv)”“mate(n)[matei])”中的字符串“mate”作為錯(cuò)誤范圍的情況下,錯(cuò)誤范圍指定部件120將字符串“mate”與格子構(gòu)造50對照,而確定為詞素“mate(n)[meit]”,并將各個(gè)定義為誤讀詞素。然后,錯(cuò)誤范圍指定部件120將誤讀詞素轉(zhuǎn)送到禁止詞素追加部件121。
(d)在步驟S405中,禁止詞素追加部件121將誤讀詞素“上の空(うわのそら)”和誤讀詞素“間(かん)”分別作為禁止詞素保存到禁止詞素存儲部件202中,結(jié)束實(shí)施例4的語言處理方法。
以上,根據(jù)圖24和圖28所示的實(shí)施例4的語言處理系統(tǒng)和語言處理方法,下次以后,不會選擇包含禁止詞素“上の空(うわのそら)”和禁止詞素“間(かん)”的單詞序列候選作為最優(yōu)單詞序列。
另外,在步驟S404中指定的錯(cuò)誤范圍也可以不必須是在最優(yōu)單詞序列內(nèi)能夠分割為詞素的范圍。具體地說,不只是“上の空(うわのそら)間(かん)”,也可以指定“空(そら)間(かん)”作為錯(cuò)誤范圍。在該情況下,禁止詞素追加部件121可以將部分地包含作為錯(cuò)誤范圍指定的“空(そら)”的詞素“上の空(うわのそら)”作為禁止詞素保存到禁止詞素存儲部件202中。另外,在實(shí)施例4中,表示了在圖1所示的語言處理系統(tǒng)中進(jìn)而包含錯(cuò)誤范圍指定部件120和禁止詞素追加部件121的例子,但當(dāng)然也可以進(jìn)而在圖10或圖22所示的語言處理系統(tǒng)中包含錯(cuò)誤范圍指定部件120和禁止詞素追加部件121。
同樣,對于在步驟S404中指定的錯(cuò)誤范圍,在中國語文本的例子中,如圖29所示,不只是“著火車票”,也可以指定“火車票”作為錯(cuò)誤范圍。在該情況下,禁止詞素追加部件121也可以將部分地包含作為錯(cuò)誤范圍指定的“火”的詞素“著火(zhao3huo3)”作為禁止詞素保存到禁止詞素存儲部件202中。
(實(shí)施例5)實(shí)施例5的語言處理系統(tǒng)與圖1所示的語言處理系統(tǒng)的不同點(diǎn)在于如圖30所示,CPU100e還包含讀法輸入部件122、對比抽出部件123和禁止詞素追加部件121。在此,假設(shè)針對輸入文本“主記憶上の空間が”,最優(yōu)序列選擇部件112錯(cuò)誤地選擇了“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”作為最優(yōu)單詞序列。在該情況下,讀法輸入部件122從系統(tǒng)使用者接受輸入文本“主記憶上の空間が”的正確的讀法“しゆきおくじようのくうかんが”的輸入。對比抽出部件123將錯(cuò)誤選擇出的最優(yōu)單詞序列的讀法與正確的讀法進(jìn)行對比,在錯(cuò)誤選擇出的最優(yōu)單詞序列的讀法中抽出與正確的讀法不同的差異部分“うわのそら”。禁止詞素追加部件121將附加了差異部分“うわのそら”的讀法的誤讀詞素“上の空(うわのそら)”作為禁止詞素保存到禁止詞素存儲部件202中。由于圖30所示的語言處理系統(tǒng)的其他構(gòu)成要素與圖1一樣,所以省略說明。
同樣,如圖31所示,假設(shè)針對中國語的輸入文本“你看他拿著火車票”,最優(yōu)序列選擇部件112錯(cuò)誤地選擇了“你(ni3)”“看(kan4)”“他(ta1)”“拿(na2)”“著火(zhao2huo3)”“車票(che1piao4)”作為最優(yōu)單詞序列。在該情況下,讀法輸入部件122從系統(tǒng)使用者接受輸入文本“你看他拿著火車票”的正確的讀法“ni3 kan4 ta1 na2 zhe huo3che1 piao4”的輸入。對比抽出部件123將錯(cuò)誤選擇出的最優(yōu)單詞序列的讀法與正確的讀法進(jìn)行對比,在錯(cuò)誤選擇出的最優(yōu)單詞序列的讀法中抽出與正確的讀法不同的差異部分“zhe huo3 che1 piao4”。禁止詞素追加部件121將附加了差異部分“zhe huo3 che1 piao4”的讀法的誤讀詞素“著火(zhao2huo3)”和“車票(che1piao4)”作為禁止詞素保存到禁止詞素存儲部件202中。
另外,如圖32所示,假設(shè)針對英語的輸入文本“Drink muchmate”,最優(yōu)序列選擇部件112錯(cuò)誤地選擇了“drink(v)”“much(adv)”“mate(n)[matei])”作為最優(yōu)單詞序列。在該情況下,讀法輸入部件122從系統(tǒng)使用者接受輸入文本“Drink much mate”的正確的讀法“drink mats meit”的輸入。對比抽出部件123將錯(cuò)誤選擇出的最優(yōu)單詞序列的讀法與正確的讀法進(jìn)行對比,在錯(cuò)誤選擇出的最優(yōu)單詞序列的讀法中抽出與正確的讀法不同的差異部分“meit”。禁止詞素追加部件121將附加了差異部分“meit”的讀法的誤讀詞素“mate(n)[meit]”作為禁止詞素保存到禁止詞素存儲部件202中。
接著,使用圖33所示的流程圖說明實(shí)施例5的語言處理方法。
(a)與圖28所示的步驟S400至步驟S403一樣地實(shí)施圖33所示的步驟S500至步驟S503,假設(shè)最優(yōu)序列選擇部件112錯(cuò)誤地選擇了“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”作為最優(yōu)單詞序列。然后,最優(yōu)序列選擇部件112將錯(cuò)誤選擇出的最優(yōu)單詞序列保存到最優(yōu)序列存儲部件204中,輸出裝置341輸出錯(cuò)誤選擇出的最優(yōu)單詞序列。
(b)在步驟S504中,讀法輸入部件122經(jīng)由輸入裝置340從系統(tǒng)使用者接受文本“主記憶上の空間が”的正確的讀法“しゆきおくじようのくうかんが”的輸入。讀法輸入部件122將正確的讀法“しゆきおくじようのくうかんが”保存到讀法存儲部件205中。在步驟S405中,對比抽出部件123從最優(yōu)序列存儲部件204中讀出錯(cuò)誤選擇出的最優(yōu)單詞序列“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”,從讀法存儲部件205中讀出正確的讀法“しゆきおくじようのくうかんが”。接著,對比抽出部件123將錯(cuò)誤選擇出的最優(yōu)單詞序列的讀法與正確的讀法進(jìn)行對比,在錯(cuò)誤選擇出的最優(yōu)單詞序列的讀法中抽出與正確的讀法不同的差異部分“うわのそら”。
(c)在步驟S505中,對比抽出部件123將包含在錯(cuò)誤選擇出的最優(yōu)單詞序列中并附加了差異部分“うわのそら”的讀法的誤讀詞素“上の空(うわのそら)”轉(zhuǎn)送到禁止詞素追加部件121。禁止詞素追加部件121將誤讀詞素“上の空(うわのそら)”作為禁止詞素保存到禁止詞素存儲部件202中,結(jié)束實(shí)施例5的語言處理方法。
以上,根據(jù)圖30和圖33所示的實(shí)施例5的語言處理系統(tǒng)和語言處理方法,下次以后,不會選擇包含禁止詞素“上の空(うわのそら)”的單詞序列候選作為最優(yōu)單詞序列。另外,在實(shí)施例5中,表示了在圖1所示的語言處理系統(tǒng)中進(jìn)而包含讀法輸入部件122、對比抽出部件123、禁止詞素追加部件121的例子,但當(dāng)然也可以在圖16或圖22所示的語言處理系統(tǒng)中進(jìn)而包含讀法輸入部件122、對比抽出部件123、禁止詞素追加部件121。
(其他實(shí)施例)如上所述,說明了本發(fā)明的實(shí)施例,但作為該公開的一部分的論述和附圖不應(yīng)被理解為限定本發(fā)明的內(nèi)容。很明顯的是本技術(shù)領(lǐng)域的技術(shù)人員從該公開中可以得到各種替代實(shí)施形式、實(shí)施例和運(yùn)用技術(shù)。例如說明了圖30所示的讀法輸入部件122從系統(tǒng)使用者接受輸入文本的正確讀法的輸入。與此相對,也可以是讀法輸入部件122從系統(tǒng)使用者接受在輸入文本的一部分中附加了正確的讀法的詞素的輸入。例如也可以在最優(yōu)序列選擇部件112錯(cuò)誤地選擇了“主(しゆ)記憶(きおく)上の空(うわのそら)間(かん)が”作為最優(yōu)單詞序列的情況下,讀法輸入部件122接受附加了正確的讀法的詞素“空間(くうかん)”的輸入,對比抽出部件123抽出與詞素“空間(くうかん)”不一致的詞素“上の空(うわのそら)”和“間(かん)”。
同樣,如圖34所示,也可以在針對中國語的輸入文本“你看他拿著火車票”,最優(yōu)序列選擇部件112錯(cuò)誤地選擇了“你(ni3)”“看(kan4)”“他(ta1)”“拿(na2)”“著火(zhao2huo3)”“車票(che1piao4)”作為最優(yōu)單詞序列的情況下,讀法輸入部件122接受附加了正確的讀法的詞素“火車票(huo3 che1 piao4)”的輸入,對比抽出部件123抽出與詞素“火車票(huo3 che1 piao4)”不一致的詞素“著火(zhao2huo3)”和“車票(che1piao4)”。
同樣,如圖35所示,也可以在針對英語的輸入文本“Drink muchmate”,最優(yōu)序列選擇部件112錯(cuò)誤地選擇了“drink(v)”“much(adv)”“mate(n)[matei])”作為最優(yōu)單詞序列的情況下,讀法輸入部件122接受附加了正確的讀法的詞素“mate(n)[meit]”的輸入,對比抽出部件123抽出與詞素“mate(n)[meit]”不一致的詞素“mate(n)[matei]”。
另外,在實(shí)施例中,表示了聲音文件生成部件116生成用于輸出最優(yōu)單詞序列的讀法的聲音文件的例子。但是,不只是從最優(yōu)單詞序列直接生成聲音文件,也可以是根據(jù)最優(yōu)單詞序列生成發(fā)音信息(發(fā)音記號)文件,進(jìn)而從發(fā)音記號文件生成聲音文件的系統(tǒng)。另外,在圖1中,表示了將揚(yáng)聲器342與CPU100a連接的例子,但揚(yáng)聲器342并不必須與CPU100a連接,當(dāng)然也可以在其他的計(jì)算機(jī)或音響系統(tǒng)中使用生成了的聲音文件。
另外,上述的語言處理方法可以作為時(shí)序上連接的一連串的處理或操作來表現(xiàn)。因此,為了在圖1所示的CPU100a中執(zhí)行語言處理方法,可以通過產(chǎn)生CPU100a內(nèi)的處理器等所產(chǎn)生的多個(gè)功能的計(jì)算機(jī)程序產(chǎn)品來實(shí)現(xiàn)圖5所示的語言處理方法。在此,計(jì)算機(jī)程序產(chǎn)品就是能夠向CPU100a進(jìn)行輸入輸出的記錄介質(zhì)或記錄裝置等。作為記錄介質(zhì),包含存儲器裝置、磁盤裝置、光盤裝置、其他能夠記錄程序的裝置。這樣,本發(fā)明當(dāng)然還包含在此沒有記載的各種實(shí)施例等。因此,從以上說明可知,只根據(jù)適當(dāng)?shù)臋?quán)利要求的發(fā)明項(xiàng)目來確定本發(fā)明的技術(shù)范圍。
權(quán)利要求
1.一種語言處理系統(tǒng),其特征在于包括保存使用禁止詞素的禁止詞素存儲部件;根據(jù)連續(xù)寫的文本生成分別用多個(gè)詞素隔開寫了的多個(gè)單詞序列候選的序列候選生成部件;從上述禁止詞素存儲部件中讀出上述使用禁止詞素,從上述多個(gè)單詞序列候選中排除包含上述使用禁止詞素的候選,在上述多個(gè)單詞序列候選中選擇上述多個(gè)詞素之間連接的可能性最高的最優(yōu)單詞序列的最優(yōu)序列選擇部件。
2.一種語言處理系統(tǒng),其特征在于包括保存使用禁止詞素的禁止詞素存儲部件;讀出保存在上述禁止詞素存儲部件中的上述使用禁止詞素,禁止上述使用禁止詞素的使用,根據(jù)連續(xù)寫的文本生成分別用多個(gè)詞素隔開寫了的多個(gè)單詞序列候選的序列候選生成部件;在上述多個(gè)單詞序列候選中選擇上述多個(gè)詞素之間連接的可能性最高的最優(yōu)單詞序列的最優(yōu)序列選擇部件。
3.根據(jù)權(quán)利要求1或2所述的語言處理系統(tǒng),其特征在于還包括接受上述最優(yōu)單詞序列中的被附加了與上述文本的正確讀法不同的讀法的誤讀詞素的指定的錯(cuò)誤范圍指定部件。
4.根據(jù)權(quán)利要求1或2所述的語言處理系統(tǒng),其特征在于還包括將上述最優(yōu)單詞序列的讀法與上述文本的正確讀法進(jìn)行對比,從上述最優(yōu)單詞序列中抽出被附加了與上述正確讀法不同的讀法的誤讀詞素的對比抽出部件。
5.根據(jù)權(quán)利要求3所述的語言處理系統(tǒng),其特征在于還包括將上述誤讀詞素作為上述禁止詞素追加保存到上述禁止詞素存儲部件中的禁止詞素追加部件。
6.根據(jù)權(quán)利要求4所述的語言處理系統(tǒng),其特征在于還包括將上述誤讀詞素作為上述禁止詞素追加保存到上述禁止詞素存儲部件中的禁止詞素追加部件。
全文摘要
本發(fā)明提供一種預(yù)先防止生成包含對于系統(tǒng)使用者來說不理想的單詞的單詞序列的語言處理系統(tǒng)。具備保存使用禁止詞素的禁止詞素存儲部件(202);根據(jù)連續(xù)寫的文本生成分別用多個(gè)詞素隔開寫了的多個(gè)單詞序列候選的序列候選生成部件(111);從禁止詞素存儲部件(202)中讀出使用禁止詞素,從多個(gè)單詞序列候選中排除包含使用禁止詞素的候選,在多個(gè)單詞序列候選中選擇多個(gè)詞素之間連接的可能性最高的最優(yōu)單詞序列的最優(yōu)序列選擇部件(112)。
文檔編號G06F17/20GK1920812SQ20061012560
公開日2007年2月28日 申請日期2006年8月24日 優(yōu)先權(quán)日2005年8月24日
發(fā)明者瀨戶重宣 申請人:株式會社東芝