專利名稱:詞概率確定的制作方法
技術(shù)領(lǐng)域:
本公開(kāi)涉及輸入法。
背景技術(shù):
在使用詞符文字(logographic script)的語(yǔ)言中,一個(gè)或兩個(gè)字符(例如象形文 字(glyphs))粗略地對(duì)應(yīng)于一個(gè)詞或一種含意,這樣的語(yǔ)言所具有的字符多于標(biāo)準(zhǔn)輸入設(shè) 備(如移動(dòng)設(shè)備鍵區(qū)上的計(jì)算機(jī)鍵盤)上的鍵。例如,中文語(yǔ)言包含由基本拼音字符和五 個(gè)音調(diào)定義的幾千個(gè)字符??梢酝ㄟ^(guò)幫助輸入在輸入設(shè)備上找不到的字符和符號(hào)的輸入法 來(lái)實(shí)現(xiàn)這些多對(duì)一關(guān)聯(lián)的映射。因此,可以使用西式鍵盤來(lái)輸入中文、日文或韓文字符。
在一些示例中,可以使用輸入法編輯器(IME)來(lái)搜索詞的詞典,以找到與用戶打 出的拼音字符相對(duì)應(yīng)的候選詞。詞典可以包括與詞相關(guān)聯(lián)的數(shù)據(jù),例如,概率分?jǐn)?shù),所述數(shù) 據(jù)允許ME預(yù)測(cè)用戶意圖并識(shí)別候選詞以及對(duì)候選詞排序。ME基于例如概率或準(zhǔn)確度分 數(shù)對(duì)候選詞排序,并以根據(jù)排序的順序向用戶提供候選詞的列表。
發(fā)明內(nèi)容
在一個(gè)方面,總體上,一種計(jì)算機(jī)實(shí)現(xiàn)的方法包括識(shí)別詞語(yǔ)料庫(kù);將詞概率值與 詞語(yǔ)料庫(kù)中的每個(gè)詞相關(guān)聯(lián);識(shí)別句子;基于詞語(yǔ)料庫(kù)確定句子的候選分割方式;以及基 于與詞相關(guān)聯(lián)的概率值和候選分割方式,迭代地調(diào)整詞語(yǔ)料庫(kù)中每個(gè)詞的相關(guān)聯(lián)的概率 值。 該方法的實(shí)現(xiàn)方式可以包括下列特征中的一個(gè)或多個(gè)。所述方法包括將由具有最 高的相關(guān)聯(lián)的詞概率值的詞所定義的詞語(yǔ)料庫(kù)的一部分存儲(chǔ)到輸入法編輯器詞典中。所述 詞概率值對(duì)應(yīng)于相關(guān)聯(lián)的詞在句子中出現(xiàn)的概率。確定至少一個(gè)句子的可能的分割方式包 括基于詞語(yǔ)料庫(kù)確定至少一個(gè)句子的所有可能的分割方式。所述方法包括確定所述句子的 每個(gè)候選分割方式的分割方式概率值。確定句子的每個(gè)候選分割方式的分割方式概率值包 括基于與候選分割方式中的詞相關(guān)聯(lián)的詞概率值,確定每個(gè)候選分割方式的分割方式概 率值。 基于相關(guān)聯(lián)的詞概率值和候選分割方式迭代地調(diào)整詞語(yǔ)料庫(kù)中每個(gè)詞的相關(guān)聯(lián) 的詞概率值包括基于句子的候選分割方式的分割方式概率值,迭代地調(diào)整每個(gè)詞的相關(guān) 聯(lián)的詞概率值。迭代地調(diào)整每個(gè)詞的相關(guān)聯(lián)的詞概率值包括,對(duì)于每次迭代,基于與候選 分割方式中的詞相關(guān)聯(lián)的詞概率值,確定句子的每個(gè)候選分割方式的分割方式概率值,以 及基于包括每個(gè)詞的候選分割方式的分割方式概率值,調(diào)整每個(gè)詞的相關(guān)聯(lián)的詞概率值。 確定句子中的詞的精確概率值包括將(a)所述詞之前的子串的候選分割方式的概率值之 和、(b)所述詞的概率值、以及(C)所述詞之后的子串的候選分割方式的概率值之和相乘。 確定句子的候選分割方式包括確定文檔中的多個(gè)句子的候選分割方式。所述方法包括 識(shí)別多個(gè)文檔中的句子,以及對(duì)于每個(gè)句子,基于詞語(yǔ)料庫(kù)確定該句子的候選分割方式。在 確定詞概率值時(shí),向不同類型文檔中的句子賦予不同的權(quán)重。所述文檔能夠通過(guò)公眾網(wǎng)、因特網(wǎng)訪問(wèn),或者由多個(gè)第三方提供。所述詞包括中文、日文和韓文字符中的至少一個(gè)。所述 詞包括漢字字符。 在另一方面,總體上, 一種計(jì)算機(jī)實(shí)現(xiàn)的方法包括確定與詞語(yǔ)料庫(kù)的詞相關(guān)聯(lián)的 詞概率值;確定文檔語(yǔ)料庫(kù)中的文檔的句子的候選分割方式;基于與候選分割方式中的詞 相關(guān)聯(lián)的詞概率值,迭代地確定每個(gè)句子的每個(gè)候選分割方式的分割方式概率值;以及基 于包括每個(gè)詞的候選分割方式的分割方式概率值,迭代地調(diào)整每個(gè)詞的詞概率值。
該方法的實(shí)現(xiàn)方式可以包括下列特征中的一個(gè)或多個(gè)。所述方法包括識(shí)別文檔 的文檔類型;基于所識(shí)別的文檔類型,向文檔中的句子分配權(quán)重;以及基于權(quán)重確定分割 方式概率值或詞概率值之一。所述方法包括基于包括每個(gè)詞的分割方式的分割方式概率 值,累計(jì)每個(gè)詞的計(jì)數(shù)。累計(jì)每個(gè)詞的計(jì)數(shù)包括確定包括所述詞的分割方式的分割方式概 率值之和。所述方法包括通過(guò)基于歸一化因子對(duì)詞的計(jì)數(shù)進(jìn)行歸一化,確定每個(gè)詞的詞概 率值。所述方法包括通過(guò)確定所有詞的計(jì)數(shù)之和,確定歸一化因子。 在另一方面,總體上,一種系統(tǒng)包括數(shù)據(jù)存儲(chǔ)單元,用來(lái)存儲(chǔ)詞語(yǔ)料庫(kù)和文檔語(yǔ) 料庫(kù);以及處理引擎,被存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,并包括能夠被處理設(shè)備執(zhí)行的指令。當(dāng) 執(zhí)行所述指令時(shí),處理設(shè)備將詞概率值與詞語(yǔ)料庫(kù)中的每個(gè)詞相關(guān)聯(lián);基于詞語(yǔ)料庫(kù)確定 文檔語(yǔ)料庫(kù)中每個(gè)文檔的每個(gè)句子的候選分割方式;以及基于相關(guān)聯(lián)的詞概率值和候選分 割方式,迭代地調(diào)整詞語(yǔ)料庫(kù)中每個(gè)詞的相關(guān)聯(lián)的詞概率值。 在另一方面,總體上,一種系統(tǒng)包括數(shù)據(jù)存儲(chǔ)單元,用來(lái)存儲(chǔ)詞語(yǔ)料庫(kù)和文檔語(yǔ) 料庫(kù);以及處理設(shè)備,用來(lái)將詞概率值與詞語(yǔ)料庫(kù)中的每個(gè)詞相關(guān)聯(lián);基于詞語(yǔ)料庫(kù)確定 文檔語(yǔ)料庫(kù)中每個(gè)文檔的每個(gè)句子的候選分割方式;以及基于相關(guān)聯(lián)的詞概率值和候選分 割方式,迭代地調(diào)整詞語(yǔ)料庫(kù)中每個(gè)詞的相關(guān)聯(lián)的詞概率值。 在另一方面,總體上,一種系統(tǒng)包括數(shù)據(jù)存儲(chǔ)單元,用來(lái)存儲(chǔ)詞語(yǔ)料庫(kù)和文檔語(yǔ) 料庫(kù),以及處理設(shè)備。處理設(shè)備確定與詞語(yǔ)料庫(kù)的詞相關(guān)聯(lián)的詞概率值,確定文檔語(yǔ)料庫(kù)中 的文檔的句子的候選分割方式,基于與候選分割方式中的詞相關(guān)聯(lián)的詞概率值迭代地確定 每個(gè)句子的每個(gè)候選分割方式的分割方式概率值,以及基于包括每個(gè)詞的候選分割方式的 分割方式概率值迭代地調(diào)整每個(gè)詞的詞概率值。 在另一方面,總體上,一種系統(tǒng)包括數(shù)據(jù)存儲(chǔ)單元和處理設(shè)備。該數(shù)據(jù)存儲(chǔ)單元 存儲(chǔ)詞典,該詞典包括詞和使用迭代過(guò)程確定的相關(guān)聯(lián)的詞概率值,所述迭代過(guò)程包括迭 代地確定文檔的句子的候選分割方式的分割方式概率值,以及基于分割方式概率值迭代地 調(diào)整詞的詞概率值。該處理設(shè)備提供輸入法編輯器,該輸入法編輯器被配置為從所述詞典 中選擇詞。 在另一方面,總體上,一種系統(tǒng)包括用于將詞概率值與詞語(yǔ)料庫(kù)中的詞相關(guān)聯(lián)的 裝置;用于識(shí)別多個(gè)文檔中的句子的裝置;用于基于詞語(yǔ)料庫(kù)確定每個(gè)句子的候選分割方 式的裝置;以及用于基于相關(guān)聯(lián)的詞概率值和候選分割方式,迭代地調(diào)整詞語(yǔ)料庫(kù)中每個(gè) 詞的相關(guān)聯(lián)的詞概率值的裝置。 在另一方面,總體上, 一種系統(tǒng)包括用于確定與詞語(yǔ)料庫(kù)的詞相關(guān)聯(lián)的詞概率值 的裝置;用于確定文檔語(yǔ)料庫(kù)中文檔的句子的候選分割方式的裝置;用于基于與候選分割 方式中的詞相關(guān)聯(lián)的詞概率值,迭代地確定每個(gè)句子的每個(gè)候選分割方式的分割方式概率 值的裝置;以及用于基于包括詞的候選分割方式的分割方式概率值,迭代地調(diào)整每個(gè)詞的
6詞概率值的裝置。 在此公開(kāi)的系統(tǒng)和方法可以具有以下優(yōu)點(diǎn)中的一個(gè)或多個(gè)。能夠基于文檔語(yǔ)料庫(kù) 自動(dòng)優(yōu)化詞典,優(yōu)化的詞典能夠幫助識(shí)別和選擇候選詞。這樣,利用所述詞典的ME能夠提 供更少的和/或更準(zhǔn)確地識(shí)別供選擇的候選詞。能夠提高處理詞符文字(例如中文字符) 的計(jì)算機(jī)的速度和效率。詞典的用戶可以容易地獲得具有最高概率值的期望候選詞,從而 能夠提高用戶輸入詞符文字的速度。 在附圖和下面的描述中闡述了在本說(shuō)明書(shū)中描述的主題的一個(gè)或多個(gè)實(shí)施例的 細(xì)節(jié)。根據(jù)所述描述、附圖以及權(quán)利要求,所述主題的其他特征、方面和優(yōu)點(diǎn)將變得清楚易
圖1是可以用來(lái)實(shí)現(xiàn)在此描述的系統(tǒng)和方法的示例設(shè)備的框圖。 圖2是示例編輯系統(tǒng)的框圖。 圖3是示例輸入法編輯器環(huán)境的示圖。 圖4是示例詞概率確定引擎的示圖。 圖5-7是用于確定詞概率值的過(guò)程的流程圖。 各個(gè)附圖中相似的參考數(shù)字和標(biāo)記表示相似的元素。
具體實(shí)施例方式
圖1是可以用來(lái)實(shí)現(xiàn)在此描述的系統(tǒng)和方法的示例設(shè)備100的框圖。設(shè)備100可 以例如被實(shí)現(xiàn)在諸如個(gè)人計(jì)算機(jī)設(shè)備的計(jì)算機(jī)設(shè)備中,或被實(shí)現(xiàn)在諸如移動(dòng)電話、移動(dòng)通 信設(shè)備、個(gè)人數(shù)字助理(PDA)等的其他電子設(shè)備中。 示例設(shè)備100包括處理設(shè)備102、第一數(shù)據(jù)存儲(chǔ)單元104、第二數(shù)據(jù)存儲(chǔ)單元106、 輸入設(shè)備108、輸出設(shè)備110和網(wǎng)絡(luò)接口 112??梢允褂冒ɡ鐢?shù)據(jù)總線和主板的總線系 統(tǒng)114來(lái)建立和控制在組件102、104、106、108、110和112之間的數(shù)據(jù)通信。也可以使用其 他示例系統(tǒng)架構(gòu)。 處理設(shè)備102可以例如包括一個(gè)或多個(gè)微處理器。第一數(shù)據(jù)存儲(chǔ)單元104可以例 如包括諸如動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器的隨機(jī)存取存儲(chǔ)器存儲(chǔ)設(shè)備、或其他類型的計(jì)算機(jī)可讀介 質(zhì)存儲(chǔ)器設(shè)備。第二數(shù)據(jù)存儲(chǔ)單元106可以例如包括一個(gè)或多個(gè)硬盤驅(qū)動(dòng)器、閃速存儲(chǔ)器 和/或只讀存儲(chǔ)器、或其他類型的計(jì)算機(jī)可讀介質(zhì)存儲(chǔ)器設(shè)備。 示例輸入設(shè)備108可以包括鍵盤、鼠標(biāo)、觸筆等,并且示例輸出設(shè)備110可以包括 顯示設(shè)備、音頻設(shè)備等。網(wǎng)絡(luò)接口 112可以例如包括有線或無(wú)線網(wǎng)絡(luò)設(shè)備,其可操作用于向 網(wǎng)絡(luò)116發(fā)送數(shù)據(jù)和從網(wǎng)絡(luò)116接收數(shù)據(jù)。網(wǎng)絡(luò)116可以包括一個(gè)或多個(gè)局域網(wǎng)(LAN)和 /或廣域網(wǎng)(WAN),如因特網(wǎng)。 在一些實(shí)現(xiàn)方式中,設(shè)備100可以在諸如數(shù)據(jù)存儲(chǔ)單元106的數(shù)據(jù)存儲(chǔ)單元中包 括輸入法編輯器(IME)代碼101。輸入法編輯器代碼101可以由指令定義,所述指令在執(zhí)行 時(shí)使得處理設(shè)備102執(zhí)行輸入法編輯功能。在實(shí)現(xiàn)方式中,輸入法編輯器代碼101可以例如 包括解譯指令,如能在網(wǎng)絡(luò)瀏覽器環(huán)境下執(zhí)行的腳本指令,例如JavaScript或ECMAScript 指令。也可以使用其他實(shí)現(xiàn)方式,例如編譯指令、單機(jī)應(yīng)用、即plet (Java小應(yīng)用程序)、插件模塊等。 輸入法編輯器代碼101的執(zhí)行生成或啟動(dòng)輸入法編輯器實(shí)例103。輸入法編輯器實(shí)例103可以定義輸入法編輯器環(huán)境,例如用戶界面,并且可以有助于在設(shè)備100處理一個(gè)或多個(gè)輸入法,在所述處理期間,設(shè)備100可以接收用于輸入字符、表意符號(hào)(ideogram)或符號(hào)(諸如例如漢字字符)的組合輸入(composition input)。例如,用戶可以使用一個(gè)或多個(gè)輸入設(shè)備108(例如,諸如西式鍵盤的鍵盤、具有手寫識(shí)別引擎的觸筆等)來(lái)輸入用于標(biāo)識(shí)漢字字符的組合輸入。在一些示例中,漢字字符可以與多于一個(gè)的組合輸入相關(guān)聯(lián)。
第一數(shù)據(jù)存儲(chǔ)單元104和/或第二數(shù)據(jù)存儲(chǔ)單元106可以存儲(chǔ)組合輸入和字符的關(guān)聯(lián)?;谟脩糨斎?,輸入法編輯器實(shí)例103可以使用數(shù)據(jù)存儲(chǔ)單元104和/或數(shù)據(jù)存儲(chǔ)單元106中的信息來(lái)識(shí)別輸入所代表的一個(gè)或多個(gè)候選字符。在一些實(shí)現(xiàn)方式中,如果識(shí)別出多于一個(gè)的候選字符,則在輸出設(shè)備110上顯示所述候選字符。使用輸入設(shè)備108,用戶可以從候選字符中選擇用戶希望輸入的漢字字符。 在一些實(shí)現(xiàn)方式中,設(shè)備100上的輸入法編輯器實(shí)例103可以接收一個(gè)或多個(gè)拼音組合輸入,并將組合輸入轉(zhuǎn)換成漢字字符。輸入法編輯器實(shí)例103可以例如使用從鍵擊接收的拼音音節(jié)或字符的組合來(lái)表示漢字字符。每個(gè)拼音音節(jié)可以例如對(duì)應(yīng)于西式鍵盤中的一個(gè)鍵。使用拼音輸入法編輯器,用戶可以利用組合輸入來(lái)輸入漢字字符,所述組合輸入包括表示漢字字符的讀音的一個(gè)或多個(gè)拼音音節(jié)。使用拼音ME,用戶也可以利用組合輸入來(lái)輸入包括兩個(gè)或更多個(gè)漢字字符的詞,所述組合輸入包括表示漢字字符的讀音的兩個(gè)或更多個(gè)拼音音節(jié)。然而,用于其他語(yǔ)言的輸入法也可以受益于此。 也可以將其他應(yīng)用軟件105存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元104和/或106中,包括網(wǎng)頁(yè)瀏覽器、文字處理程序、電子郵件客戶端等。這些應(yīng)用中的每一個(gè)可以生成相應(yīng)的應(yīng)用實(shí)例107。每個(gè)應(yīng)用實(shí)例可以定義這樣的環(huán)境,該環(huán)境通過(guò)向用戶呈現(xiàn)數(shù)據(jù)并便利來(lái)自用戶的數(shù)據(jù)輸入而便利用戶體驗(yàn)。例如,網(wǎng)頁(yè)瀏覽器軟件可以生成搜索引擎環(huán)境;電子郵件軟件可以生成電子郵件環(huán)境;文字處理程序可以生成編輯器環(huán)境等。 在一些實(shí)現(xiàn)方式中,也可以使用可訪問(wèn)設(shè)備100的遠(yuǎn)程計(jì)算系統(tǒng)118來(lái)編輯詞符文字。例如,設(shè)備100可以是經(jīng)由網(wǎng)絡(luò)116提供詞符文字編輯能力的服務(wù)器。在一些示例中,用戶可以使用例如客戶端計(jì)算機(jī)的遠(yuǎn)程計(jì)算系統(tǒng)來(lái)編輯存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元104和/或數(shù)據(jù)存儲(chǔ)單元106中的詞符文字。設(shè)備100可以例如通過(guò)網(wǎng)絡(luò)接口 112來(lái)選擇字符和接收來(lái)自用戶的組合輸入。處理設(shè)備102可以例如識(shí)別與所選字符相鄰的一個(gè)或多個(gè)字符,并且基于所接收的組合輸入和相鄰字符來(lái)識(shí)別一個(gè)或多個(gè)候選字符。設(shè)備100可以將包括候選字符的數(shù)據(jù)通信傳送回遠(yuǎn)程計(jì)算系統(tǒng)。 圖2是示例輸入法編輯器系統(tǒng)120的框圖??梢岳缡褂幂斎敕ň庉嬈鞔a101和相關(guān)聯(lián)的數(shù)據(jù)存儲(chǔ)單元104和106來(lái)實(shí)現(xiàn)輸入法編輯器系統(tǒng)120。輸入法編輯器系統(tǒng)120包括輸入法編輯器引擎122、詞典124和組合輸入表126。也可以使用其他存儲(chǔ)架構(gòu)。用戶可以使用ME系統(tǒng)120來(lái)例如通過(guò)打出拼音字符而輸入中文詞或短語(yǔ),并且ME引擎122將搜索詞典124以識(shí)別候選詞典條目,每個(gè)候選詞典條目包括與拼音字符匹配的一個(gè)或多個(gè)中文詞或短語(yǔ)。 詞典124包括條目128,條目128對(duì)應(yīng)于在一個(gè)或多個(gè)語(yǔ)言模型中使用的詞符文字的字符、詞或短語(yǔ),以及基于羅馬語(yǔ)的字母或西式字母(例如英語(yǔ)、德語(yǔ)、西班牙語(yǔ)等)的字符、詞、和短語(yǔ)。每個(gè)詞對(duì)應(yīng)于某種含義并且可以包括一個(gè)或多個(gè)字符。例如,含義為"即ple"的詞"蘋果"包括兩個(gè)漢字字符"蘋"和"果",分別對(duì)應(yīng)于拼音輸入"ping"和"guo"。字符"果"也是詞,其含義為"fruit"(水果)。詞典條目128可以包括例如成語(yǔ)(例如"胸有成竹")、專有名稱(例如"奧地利共和國(guó)")、歷史人物或名人的名字(例如"成吉思汗")、技術(shù)術(shù)語(yǔ)(例如"全球定位系統(tǒng)")、短語(yǔ)(例如"一去不復(fù)返")、書(shū)名(例如"紅樓夢(mèng)")、藝術(shù)作品名稱(例如"清明上河圖")或電影名(例如"臥虎藏龍")等,每一個(gè)包括一個(gè)或多個(gè)字符。 類似地,詞典條目128可以包括例如地理實(shí)體或政治實(shí)體的名稱、商號(hào)的名稱、教育機(jī)構(gòu)的名稱、動(dòng)物或植物的名稱、機(jī)器名稱、歌曲名稱、游戲名稱、軟件程序名稱、消費(fèi)品名稱等。詞典124可以包括例如成千上萬(wàn)的字符、詞和短語(yǔ)。 在一些實(shí)現(xiàn)方式中,詞典124包括有關(guān)兩個(gè)字符之間的關(guān)系的信息。例如,詞典124可以包括根據(jù)與字符相鄰的其他字符而分配給所述字符的分?jǐn)?shù)或概率值。詞典124可以包括條目分?jǐn)?shù)或條目概率值,每個(gè)條目分?jǐn)?shù)或條目概率值與詞典條目128中的一個(gè)相關(guān)聯(lián),以指示通常條目128被使用的頻率。 組合輸入表126包括組合輸入與存儲(chǔ)在詞典124中的條目128之間的關(guān)聯(lián)。在一些實(shí)現(xiàn)方式中,組合輸入表126可以將詞典124中的每個(gè)條目鏈接到輸入法編輯器引擎122所使用的組合輸入(例如拼音輸入)。例如輸入法編輯器引擎122可以使用詞典124和組合輸入表126中的信息來(lái)將詞典124中的一個(gè)或多個(gè)條目與組合輸入表126中的一個(gè)或多個(gè)組合輸入相關(guān)聯(lián)和/或利用組合輸入表126中的一個(gè)或多個(gè)組合輸入識(shí)別詞典124中的一個(gè)或多個(gè)條目。也可以使用其他關(guān)聯(lián)。 在一些實(shí)現(xiàn)方式中,可以對(duì)ME系統(tǒng)120中的候選選擇排序,并且可以根據(jù)排序在輸入法編輯器中呈現(xiàn)候選選擇。 圖3是呈現(xiàn)五個(gè)經(jīng)排序的候選選擇302的示例輸入法編輯器環(huán)境300的示圖。每個(gè)候選選擇可以是詞典條目128或詞典條目128的組合?;谄匆糨斎?04識(shí)別候選選擇302。選擇指示符308包圍第一候選選擇,g卩"谷歌",指示該第一候選選擇被選擇。用戶也可以使用數(shù)字鍵來(lái)選擇候選選擇,或使用上下箭頭鍵來(lái)移動(dòng)選擇指示符308以選擇候選選擇。 如上所述,ME引擎122訪問(wèn)詞典124,以識(shí)別與用戶輸入的拼音字符相關(guān)聯(lián)的候選條目128。 ME引擎122使用條目概率值來(lái)排序候選條目和確定候選條目在ME環(huán)境300中的位置。例如,具有最高條目概率值的候選條目可以被ME引擎122放置在ME環(huán)境300中第一的位置。 可用新詞、名稱或短語(yǔ)周期性地更新詞典124。詞典124中的條目128的概率值可以隨時(shí)間變化。例如,ME系統(tǒng)120的用戶經(jīng)常打出的字符、詞和短語(yǔ)可以響應(yīng)于新聞事件和社會(huì)變化而隨時(shí)間變化。在一些實(shí)現(xiàn)方式中,可基于文檔語(yǔ)料庫(kù)中的字符、詞和短語(yǔ)的估計(jì)頻率,建立和/或更新詞典124的條目128所關(guān)聯(lián)的條目概率值。 圖4是例如能生成詞典406的示例詞概率確定引擎400的示圖,該詞典406存儲(chǔ)所選詞和與所選詞相關(guān)聯(lián)的概率值。每個(gè)詞可以具有一個(gè)或多個(gè)字符,諸如一個(gè)或多個(gè)漢字字符。在一些示例中,可以以表的形式提供詞語(yǔ)料庫(kù)402,所述表包括條目,每個(gè)條目包括一個(gè)詞。詞語(yǔ)料庫(kù)402也可以是文本文件,該文本文件包括由非字符符號(hào)(例如,逗號(hào)或分號(hào))分隔的詞。對(duì)于詞語(yǔ)料庫(kù)402中的每個(gè)詞,詞概率確定引擎400使用迭代過(guò)程來(lái)確定詞在文檔語(yǔ)料庫(kù)404中出現(xiàn)的概率。可以將詞語(yǔ)料庫(kù)402和文檔語(yǔ)料庫(kù)404存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元中。 在本說(shuō)明書(shū)中,根據(jù)上下文,術(shù)語(yǔ)"詞"可被廣義地定義為包括連續(xù)字符序列,該序列可以包括一個(gè)或多個(gè)詞。詞語(yǔ)料庫(kù)402中的每個(gè)"詞"是用于詞典124中的條目的候選,并且詞典124中的每個(gè)條目可以包括一個(gè)或多個(gè)詞。例如,在用表提供詞語(yǔ)料庫(kù)402的情況下,詞概率確定引擎400將每個(gè)條目看作是詞,即使該條目可能包括多于一個(gè)的詞。例如,條目可以包括短語(yǔ)、成語(yǔ)、專有名稱、歷史人物或名人的名字、技術(shù)術(shù)語(yǔ)、書(shū)名、藝術(shù)作品的名稱、電影名等。同樣地,在詞語(yǔ)料庫(kù)402被提供為其中詞由非字符符號(hào)(例如,逗號(hào))分隔的文本文件的情況下,詞概率確定引擎400將每一個(gè)在兩個(gè)所述符號(hào)之間的連續(xù)字符序列看作是詞,即使該連續(xù)字符序列可能包括多于一個(gè)的詞。因此,例如"蘋果"、"胸有成竹"、"奧地利共和國(guó)"、"成吉思汗"、"全球定位系統(tǒng)"、"一去不復(fù)返"、"紅樓夢(mèng)"、"清明上河圖"、"臥虎藏龍"等都被詞概率確定引擎400看作是詞。 在一些例子中,詞語(yǔ)料庫(kù)402可以包括中文語(yǔ)言和其他語(yǔ)言的詞。例如,可以從詞語(yǔ)料庫(kù)402和文檔語(yǔ)料庫(kù)404生成詞典406。詞語(yǔ)料庫(kù)402可以從預(yù)先建立的詞典、用戶搜索查詢或各種類型的文檔獲得。例如,詞語(yǔ)料庫(kù)402可以包括數(shù)千個(gè)或更多的詞和短語(yǔ)。在一些實(shí)現(xiàn)方式中,詞典406可以包括詞語(yǔ)料庫(kù)402中的詞和短語(yǔ)的子集。
在一些示例中,選擇集合402中的多個(gè)排名最高的詞和短語(yǔ),并將其添加到詞典406中。每個(gè)所選詞和短語(yǔ)變成詞典406的條目。與詞和短語(yǔ)相關(guān)聯(lián)的概率值變成與詞典條目相關(guān)聯(lián)的概率值。詞典406的條目可被添加到詞典124中,并且可被ME弓|擎122用來(lái)識(shí)別與用戶輸入的拼音字符相匹配的候選條目。 文檔語(yǔ)料庫(kù)404可以例如包括能通過(guò)網(wǎng)絡(luò)訪問(wèn)的文檔,例如網(wǎng)頁(yè)、電子郵件消息等。文檔語(yǔ)料庫(kù)404可以包括例如電子書(shū)、期刊文章、廣告、即時(shí)信息、博客、法律文檔或其他類型的文檔。文檔語(yǔ)料庫(kù)404可以包括涵蓋諸如新聞、電影、音樂(lè)、政治辯論、科學(xué)發(fā)現(xiàn)、法律問(wèn)題、健康問(wèn)題、環(huán)境問(wèn)題等等的范圍廣泛的各種主題的文檔??梢酝ㄟ^(guò)從例如公司內(nèi)聯(lián)網(wǎng)或公共因特網(wǎng)收集文檔來(lái)建立文檔語(yǔ)料庫(kù)404。因此所處理的文檔的數(shù)目可以在幾百萬(wàn)個(gè)文檔的范圍內(nèi)或更多。文檔可以包括例如漢字字符、英文字符、數(shù)字、標(biāo)點(diǎn)符號(hào)、符號(hào)、HTML代碼等。也可以使用其他文檔,例如文學(xué)作品的電子合集、電子圖書(shū)館等。
如在下面描述的,詞概率確定引擎400利用迭代過(guò)程、基于詞在文檔語(yǔ)料庫(kù)404中出現(xiàn)的頻率來(lái)確定詞語(yǔ)料庫(kù)402中詞的概率值。為了實(shí)現(xiàn)用于確定詞概率值的迭代過(guò)程,詞概率確定引擎400向詞語(yǔ)料庫(kù)402中的每個(gè)詞分配初始"軟計(jì)數(shù)",并確定每個(gè)詞的初始概率值。所述軟計(jì)數(shù)和概率值可以例如被存儲(chǔ)在一個(gè)或多個(gè)數(shù)據(jù)存儲(chǔ)單元中,諸如包括詞和相關(guān)聯(lián)的軟計(jì)數(shù)值的表412以及包括詞和相關(guān)聯(lián)的概率值的表414。也可使用其他數(shù)據(jù)
存儲(chǔ)架構(gòu)。 詞概率確定引擎400可以包括詞分割引擎410,其將每個(gè)文檔404劃分為句子,并基于詞語(yǔ)料庫(kù)402中的詞識(shí)別每個(gè)句子的所有可能的分割方式(也稱為"候選分割方式")。在文檔404的每個(gè)句子被分割為片段(segment)之后,每個(gè)片段是詞語(yǔ)料庫(kù)402中的詞。在一些實(shí)現(xiàn)方式中,"句子"是指在兩個(gè)非漢字字符(例如,標(biāo)點(diǎn)符號(hào)、數(shù)字、符號(hào)或HTML代碼)之間的連續(xù)漢字字符串。因此,由詞概率確定引擎400處理的每個(gè)句子不一定是語(yǔ)言規(guī)則所定義的完整句子。 在一些實(shí)現(xiàn)方式中,在迭代過(guò)程的每次迭代中,使用詞概率值來(lái)確定每個(gè)候選分割方式的概率值,并使用分割方式概率值來(lái)調(diào)整詞概率值。迭代可繼續(xù),直到出現(xiàn)收斂條件或終止條件為止,例如,最高100, 000個(gè)詞概率值穩(wěn)定,或完成100次迭代。在一些示例中,詞概率值在少于100次迭代之后收斂。 在一些實(shí)現(xiàn)方式中,可使用隱馬爾可夫模型對(duì)句子建模,在該模型中句子的正確分割方式是未知的。例如,可以利用期望最大化(E鄧ectation-Maximization)算法實(shí)現(xiàn)期望值處理(expectation processing)禾口最大化處理(maximization processing)。 期望值處理確定文檔語(yǔ)料庫(kù)404中所有句子的所有可能分割方式中的每個(gè)分割方式的期望似然(e鄧ectedlikelihood)(或概率)。最大化處理通過(guò)將出現(xiàn)該詞的所有分割方式的概率值相加、并使用歸一化因子對(duì)和歸一化,來(lái)確定每個(gè)詞的概率值。期望最大化算法識(shí)別趨向于使分割方式的概率值最大化的詞概率值和分割方式。例如,給定句子被分割為[wl][w2]. . [wk],以使TI p(Wi)最大化,其中[wl] 、 [w2]、...禾P [wk]中的每一個(gè)可以是詞語(yǔ)料庫(kù)402中的詞,并且p(Wi)是與詞Wi相關(guān)聯(lián)的詞概率值。也可以使用其他迭代過(guò)程來(lái)最大化詞概率值。 例如,詞語(yǔ)料庫(kù)402可包括詞[全]、[球]、[最]、[大]、[的]、[搜]、[索]、[引]、[擎]、[全球]、[最大]、[全球最大]、[搜索]、[引擎]、[搜索引擎],其中[]表示詞??梢曰谠~語(yǔ)料庫(kù)402中的詞,以幾種方式將句子"全球最大的搜索引擎"分割成片段,包括以下方式[全][球][最][大][的][搜][索][引][擎],
[全球][最大][的][搜][索][引][擎],
[全球][最大][的][搜索][引擎],以及
[全球最大][的][搜索引擎],等。 在以上示例分割方式中,每個(gè)片段都是詞語(yǔ)料庫(kù)402中的詞。這里,術(shù)語(yǔ)"分割方式"是指分割句子的方式。因此,[全][球][最][大][的][搜][索][引][擎]是一個(gè)分割方式,而[全球最大][的][搜索引擎]是另一分割方式。每個(gè)分割方式可以具有一個(gè)或多個(gè)片段。例如,分割方式[全][球][最][大][的][搜][索][引][擎]包括9個(gè)片段[全]、[球]、[最]、[大]、[的]、[搜]、[索]、[引]和[擎]。分割方式[全球最大][的][搜索引擎]包括3個(gè)片段[全球最大]、[的]和[搜索引擎]。
作為另一例子,假設(shè)詞語(yǔ)料庫(kù)402包括詞[A] 、 [B] 、 [C] 、 [AB] 、 [BC] 、 [ABC] 、 [D]和[E],其中"A"、"B"、"C"等中的每一個(gè)表示漢字字符?;谠~語(yǔ)料庫(kù)402中的詞,句子"ABCDAE"可按四種不同的方式分割
[ABC] [D] [A] [E],
[AB] [C] [D] [A] [E],
[A] [BC] [D] [A] [E],以及
[A] [B] [C] [D] [A] [E]。 詞概率確定引擎400向詞語(yǔ)料庫(kù)402中的每個(gè)詞分配初始"軟計(jì)數(shù)",并確定每個(gè)詞的初始概率值。詞軟計(jì)數(shù)對(duì)應(yīng)于詞在句子的各個(gè)分割方式中出現(xiàn)的次數(shù),其中考慮了分割方式的概率值。在一些實(shí)現(xiàn)方式中,文檔語(yǔ)料庫(kù)404中的不在詞語(yǔ)料庫(kù)402中的詞可被分配較低的初始概率值。在另一些實(shí)現(xiàn)方式中,可以忽略文檔語(yǔ)料庫(kù)404中的不在詞語(yǔ)料庫(kù)402中的詞。 在以上的例子中,假設(shè)每個(gè)詞[A] 、 [B] 、 [C] 、 [AB] 、 [BC] 、 [ABC] 、 [D]和[E]被初
始分配軟計(jì)數(shù)l。每個(gè)詞的概率值被確定為1/8,因?yàn)樗性~的所有概率值之和等于1。在
第一次迭代中,詞概率確定引擎400基于分割方式中詞的概率值確定每個(gè)分割方式的概率
值。例如可以通過(guò)將分割方式中所有詞的詞概率值相乘,來(lái)確定分割方式概率值。例如,句
子"ABCDAE"的分割方式的概率值可如下 P([ABC][D][A][E]) = (1/8)~4 = 0. 000244, P([AB] [C] [D] [A] [E]) = (1/8) ~5 = 0. 0000305, P([A] [BC] [D] [A] [E]) = (1/8) ~5 = 0. 0000305,以及 P([A] [B] [C] [D] [A] [E]) = (1/8) ~6 = 0. 00000381, 其中P([][][])表示分割方式[][][]的概率值。 然后,使用分割方式概率值調(diào)整詞的軟計(jì)數(shù)。如果詞在具有似然值Pi的分割方式
中出現(xiàn),則對(duì)于分割方式中每個(gè)詞的每次出現(xiàn),將該詞的軟計(jì)數(shù)值增加J^'其中t是
可能的分割方式的總數(shù),E tj^Pj是等于所有可能分割方式的似然值之和的歸一化因子???br>
以通過(guò)將其中出現(xiàn)特定詞的所有片段的分割方式概率值的貢獻(xiàn)相加,再除以歸一化因子,
來(lái)確定該特定詞的軟計(jì)數(shù)。歸一化因子例如可以是所有分割方式概率值之和。在上面的例
子中,歸一化因子可以等于(1/8) ~4+(1/8) ~5+(1/8) ~5+(1/8) ~6 = 0. 000309。 在上面的例子中,詞[A]在分割方式[ABC] [D] [A] [E]和[AB] [C] [D] [A] [E]中出
現(xiàn)一次,在分割方式[A] [BC] [D] [A] [E]和[A] [B] [C] [D] [A] [E]中出現(xiàn)兩次,所以A的軟計(jì)
數(shù)為 S(A) = ( (1/8) ~4+(1/8) ~5+(1/8) ~5承2+(1/8) ~6承2)/0. 000309 =0. 000343/0. 000309 = 1. 11 詞[B]在分割方式[A] [B] [C] [D] [A] [E]中出現(xiàn)一次,所以詞[B]的軟計(jì)數(shù)等于(1/8) ~6/0. 000309 = 0. 0123。詞[C]在分割方式[AB] [C] [D] [A] [E]和[A] [B] [C] [D] [A][E]中各出現(xiàn)一次,所以詞[C]的軟計(jì)數(shù)等于((1/8)~5+(1/8)~6)/0. 000309 = 0.111。詞[D]和[E]在每個(gè)分割方式中均出現(xiàn)一次,所以詞[D]和[E]的軟計(jì)數(shù)均等于((l/8)~4+(l/8) ~5+(l/8) ~6+(l/8~5)/0. 000309 = 1。詞[AB]在分割方式[AB] [C] [D] [A] [E]中出現(xiàn)一次,所以詞[AB]的軟計(jì)數(shù)等于(1/8) ~5/0. 000309 = 0. 0988。詞[BC]在分割方式[A] [BC][D] [A] [E]中出現(xiàn)一次,所以詞[BC]的軟計(jì)數(shù)等于(1/8) ~5/0. 000309 = 0. 0988。詞[ABC]在分割方式[ABC] [D] [A] [E]中出現(xiàn)一次,所以詞[ABC]的軟計(jì)數(shù)等于(1/8) "4/0. 000309=0. 79。
在第一次迭代結(jié)束時(shí),詞的軟計(jì)數(shù)如下 S([A]) = 1. 11, S([B]) =0. 0123, S([C]) = 0. 111, S([D]) = 1, S([E]) = 1,
12
S([AB]) = 0. 0988
S ([BC]) = 0. 0988,以及
S([ABC]) = 0. 79, 其中S([])表示詞[]的軟計(jì)數(shù)。詞軟計(jì)數(shù)被存儲(chǔ)在表412中,并且處理下一個(gè)句 子,例如"ABABCDD"以生成另一組詞軟計(jì)數(shù)。以類似的方式處理文檔404中的所有句子,為 每個(gè)句子產(chǎn)生一組詞軟計(jì)數(shù)。 在一些實(shí)現(xiàn)方式中,文檔語(yǔ)料庫(kù)404中不同類型的文檔可被賦予不同的權(quán)重,并 且可將來(lái)自特定類型文檔的句子的候選分割方式的概率值乘以與該特定類型文檔相關(guān)聯(lián) 的權(quán)重值。例如,與不那么正式并且可能包括錯(cuò)誤拼寫詞的文檔相比,更正式并且用詞更準(zhǔn) 確的文檔可被賦予較高的權(quán)重。例如,由主流報(bào)紙或雜志社出版的新聞文檔可被賦予權(quán)重 17,由個(gè)人生成的博客文檔可被賦予權(quán)重IO,其他一般的網(wǎng)頁(yè)文檔可被賦予權(quán)重l,并且電 子郵件消息可被賦予權(quán)重0. 7。 使用上面的例子,從主流報(bào)紙或雜志社的新聞文檔得到的分割方式概率值可被乘 以17,從個(gè)人的博客文檔得到的分割方式概率值可被乘以IO,從其他類型的網(wǎng)頁(yè)文檔得到 的分割方式概率值可被乘以l,并且從電子郵件消息得到的分割方式概率值可被乘以0. 7。 因?yàn)檐浻?jì)數(shù)是從分割方式概率值得到的,因此軟計(jì)數(shù)也被基于文檔類型進(jìn)行了加權(quán)。
在一些實(shí)現(xiàn)方式中,通過(guò)將每個(gè)詞的各個(gè)軟計(jì)數(shù)相加來(lái)合并從所有文檔中的所有 句子得到的詞軟計(jì)數(shù)。例如,通過(guò)累計(jì)(例如,加和)從所有文檔的所有句子得到的詞[A] 的軟計(jì)數(shù),來(lái)獲得詞[A]的最終軟計(jì)數(shù)。通過(guò)將每個(gè)詞的軟計(jì)數(shù)除以歸一化因子來(lái)確定該 詞的概率值。歸一化因子例如可以是所有詞的軟計(jì)數(shù)之和。
例如,假設(shè)累計(jì)的詞的軟計(jì)數(shù)為
S([A]) = 10,
S([B]) =2,
S([C]) =3,
S([D]) = 1,
S([E]) =3,
S([AB]) = 2,
S([BC]) = 2,以及
S([ABC]) = 1。 在上面的例子中,歸一化因子可等于(10+2+3+1+3+2+2+1) = 24。因此如下歸一化 詞概率值 P([A]) = 10/24 = 0. 417,
P([B]) = 2/24 = 0. 083,
P([C]) = 3/24 = 0. 125,
P([E]) = 3/24 = 0. 125,
P([D]) = 1/24 = 0. 0417,
P([AB]) = 2/24 = 0. 0833,
P([BC]) = 2/24 = 0. 0833,以及
P([ABC]) = 1/24 = 0. 0417。[Ol 043 詞和相關(guān)聯(lián)的詞概率值可被存儲(chǔ)在表414中,由此完成初次迭代。[Ol 05] 在第二次迭代中,根據(jù)在第一次迭代中獲得的詞概率值調(diào)整分割方式的概率值
P([ABC¨O¨A¨E])一0.0417.0.0417.0.417.0.125—0.0000906,
)一0.0833*0.125.0.0417.0.417.0.125—0.0000226,[O1083 P([A¨BC¨O¨A¨E])一0.417.0.0833*0.0417.0.417.0.125—0.0000755,和
[B][C][O][A][E])一0.417*0.0833*0.125*0.0417*0.417*0.125—0.00000944
同樣,根據(jù)分割方式概率值調(diào)整詞軟計(jì)數(shù)值,除以可以是所有可能分割方式的概率值之和的歸一化因子。在這個(gè)例子中,歸一化因子等于0.0000906+0.0000226+0.0000755+0.00000944—0.000 198。詞軟計(jì)數(shù)值如下
]]] S([A])一(0.0000906+0.0000226+0.0000755*2+0.00000944*2)/o.000 198一1.34,
]2] S([B])一0.00000944/0.000198—0.0477,
]3] S([C])一(0.0000226+0.0000755)/o.000198—0.0000981/o.000198—0.495,
]4] S([O])一(0.0000906+0.0000226+0.0000755+0.00000944)/o.000 198一l,
]5] S([E])一(0.0000906+0.0000226+0.0000755+0.00000944)/o.000 198一l,
]6] S([AB])一0.0000226/0.000198—0.114,
]7] S([BC])一0.0000755/0.000198—0.38l,以及
]8] S([ABC])一0.0000906/0.000198—0.458。
來(lái)自所有句子的軟計(jì)數(shù)被累計(jì)并歸一化,以獲得詞的概率值,其被用來(lái)在下次迭代中計(jì)算分割方式概率值,等等。迭代過(guò)程繼續(xù),直到出現(xiàn)收斂或終止條件為止。例如,迭代過(guò)程可以在預(yù)定次數(shù)的迭代之后終止,或者在詞概率值收斂、從而一次迭代與下一次迭代的詞概率值變化小于預(yù)定閡值之后終止。也可以使用其他收斂或終止條件。[Ol 20] 在一些實(shí)現(xiàn)方式中,可以通過(guò)動(dòng)態(tài)編程執(zhí)行軟計(jì)數(shù)。例如,假設(shè)句子是“CiC,C,...C.”,其中“C、”、“C,”、“C,”等中的每一個(gè)是字符。對(duì)于該句子內(nèi)的任何詞C十..Cj2,其計(jì)數(shù)可s~Dli S、、““.p(Cjl...C、,)。S.。right/o,其中
。S、,““是在C、,左邊的子串的所有可能分割方式的似然值之和,
。p(C?。瓹j,)是詞Cjl...Cj,的概率的當(dāng)前估計(jì)值,
sl*={,(C真)擴(kuò)/真2\∑咒夕‘q…Ci一1’.甲/fz>2
對(duì)該句子從左到右,對(duì)于i—l、2、…n+l計(jì)算S,““的值,結(jié)束時(shí)獲得0=s=。然后,對(duì)該句子從右到左,對(duì)于i—n、n—l、…3、2、l計(jì)算值S、”‘ht。然后可以使用公式Sj““.p(C十..Cj)。
,。right/o計(jì)算詞C山..Cj的軟計(jì)數(shù)值。
在一些實(shí)現(xiàn)方式中,可以利用文檔的索引(indexing)和/或并行處理。因?yàn)槲臋n 語(yǔ)料庫(kù)404中的文檔數(shù)量可能較大,所以索引和/或并行處理能減少處理時(shí)間。在一些實(shí) 現(xiàn)方式中,可使用例如MapReduce (映射化簡(jiǎn))編程模型并行地執(zhí)行對(duì)文檔語(yǔ)料庫(kù)404的處 理,M即Reduce編程模型在Jeffery Dean和San jay Ghemawat于2004年12月在加州三藩 市舉辦的第六屆Symposiumon Operating System Design and Implementation會(huì)議上發(fā) 表的論文"MapReduce-Simplified Data Processing on Large Clusters,,中有所描述,該 文章的內(nèi)容通過(guò)引用合并于此。 在迭代過(guò)程結(jié)束時(shí),確定詞語(yǔ)料庫(kù)402中所有詞的最終概率值。在一些實(shí)現(xiàn)方式 中,詞概率確定引擎400選擇預(yù)定數(shù)量(例如300,000個(gè))的具有最高概率值的詞,并將所 選詞及其所關(guān)聯(lián)的詞概率值存儲(chǔ)在將由頂E系統(tǒng)120訪問(wèn)的詞典406中。詞典406可以是 例如圖2的詞典124的一部分。在其他實(shí)現(xiàn)方式中,可以將整個(gè)詞語(yǔ)料庫(kù)和相關(guān)聯(lián)的概率 值存儲(chǔ)在詞典406中。 圖5是示例過(guò)程500的流程圖,該過(guò)程500基于詞在文檔語(yǔ)料庫(kù)(例如文檔語(yǔ)料 庫(kù)404)中的出現(xiàn)來(lái)確定詞語(yǔ)料庫(kù)(例如詞語(yǔ)料庫(kù)402)中詞的概率值。過(guò)程500例如可以 在包括一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)的系統(tǒng)中實(shí)現(xiàn)。 過(guò)程500識(shí)別詞語(yǔ)料庫(kù)(501)。例如,詞語(yǔ)料庫(kù)可以是圖4的詞語(yǔ)料庫(kù)402。在過(guò) 程500中,將初始軟計(jì)數(shù)值分配給詞語(yǔ)料庫(kù)中的詞,并確定初始詞概率值(502)。例如,詞概 率確定引擎400可以分配初始軟計(jì)數(shù)值和初始詞概率值。 過(guò)程500識(shí)別文檔語(yǔ)料庫(kù)的文檔中的句子(504)。過(guò)程500基于詞語(yǔ)料庫(kù)中的詞 確定每個(gè)句子的候選分割方式(506)。例如,可由詞分割方式引擎410確定候選分割方式。
過(guò)程500基于例如候選分割方式中詞的概率值確定每個(gè)候選分割方式的概率值 (508)。例如,可以通過(guò)將候選分割方式中詞的概率值相乘,來(lái)確定候選分割方式的概率值。 在一些實(shí)現(xiàn)方式中,將分割方式概率值乘以基于得到該分割方式的文檔的類型的權(quán)重值。
過(guò)程500基于候選分割方式的概率值確定每個(gè)詞的軟計(jì)數(shù)(510)。例如,可以通過(guò) 將該詞在其中出現(xiàn)的所有分割方式的概率值的貢獻(xiàn)相加,來(lái)確定詞或短語(yǔ)的軟計(jì)數(shù)。
過(guò)程500通過(guò)將軟計(jì)數(shù)除以歸一化因子,來(lái)確定每個(gè)詞的概率值(512)。歸一化因 子例如可以是所有軟計(jì)數(shù)之和。 過(guò)程500確定是否出現(xiàn)終止條件(514)。終止條件例如可以包括執(zhí)行了預(yù)定次數(shù) 的迭代,或者概率值收斂,或者其他條件。 如果還未出現(xiàn)終止條件,則重復(fù)分割方式概率值的確定(508)、軟計(jì)數(shù)的確定 (510)和詞概率值的確定(512)。 如果出現(xiàn)終止條件,則過(guò)程500識(shí)別出預(yù)定數(shù)目的(例如,300, 000個(gè))具有最高 概率值的詞(516)。 過(guò)程500將所選擇的預(yù)定數(shù)目的詞添加到輸入法編輯器可訪問(wèn)的詞典中(518)。 例如,ME可以是圖2的ME系統(tǒng)120,而預(yù)定數(shù)目的詞可被包括在詞典124中。
圖6是示例過(guò)程600的流程圖,該過(guò)程600基于詞在文檔語(yǔ)料庫(kù)中的出現(xiàn),確定詞 語(yǔ)料庫(kù)中詞的概率值。過(guò)程600例如可在包括一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)的系統(tǒng)中實(shí)現(xiàn)。
過(guò)程600識(shí)別詞語(yǔ)料庫(kù)(602)。例如,詞語(yǔ)料庫(kù)可以是圖4的詞語(yǔ)料庫(kù)402。過(guò)程 600將詞概率值與詞語(yǔ)料庫(kù)中的每個(gè)詞相關(guān)聯(lián)(604)。例如,詞概率確定引擎400可以將詞概率值與詞語(yǔ)料庫(kù)402中的每個(gè)詞相關(guān)聯(lián)。過(guò)程600識(shí)別句子(606)。例如,詞概率確定引 擎400可以從文檔語(yǔ)料庫(kù)404識(shí)別句子。過(guò)程600基于詞語(yǔ)料庫(kù)確定句子的候選分割方式 (608)。例如,詞概率確定引擎400可以確定句子的候選分割方式。過(guò)程600基于與詞相關(guān) 聯(lián)的概率值和候選分割方式,迭代地調(diào)整詞語(yǔ)料庫(kù)中每個(gè)詞所關(guān)聯(lián)的概率值(610)。例如, 詞概率確定引擎400可以迭代地調(diào)整每個(gè)詞所關(guān)聯(lián)的概率值。 圖7是示例過(guò)程700的流程圖,該過(guò)程700基于詞在文檔語(yǔ)料庫(kù)中的出現(xiàn)確定詞 語(yǔ)料庫(kù)中詞的概率值。過(guò)程700例如可以在包括一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)的系統(tǒng)中實(shí)現(xiàn)。
過(guò)程700確定與詞語(yǔ)料庫(kù)的詞相關(guān)聯(lián)的詞概率值(702)。例如,詞語(yǔ)料庫(kù)可以是圖 4的詞語(yǔ)料庫(kù)402。過(guò)程700確定文檔語(yǔ)料庫(kù)中文檔的句子的候選分割方式(704)。例如, 文檔語(yǔ)料庫(kù)可以是文檔語(yǔ)料庫(kù)404。過(guò)程700基于與候選分割方式中的詞相關(guān)聯(lián)的詞概率 值,迭代地確定每個(gè)句子的每個(gè)候選分割方式的分割方式概率值(706)。例如,詞概率確定 引擎400可以迭代地確定分割方式概率值。過(guò)程700基于包括每個(gè)詞的候選分割方式的分 割方式概率值,迭代地調(diào)整每個(gè)詞的詞概率值(708)。例如,詞概率確定引擎400可以迭代 地調(diào)整詞概率值。 盡管已經(jīng)描述了各種實(shí)現(xiàn)方式,但也可以使用其他實(shí)現(xiàn)方式。例如,輸入引擎122 可以能夠?qū)?lái)自西式鍵盤的組合輸入映射為輸入中文、日文、韓文和/或印度文字符。在一 些示例中,所描述的一些或所有實(shí)現(xiàn)方式可應(yīng)用于其他輸入法,諸如倉(cāng)頡輸入法、九方輸入 法、五筆輸入法或其他輸入法。不同類型文檔的權(quán)重值、文檔類型的分類可以與上面描述的 那些不同。被處理的詞、短語(yǔ)和文檔的數(shù)目、以及文檔語(yǔ)料庫(kù)404中的文檔的來(lái)源可以與上 述那些不同。 在一些實(shí)現(xiàn)方式中,可以使用幾個(gè)詞典,例如法律詞典、醫(yī)學(xué)詞典、科技詞典和通 用詞典??梢詮呐c特定領(lǐng)域相關(guān)聯(lián)的詞典開(kāi)始建立每個(gè)詞典。使用詞概率確定引擎400來(lái) 處理具有偏向于與詞典相關(guān)聯(lián)的領(lǐng)域的文檔的文檔語(yǔ)料庫(kù)。例如,為了建立法律詞典中的 詞的概率值,可以使用具有偏向于法律領(lǐng)域的文檔的文檔語(yǔ)料庫(kù)。IME系統(tǒng)120可以允許用 戶在輸入字符時(shí)選擇感興趣的領(lǐng)域(例如法律、醫(yī)學(xué)、科技),并且可以從與感興趣的領(lǐng)域 相關(guān)的詞典中選擇候選詞。 在本說(shuō)明書(shū)中描述的主題和功能操作的實(shí)施例可以以數(shù)字電子電路、或計(jì)算機(jī)軟 件、固件或硬件(包括在本說(shuō)明書(shū)中公開(kāi)的結(jié)構(gòu)及其結(jié)構(gòu)等價(jià)物)或它們中的一個(gè)或多個(gè) 的組合來(lái)實(shí)現(xiàn)??梢詫⒃诒菊f(shuō)明書(shū)中描述的主題的實(shí)施例實(shí)現(xiàn)為一個(gè)或多個(gè)計(jì)算機(jī)程序產(chǎn) 品,即編碼在有形的程序載體上以供數(shù)據(jù)處理裝置執(zhí)行或控制數(shù)據(jù)處理裝置的操作的計(jì)算 機(jī)程序指令的一個(gè)或多個(gè)模塊。有形的程序載體可以是傳播信號(hào)或計(jì)算機(jī)可讀介質(zhì)。傳播 信號(hào)是人工生成的信號(hào),例如機(jī)器生成的電信號(hào)、光信號(hào)或電磁信號(hào),其被生成以將信息編 碼為用于傳輸?shù)竭m合的接收器裝置以供計(jì)算機(jī)執(zhí)行。計(jì)算機(jī)可讀介質(zhì)可以是機(jī)器可讀存儲(chǔ) 設(shè)備、機(jī)器可讀存儲(chǔ)基片(storage substrate)、存儲(chǔ)器設(shè)備、影響機(jī)器可讀傳播信號(hào)的物 質(zhì)成分、或它們中的一個(gè)或多個(gè)的組合。 術(shù)語(yǔ)"數(shù)據(jù)處理裝置"涵蓋用于處理數(shù)據(jù)的所有裝置、設(shè)備和機(jī)器,例如包括可編 程處理器、計(jì)算機(jī)、多個(gè)處理器或計(jì)算機(jī)。裝置除了硬件外還可以包括創(chuàng)建所討論的計(jì)算機(jī) 程序的執(zhí)行環(huán)境的代碼,例如構(gòu)成處理器固件、協(xié)議棧、數(shù)據(jù)庫(kù)管理系統(tǒng)、操作系統(tǒng)或它們 中的一個(gè)或多個(gè)的組合的代碼。
計(jì)算機(jī)程序(也稱為程序、軟件、軟件應(yīng)用、腳本或代碼)可以以任何形式的編程 語(yǔ)言來(lái)編寫,包括編譯語(yǔ)言或解釋語(yǔ)言、或者聲明性語(yǔ)言或過(guò)程語(yǔ)言,并且其可以以任何形 式來(lái)部署,包括作為單機(jī)程序或作為模塊、組件、子例程或適合于在計(jì)算環(huán)境中使用的其它 單元。計(jì)算機(jī)程序不必對(duì)應(yīng)于文件系統(tǒng)中的文件??梢詫⒊绦虼鎯?chǔ)在擁有其它程序或數(shù)據(jù) 的文件的一部分中(例如存儲(chǔ)在標(biāo)記語(yǔ)言文檔中的一個(gè)或多個(gè)腳本)、存儲(chǔ)在專用于所討 論的程序的單個(gè)文件中、或存儲(chǔ)在多個(gè)協(xié)作文件中(例如存儲(chǔ)一個(gè)或多個(gè)模塊、子程序或 代碼部分的文件)??梢詫⒂?jì)算機(jī)程序部署為在一個(gè)計(jì)算機(jī)或位于一個(gè)地點(diǎn)或跨多個(gè)地點(diǎn) 分布并且通過(guò)通信網(wǎng)絡(luò)互聯(lián)的多個(gè)計(jì)算機(jī)上執(zhí)行。 在本說(shuō)明書(shū)中描述的過(guò)程和邏輯流程可以由 一個(gè)或多個(gè)可編程處理器來(lái)執(zhí)行,所 述可編程處理器執(zhí)行一個(gè)或多個(gè)計(jì)算機(jī)程序以通過(guò)對(duì)輸入數(shù)據(jù)進(jìn)行操作并且生成輸出來(lái) 執(zhí)行功能。所述過(guò)程和邏輯流程也可以由專用邏輯電路來(lái)執(zhí)行,并且裝置也可以被實(shí)現(xiàn)為 專用邏輯電路,所述專用邏輯電路例如FPGA(現(xiàn)場(chǎng)可編程門陣列)或ASIC(專用集成電 路)。 作為示例,適合于執(zhí)行計(jì)算機(jī)程序的處理器包括通用和專用微處理器兩者、以及 任何類型的數(shù)字計(jì)算機(jī)的任何一個(gè)或多個(gè)處理器。通常,處理器將從只讀存儲(chǔ)器或隨機(jī)存 取存儲(chǔ)器或它們兩者接收指令和數(shù)據(jù)。計(jì)算機(jī)的必要元件是用于執(zhí)行指令的處理器和用于 存儲(chǔ)指令和數(shù)據(jù)的一個(gè)或多個(gè)存儲(chǔ)器設(shè)備。通常,計(jì)算機(jī)也將包括一個(gè)或多個(gè)用于存儲(chǔ)數(shù) 據(jù)的大容量存儲(chǔ)設(shè)備,或者被可操作地耦接到一個(gè)或多個(gè)大容量存儲(chǔ)設(shè)備以從其接收數(shù)據(jù) 或者向其傳送數(shù)據(jù),或者兩者均可,所述大容量存儲(chǔ)設(shè)備例如磁盤、磁光盤或光盤。然而, 計(jì)算機(jī)并非一定要具有這樣的設(shè)備。此外,計(jì)算機(jī)可被嵌入另一個(gè)設(shè)備中,所述另一個(gè)設(shè) 備例如移動(dòng)電話、個(gè)人數(shù)字助理(PDA)、移動(dòng)音頻或視頻播放器、游戲控制臺(tái)、全球定位系統(tǒng) (GPS)接收器,等等。 適合于存儲(chǔ)計(jì)算機(jī)程序指令和數(shù)據(jù)的計(jì)算機(jī)可讀介質(zhì)包括所有形式的非易失性 存儲(chǔ)器、介質(zhì)和存儲(chǔ)設(shè)備,作為示例包括例如EPR0M、 EEPR0M和閃存設(shè)備的半導(dǎo)體存儲(chǔ)設(shè) 備;例如內(nèi)部硬盤或可移動(dòng)盤的磁盤;磁光盤;以及CD ROM和DVD R0M盤。處理器和存儲(chǔ) 器可由專用邏輯電路補(bǔ)充或者并入專用邏輯電路。 為了提供與用戶的交互,在本說(shuō)明書(shū)中描述的主題的實(shí)施例可被實(shí)現(xiàn)在具有用于 向用戶顯示信息的顯示設(shè)備(例如,CRT(陰極射線管)或LCD(液晶顯示器)監(jiān)視器)和 用戶能夠通過(guò)其向計(jì)算機(jī)提供輸入的鍵盤和指示設(shè)備(例如,鼠標(biāo)或軌跡球)的計(jì)算機(jī)上。 也可以使用其它種類的設(shè)備來(lái)提供與用戶的交互;例如,提供給用戶的反饋可以是任意形 式的感官反饋,例如視覺(jué)反饋、聽(tīng)覺(jué)反饋或觸覺(jué)反饋;并且可以以包括聲音、語(yǔ)音或觸覺(jué)輸 入的任意形式接收來(lái)自用戶的輸入。 在本說(shuō)明書(shū)中描述的主題的實(shí)施例能夠被實(shí)現(xiàn)在計(jì)算系統(tǒng)中,所述計(jì)算系統(tǒng)包括 后端組件,例如作為數(shù)據(jù)服務(wù)器;或包括中間件組件,例如應(yīng)用服務(wù)器;或包括前端組件, 例如具有圖形用戶界面或網(wǎng)頁(yè)瀏覽器的客戶端計(jì)算機(jī),用戶能夠通過(guò)所述圖形用戶界面或 網(wǎng)頁(yè)瀏覽器與在本說(shuō)明書(shū)中描述的主題的實(shí)現(xiàn)方式進(jìn)行交互;或者包括一個(gè)或多個(gè)這樣的 后端組件、中間件組件或前端組件的任意組合。所述系統(tǒng)的組件可以通過(guò)任意形式或介質(zhì) 的數(shù)字?jǐn)?shù)據(jù)通信(例如,通信網(wǎng)絡(luò))進(jìn)行互連。通信網(wǎng)絡(luò)的示例包括局域網(wǎng)("LAN")和廣 域網(wǎng)("WAN"),例如因特網(wǎng)。
計(jì)算系統(tǒng)可包括客戶端和服務(wù)器。客戶端和服務(wù)器通常彼此遠(yuǎn)離并且典型地通過(guò) 通信網(wǎng)絡(luò)進(jìn)行交互。客戶端和服務(wù)器的關(guān)系借助于在各個(gè)計(jì)算機(jī)上運(yùn)行并且彼此具有客戶 端_服務(wù)器關(guān)系的計(jì)算機(jī)程序而產(chǎn)生。 盡管本說(shuō)明書(shū)包含許多具體的實(shí)現(xiàn)方式細(xì)節(jié),但是這些不應(yīng)當(dāng)被解釋為對(duì)任何發(fā) 明的范圍或者可能主張的專利權(quán)利的范圍的限制,相反地,應(yīng)被解釋為是對(duì)可能特定于具 體發(fā)明的具體實(shí)施例的特征的描述。在本說(shuō)明書(shū)中,在不同實(shí)施例的上下文中描述的某些 特征也可在單個(gè)實(shí)施例中以組合的方式實(shí)現(xiàn)。相反地,在單個(gè)實(shí)施例的上下文中描述的各 種特征也可單獨(dú)地或以任何合適的子組合形式在多個(gè)實(shí)施例中實(shí)現(xiàn)。此外,盡管特征可能 在上面被描述為以某種組合形式起作用,甚至最初被主張為以某種組合形式起作用,但是 來(lái)自所主張的組合的一個(gè)或多個(gè)特征在一些情況下可從組合中去除,并且所主張的組合可 被指向子組合或子組合的變型。 類似地,雖然操作在附圖中以特定的次序描述,但是這不應(yīng)當(dāng)被理解為必須以示 出的特定次序或以順序地次序來(lái)執(zhí)行這些操作,或者必須執(zhí)行所有圖示的操作,才能獲得 期望的結(jié)果。在某些情況中,多任務(wù)和并行處理可能是有益的。此外,在上面描述的實(shí)施例 中的各個(gè)系統(tǒng)組件的分割不應(yīng)當(dāng)被理解為在所有的實(shí)施例中必須是這樣的分割,并且應(yīng)當(dāng) 理解,所描述的程序組件和系統(tǒng)通??梢员灰黄鸺稍趩蝹€(gè)軟件產(chǎn)品中或打包到多個(gè)軟件 產(chǎn)品中。 已描述了在本說(shuō)明書(shū)中描述的主題的特定實(shí)施例。其它實(shí)施例也在所附權(quán)利要求 書(shū)的范圍內(nèi)。例如,可以以不同的次序執(zhí)行在權(quán)利要求書(shū)中敘述的動(dòng)作而仍然獲得期望的 結(jié)果。作為一個(gè)示例,在附圖中描述的過(guò)程并非必須要求示出的特定次序或者順序的次序 才能獲得期望的結(jié)果。在某些實(shí)現(xiàn)方式中,多任務(wù)和并行處理可能是有益的。
18
權(quán)利要求
一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括識(shí)別詞語(yǔ)料庫(kù);將詞概率值與詞語(yǔ)料庫(kù)中的每個(gè)詞相關(guān)聯(lián);識(shí)別句子;基于詞語(yǔ)料庫(kù)確定句子的候選分割方式;以及基于相關(guān)聯(lián)的詞概率值和候選分割方式,迭代地調(diào)整詞語(yǔ)料庫(kù)中每個(gè)詞的相關(guān)聯(lián)的詞概率值。
2. 如權(quán)利要求1所述的方法,包括將由具有最高相關(guān)聯(lián)詞概率值的詞所定義的詞語(yǔ)料 庫(kù)的一部分存儲(chǔ)到輸入法編輯器詞典中。
3. 如權(quán)利要求1所述的方法,其中所述詞概率值對(duì)應(yīng)于相關(guān)聯(lián)的詞在句子中出現(xiàn)的概率。
4. 如權(quán)利要求1所述的方法,其中確定句子的候選分割方式包括基于詞語(yǔ)料庫(kù)確定至 少一個(gè)句子的所有可能的分割方式。
5. 如權(quán)利要求1所述的方法,包括確定句子的每個(gè)候選分割方式的分割方式概率值。
6. 如權(quán)利要求5所述的方法,其中確定句子的每個(gè)候選分割方式的分割方式概率值包 括基于與候選分割方式中的詞相關(guān)聯(lián)的詞概率值,確定每個(gè)候選分割方式的分割方式概率值。
7. 如權(quán)利要求5所述的方法,其中基于相關(guān)聯(lián)的詞概率值和候選分割方式迭代地調(diào) 整詞語(yǔ)料庫(kù)中每個(gè)詞的相關(guān)聯(lián)的詞概率值包括基于句子的候選分割方式的分割方式概率 值,迭代地調(diào)整每個(gè)詞的相關(guān)聯(lián)的詞概率值。
8. 如權(quán)利要求1所述的方法,其中迭代地調(diào)整每個(gè)詞的相關(guān)聯(lián)的詞概率值包括,對(duì)于 每次迭代,基于與候選分割方式中的詞相關(guān)聯(lián)的詞概率值,確定句子的每個(gè)候選分割方式的分割 方式概率值,以及基于包括該詞的候選分割方式的分割方式概率值,調(diào)整每個(gè)詞的相關(guān)聯(lián)的詞概率值。
9. 如權(quán)利要求l所述的方法,其中確定句子中的詞的精確概率值包括將(a)所述詞 之前的子串的候選分割方式的概率值之和、(b)所述詞的概率值、以及(c)所述詞之后的子 串的候選分割方式的概率值之和相乘。
10. 如權(quán)利要求1所述的方法,其中確定句子的候選分割方式包括確定文檔中的多個(gè)句子的候選分割方式。
11. 如權(quán)利要求1所述的方法,包括識(shí)別多個(gè)文檔中的句子,以及對(duì)于每個(gè)句子,基于 詞語(yǔ)料庫(kù)確定該句子的候選分割方式。
12. 如權(quán)利要求11所述的方法,其中在確定詞概率值時(shí),向不同類型文檔中的句子賦 予不同的權(quán)重。
13. 如權(quán)利要求11所述的方法,其中所述文檔能夠通過(guò)公眾網(wǎng)、因特網(wǎng)訪問(wèn),或者由多 個(gè)第三方提供。
14. 如權(quán)利要求1所述的方法,其中所述詞包括中文、日文和韓文字符中的至少一個(gè)。
15. 如權(quán)利要求1所述的方法,其中所述詞包括漢字字符。
16. —種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括確定與詞語(yǔ)料庫(kù)的詞相關(guān)聯(lián)的詞概率值; 確定文檔語(yǔ)料庫(kù)中的文檔的句子的候選分割方式;基于與候選分割方式中的詞相關(guān)聯(lián)的詞概率值,迭代地確定每個(gè)句子的每個(gè)候選分割 方式的分割方式概率值;以及基于包括該詞的候選分割方式的分割方式概率值,迭代地調(diào)整每個(gè)詞的詞概率值。
17. 如權(quán)利要求16所述的方法,包括 識(shí)別文檔的文檔類型;基于所識(shí)別的文檔類型,向文檔中的句子分配權(quán)重;以及 基于權(quán)重確定分割方式概率值或詞概率值之一。
18. 如權(quán)利要求16所述的方法,包括基于包括該詞的分割方式的分割方式概率值,累 計(jì)每個(gè)詞的計(jì)數(shù)。
19. 如權(quán)利要求18所述的方法,其中累計(jì)每個(gè)詞的計(jì)數(shù)包括確定包括該詞的分割方 式的分割方式概率值之和。
20. 如權(quán)利要求18所述的方法,包括通過(guò)基于歸一化因子對(duì)詞的計(jì)數(shù)進(jìn)行歸一化,確 定每個(gè)詞的詞概率值。
21. 如權(quán)利要求20所述的方法,包括通過(guò)確定所有詞的計(jì)數(shù)之和,確定歸一化因子。
22. —種方法,包括建立詞典,該詞典包括詞和使用迭代過(guò)程確定的相關(guān)聯(lián)的詞概率值,該迭代過(guò)程包括 迭代地確定文檔的句子的候選分割方式的分割方式概率值,以及基于分割方式概率值迭代 地調(diào)整詞的詞概率值;以及提供輸入法編輯器,該輸入法編輯器被配置為從所述詞典中選擇詞。
23. —種系統(tǒng),包括數(shù)據(jù)存儲(chǔ)單元,用來(lái)存儲(chǔ)詞語(yǔ)料庫(kù)和文檔語(yǔ)料庫(kù);以及處理引擎,被存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,并包括能夠被處理設(shè)備執(zhí)行的指令,所述指令 在被執(zhí)行時(shí)使得處理設(shè)備將詞概率值與詞語(yǔ)料庫(kù)中的每個(gè)詞相關(guān)聯(lián);基于詞語(yǔ)料庫(kù)確定文檔語(yǔ)料庫(kù)中每個(gè)文檔的每個(gè)句子的候選分割方式;以及 基于相關(guān)聯(lián)的詞概率值和候選分割方式,迭代地調(diào)整詞語(yǔ)料庫(kù)中每個(gè)詞的相關(guān)聯(lián)的詞 概率值。
24. —種系統(tǒng),包括數(shù)據(jù)存儲(chǔ)單元,用來(lái)存儲(chǔ)詞語(yǔ)料庫(kù)和文檔語(yǔ)料庫(kù);以及 處理設(shè)備,用來(lái)將詞概率值與詞語(yǔ)料庫(kù)中的每個(gè)詞相關(guān)聯(lián);基于詞語(yǔ)料庫(kù)確定文檔語(yǔ)料庫(kù)中每個(gè)文檔的每個(gè)句子的候選分割方式;以及 基于相關(guān)聯(lián)的詞概率值和候選分割方式,迭代地調(diào)整詞語(yǔ)料庫(kù)中每個(gè)詞的相關(guān)聯(lián)的詞 概率值。
25. —種系統(tǒng),包括數(shù)據(jù)存儲(chǔ)單元,用來(lái)存儲(chǔ)詞語(yǔ)料庫(kù)和文檔語(yǔ)料庫(kù); 處理設(shè)備,用來(lái)確定與詞語(yǔ)料庫(kù)的詞相關(guān)聯(lián)的詞概率值; 確定文檔語(yǔ)料庫(kù)中的文檔的句子的候選分割方式;基于與候選分割方式中的詞相關(guān)聯(lián)的詞概率值,迭代地確定每個(gè)句子的每個(gè)候選分割 方式的分割方式概率值;以及基于包括該詞的候選分割方式的分割方式概率值,迭代地調(diào)整每個(gè)詞的詞概率值。
26. —種系統(tǒng),包括數(shù)據(jù)存儲(chǔ)單元,用來(lái)存儲(chǔ)詞典,該詞典包括詞和使用迭代過(guò)程確定的相關(guān)聯(lián)的詞概率 值,所述迭代過(guò)程包括迭代地確定文檔的句子的候選分割方式的分割方式概率值,以及基 于分割方式概率值迭代地調(diào)整詞的詞概率值;以及處理設(shè)備,用來(lái)提供輸入法編輯器,該輸入法編輯器被配置為從所述詞典中選擇詞。
27. —種系統(tǒng),包括用于將詞概率值與詞語(yǔ)料庫(kù)中的詞相關(guān)聯(lián)的裝置; 用于識(shí)別多個(gè)文檔中的句子的裝置;用于基于詞語(yǔ)料庫(kù)確定每個(gè)句子的候選分割方式的裝置;以及用于基于相關(guān)聯(lián)的詞概率值和候選分割方式,迭代地調(diào)整詞語(yǔ)料庫(kù)中每個(gè)詞的相關(guān)聯(lián) 的詞概率值的裝置。
28. —種系統(tǒng),包括用于確定與詞語(yǔ)料庫(kù)的詞相關(guān)聯(lián)的詞概率值的裝置; 用于確定文檔語(yǔ)料庫(kù)中文檔的句子的候選分割方式的裝置;用于基于與候選分割方式中的詞相關(guān)聯(lián)的詞概率值,迭代地確定每個(gè)句子的每個(gè)候選 分割方式的分割方式概率值的裝置;以及用于基于包括該詞的候選分割方式的分割方式概率值,迭代地調(diào)整每個(gè)詞的詞概率值 的裝置。
全文摘要
一種方法包括識(shí)別詞語(yǔ)料庫(kù);將詞概率值與詞語(yǔ)料庫(kù)中的每個(gè)詞相關(guān)聯(lián);識(shí)別句子;基于詞語(yǔ)料庫(kù)確定句子的候選分割方式;以及基于與詞相關(guān)聯(lián)的概率值和候選分割方式,迭代地調(diào)整詞語(yǔ)料庫(kù)中每個(gè)詞的相關(guān)聯(lián)的詞概率值。
文檔編號(hào)G06F17/20GK101785000SQ200780100367
公開(kāi)日2010年7月21日 申請(qǐng)日期2007年6月25日 優(yōu)先權(quán)日2007年6月25日
發(fā)明者唐溪柳, 葛顯平 申請(qǐng)人:谷歌股份有限公司