新詞匯的發(fā)現(xiàn)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施例涉及自然語言處理技術(shù),尤其涉及一種新詞匯的發(fā)現(xiàn)方法及裝置。
【背景技術(shù)】
[0002] 現(xiàn)有技術(shù)中,對于新詞匯的發(fā)現(xiàn)方法主要有兩種:基于單字散串的方法和高頻重 復(fù)模式方法。
[0003] 圖1是現(xiàn)有技術(shù)中的基于單字散串的方法確定新詞匯的流程圖,如圖1所示,主要 步驟包括:步驟110、獲取文檔集;步驟120、利用現(xiàn)有分詞系統(tǒng)和詞典,對文檔集進(jìn)行分詞, 因新詞在分詞過程中無法被識別,會被分成獨(dú)立的單字和相鄰單字組成的字串,他們有可 能就是候選的新詞匯;步驟130、利用統(tǒng)計(jì)或規(guī)則的方法對所獲取的候選詞進(jìn)行檢測和過 濾,得到新詞匯?;诟哳l重復(fù)模式方法的出發(fā)點(diǎn)是:新詞具有較高的使用頻率,因此,從大 量語料中選出重復(fù)模式作為候選詞,再對候選詞利用統(tǒng)計(jì)或規(guī)則的方法進(jìn)行過濾,得到新 詞匯。
[0004] 上述兩種方法都是對文檔分詞后,從中獲取候選詞,再進(jìn)行相關(guān)處理。這種基于規(guī) 則的處理方法,因?yàn)樗迷~典不同,導(dǎo)致抽取到的新詞語也不相同,更為嚴(yán)重的是當(dāng)分詞字 典本身不準(zhǔn)確時(shí),不僅不利于新詞的發(fā)現(xiàn),更有可能提取出錯(cuò)誤的詞。另外,基于高頻重復(fù) 模式的方法將會忽略那些低頻新詞的提取,因此具有局限性。因此,上述兩種方法都存在著 提取的新詞匯不夠準(zhǔn)確的缺點(diǎn)。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明實(shí)施例提供一種新詞匯的發(fā)現(xiàn)方法及裝置,以提高發(fā)現(xiàn)的新詞 匯的準(zhǔn)確性。
[0006] 第一方面,本發(fā)明實(shí)施例提供了一種新詞匯的發(fā)現(xiàn)方法,所述方法包括:
[0007] 獲取文本文檔;
[0008] 將所述文本文檔分割成片段;
[0009] 以所述片段中的二元詞為基礎(chǔ),對所述二元詞進(jìn)行擴(kuò)展,并對所述二元詞及擴(kuò)展 得到的詞語以詞典為參考進(jìn)行過濾,得到候選詞匯;
[0010] 計(jì)算所述候選詞匯的內(nèi)密度和外密度;
[0011] 當(dāng)所述內(nèi)密度和外密度分別大于預(yù)設(shè)內(nèi)密度閾值和預(yù)設(shè)外密度閾值時(shí),確定所述 候選詞匯為新詞匯。
[0012] 第二方面,本發(fā)明實(shí)施例還提供了一種新詞匯的發(fā)現(xiàn)裝置,所述裝置包括:
[0013] 文檔獲取模塊,用于獲取文本文檔;
[0014] 片段分割模塊,用于將所述文本文檔分割成片段;
[0015] 候選詞匯確定模塊,用于以所述片段中的二元詞為基礎(chǔ),對所述二元詞進(jìn)行擴(kuò)展, 并對所述二元詞及擴(kuò)展得到的詞語以詞典為參考進(jìn)行過濾,得到候選詞匯;
[0016] 密度計(jì)算模塊,用于計(jì)算所述候選詞匯的內(nèi)密度和外密度;
[0017] 新詞匯確定模塊,用于當(dāng)所述內(nèi)密度和外密度分別大于預(yù)設(shè)內(nèi)密度閾值和預(yù)設(shè)外 密度閾值時(shí),確定所述候選詞匯為新詞匯。
[0018] 本發(fā)明實(shí)施例的技術(shù)方案,不需要利用詞典對文本文檔進(jìn)行分詞,而是利用詞典 對片段中的詞語進(jìn)行過濾得到候選詞匯,然后再根據(jù)內(nèi)密度和外密度對候選詞匯進(jìn)行過 濾,最終得到新詞匯,避開了詞典的局限性,提高了發(fā)現(xiàn)的新詞匯的準(zhǔn)確性。
【附圖說明】
[0019] 圖1是現(xiàn)有技術(shù)中的基于單字散串的方法確定新詞匯的流程圖;
[0020] 圖2是本發(fā)明實(shí)施例一提供的一種新詞匯的發(fā)現(xiàn)方法的流程圖;
[0021 ]圖3是本發(fā)明實(shí)施例二提供的一種新詞匯的發(fā)現(xiàn)方法的流程圖;
[0022] 圖4是本發(fā)明實(shí)施例三提供的一種新詞匯的發(fā)現(xiàn)裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023] 下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖?,此處所描 述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便 于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[0024] 實(shí)施例一
[0025]圖2是本發(fā)明實(shí)施例一提供的一種新詞匯的發(fā)現(xiàn)方法的流程圖,本實(shí)施例可適用 于發(fā)現(xiàn)文本文檔中的新詞匯的情況,該方法可以由計(jì)算機(jī)來執(zhí)行,具體包括如下步驟: [0026]步驟210,獲取文本文檔。
[0027] 利用爬蟲程序從網(wǎng)絡(luò)中爬取文本文檔,將爬取到的文本文檔存儲到數(shù)據(jù)庫中。
[0028] 在需要對文本文檔中的新詞匯進(jìn)行發(fā)現(xiàn)時(shí),可以從數(shù)據(jù)庫中存儲的數(shù)據(jù)中獲得所 述文本文檔,當(dāng)所述數(shù)據(jù)庫中沒有存儲所述文本文檔時(shí),也可以直接利用爬蟲程序從網(wǎng)絡(luò) 中爬取所述文本文檔。
[0029] 步驟220,將所述文本文檔分割成片段。
[0030] 將所述文本文檔分割成片段,如可以根據(jù)段落將所述文本文檔分割成片段,也可 以根據(jù)文本文檔中的標(biāo)點(diǎn)符號將所述文本文檔分割成片段,當(dāng)然,還可以有其他分割方法。 [0031 ]其中,將所述文本文檔分割成片段優(yōu)選包括:
[0032] 以所述文本文檔中的標(biāo)點(diǎn)符號為分隔符將所述文本文檔分割成片段。
[0033] 利用文本文檔中的標(biāo)點(diǎn)符號將所述文本文檔分割成長短不一的片段,這樣用標(biāo)點(diǎn) 符號隔開的兩個(gè)片段也可以說兩個(gè)短語,在局部范圍內(nèi)不是聯(lián)系緊密的新詞匯,這樣有利 于后續(xù)對候選詞匯的內(nèi)密度的計(jì)算。
[0034] 步驟230,以所述片段中的二元詞為基礎(chǔ),對所述二元詞進(jìn)行擴(kuò)展,并對所述二元 詞及擴(kuò)展得到的詞語以詞典為參考進(jìn)行過濾,得到候選詞匯。
[0035] 其中,二元詞是指由相鄰兩個(gè)字組成的詞語。
[0036] 以所述片段中的相鄰兩個(gè)字組成的二元詞為基礎(chǔ),對所述二元詞進(jìn)行擴(kuò)展,每次 擴(kuò)展一個(gè)或者多個(gè)字,直到得到設(shè)定元詞,將得到的包括所述二元詞在內(nèi)的詞語與詞典中 的詞語進(jìn)行匹配。如果匹配成功,說明該詞語在詞典中存在,則該詞語不是新詞匯;如果匹 配不成功,說明該詞語在詞典中不存在,則該詞語有可能是新詞匯,因此,確定該詞語為候 選詞匯。其中,設(shè)定元詞可以為七元詞,如"中華人民共和國"。當(dāng)然,在對片段中的二元詞進(jìn) 行擴(kuò)展時(shí)還需要考慮片段的長度,如:如果設(shè)定元詞為七元詞,而片段的實(shí)際長度為五個(gè)字 時(shí),則只需擴(kuò)展到五元詞。
[0037] 其中,以所述片段中的二元詞為基礎(chǔ),對所述二元詞進(jìn)行擴(kuò)展,并對所述二元詞及 擴(kuò)展得到的詞語以詞典為參考進(jìn)行過濾,得到候選詞匯優(yōu)選包括:
[0038] 將所述片段中的相鄰兩字組成的二元詞與詞典中的詞語進(jìn)行匹配,如果匹配不成 功,則確定所述二元詞為候選詞匯;
[0039]根據(jù)所述二元詞在所述片段中的位置、擴(kuò)展方向以及擴(kuò)展數(shù)目,對所述二元詞進(jìn) 行擴(kuò)展,獲取對應(yīng)的擴(kuò)展元詞;
[0040] 如果所述擴(kuò)展元詞與詞典中的詞語匹配不成功,則確定所述擴(kuò)展元詞為候選詞 匯。
[0041] 首先提取出片段中的二元詞,在提取二元詞時(shí),可以以片段中開頭的兩個(gè)字為基 礎(chǔ),依次往右交錯(cuò)一個(gè)字得到的二元詞(如片段中的第二個(gè)字和第三個(gè)字組成的二元詞,第 三個(gè)字和第四個(gè)字組成的二元詞等),直到得到片段中的最后一個(gè)二元詞,將得到的二元詞 與詞典中的詞語進(jìn)行匹配,如果匹配不成功,則確定所述二元詞為候選詞匯。然后以所述二 元詞為基礎(chǔ),根據(jù)所述二元詞在所述片段中的位置、擴(kuò)展方向以及擴(kuò)展數(shù)目,對所述二元詞 進(jìn)行擴(kuò)展,得到對應(yīng)的擴(kuò)展元詞,擴(kuò)展方向一般可以為向右擴(kuò)展,擴(kuò)展數(shù)目即擴(kuò)展的字?jǐn)?shù), 如對二元詞擴(kuò)展一個(gè)字得到三元詞,再對所述三元詞擴(kuò)展一個(gè)字得到四元詞(即對所述二 元